什麼是 AI 幻覺？

AI 幻覺是 AI 自信地給你完全錯的答案的現象 — 編人名、編引用、編數字、編網址。它不會告訴你它在猜，語氣跟講真話的時候沒區別。這是 AI 本來就會的事，不是壞了。

為什麼 AI 會自信地講錯？

因為 AI 不是查資料，是猜「下一個字接哪個最像對的答案」。當它對某件事沒有真實資料，它會用最合理的句子填上去，而那個句子在語氣上跟真答案一模一樣。AI 沒有內建的「我不知道」按鈕，除非被訓練成會說。

ChatGPT、Gemini、Claude 誰幻覺最少？

沒有絕對贏家 — 不同領域、不同問法，排名會跳。各家在新版本通常會把幻覺率降低，但都還是會錯。重要的不是挑「最不幻覺的 AI」，是養成「重要的事一定驗證」的習慣。

AI 講錯的時候，看起來會不會比較沒自信？

不會。這是最大的陷阱。AI 對「自己答對的題」跟「自己亂猜的題」用一樣肯定的語氣。自信不是真實度訊號，自信只是預設值。看到 AI 很篤定就以為它對，反而最容易踩坑。

怎麼最快看出 AI 在胡說？

三個訊號：(1) 數字超出可能範圍 — 例如百分比應該不超過 100% 但 AI 講 205%，一定是編的。(2) 細節精確到不像它會記得的程度 — 法條編號、論文 ISBN、引用某年某月某日。(3) 同一個問題問兩次答案跳號 — 表示它在猜。任一個訊號中了，先當它在胡說，再去查證。

[LLM 101 #7] 怎麼看出 AI 在胡說？三個訊號讓你提早警覺

TL;DR

AI 自信地給你錯答案，語氣跟講真話一樣分不出來。三個訊號讓你提早警覺 — 數字超出可能範圍、細節精確到不像它會記得、重複問會跳號。任一個訊號中了，先當它在胡說，再去查證。我自己把一張投資組合截圖丟給 ChatGPT，它列出「+205% 損益」這種數學上不可能的數字 — 細節在文章裡。

白話版：你不能靠 AI 的語氣判斷對錯

最常見的誤解：「AI 講得這麼有自信，應該是真的吧？」

反了。AI 對「自己答對的題」跟「自己亂猜的題」用完全一樣的語氣，都很肯定。語氣不是真實度的訊號，語氣只是它的預設值。自信本身不能當證明。

這篇講三個你可以「不用 Google 也看得出來」的訊號 — 在你還沒驗證之前，先把警覺心提高。看出來之後怎麼查，看 Ask AI Right Express Part 5 的 30 秒驗證招式。

前言

我把一張投資組合的截圖丟給 ChatGPT 請它幫我看 — 上面有十幾個倉位、每個倉位有一欄損益%。ChatGPT 給我一份完整分析，語氣很專業，還給了「84/100」的桌面操盤手評分。我滿意地點點頭。

然後我看到它列的數字：「META 損益 +205%」、「GOOGL +155%」、「TSM +142%」。

愣了三秒 — 那個欄位的數學上限就是 +100%。最多就是 100%，不可能更高。沒有任何一個算法會讓那一格變成 +205%。

但 ChatGPT 講得非常自信。沒有「⚠️」、沒有「我不確定」、沒有「請驗證」。它直接把那個數字當成事實寫進分析裡，還基於那個數字給我建議。

這就是 AI 講錯（技術上叫幻覺） 最典型的樣子 — 不是它故意騙我，是它本來就會這樣。上一篇我們講了為什麼要在自己電腦跑 AI。這篇來聊一個更根本的問題：你怎麼在還沒查證之前，就先看出 AI 在胡說？

AI 在胡說 — 不是壞了，是 AI 本來就會這樣

先講清楚機制。

ChatGPT 跟 Claude 這類 AI 在做的事不是「查資料」，是「猜下一個字接哪個最合理」。它讀過幾兆字的文字，訓練的目標是 — 給定前面的句子，預測下一個字。整個運作邏輯就是不停地接龍。

問題來了：當你問一個它沒有真實資料的問題，它還是會接。因為它的工作就是「接下去」，不是「判斷自己知不知道」。它沒有內建的「我不知道」按鈕 — 除非被訓練成在某些情境下會說「我不確定」，不然預設就是繼續接下去。

接下去的句子在語氣上跟講真話完全一樣。因為它讀過的真話跟假話在訓練資料裡都用一樣的句型。它學的是句型，不是事實。

所以你會看到：

不存在的論文、不存在的作者、完美的格式
數學上不可能的數字、自信的語氣
對的網站名 + 編造的內容
一個 ISBN、一個法條編號、一個年月日 — 全部編的，但長得很像真的

這是所有靠「猜下一個字」運作的 AI 都有的結構性問題，不是某家做不好。這個現象在學界跟業界都叫 AI 幻覺。

訊號一：數字超出可能範圍 → 一定是編的

我前面講的 +205% 就是這類。數字超出物理或邏輯上限，一定是 AI 在編。

幾個常見的「不可能」：

看到這種數字	為什麼不可能
損益% 超過 +100%（在「賠最多賠光」的場景）	上限就是 100%，不可能更高
機率超過 100% 或小於 0%	機率就是 0 到 100
某網站每月訪客 100 億	全球人口才 80 億，訪客不會比人多
某 PDF 引用第 437 頁（原本只有 200 頁）	頁碼超出檔案範圍
某論文 2030 年發表	未來的論文還不存在

怎麼用：看到 AI 給的數字，先做一個 5 秒 sanity check — 這個數字在物理或邏輯上有可能嗎？有沒有上限？有沒有下限？單位有沒有錯？

5 秒。一個直覺。對不上就先當它在胡說。

我自己的 +205% 案例就是這樣抓出來的 — 不需要查任何資料、不需要用 Google，光看數字就知道不對。

為什麼 AI 會編這種一眼看穿的數字？因為它在猜「像損益百分比應該長怎樣」，不是真的算數學。它湊了一個「百分比 + 三位數 + 正負號」的格式，沒有去檢查那個格式對該欄位來說合不合理。

訊號二：細節精確到「不應該記得」的程度

第二個訊號比較微妙，但一旦你抓到 pattern，會發現到處都是。

AI 對籠統的東西通常很準，對精確到非常細的東西很會編。

問法	AI 表現
「量子力學大概是什麼？」	通常準 — 概念在訓練資料裡反覆出現
「請給我量子物理 1947 年的某篇關鍵論文，作者跟期刊號」	高機率編 — 這種精確細節大部分模型沒記住
「Python 是什麼？」	準
「Python 標準函式庫第 7.3.2 節在講什麼？」	高機率編

為什麼：AI 讀過的文字很多，籠統的概念講得很順。但要它「精確到某條某項某頁某行」，它通常沒記住那個細節 — 又必須接下去 — 結果就會拼一個形式像真的、但內容是編的版本。

怎麼用：當 AI 給你一個很精確的細節（具體年月日、法條編號、頁碼、ISBN、論文作者全名、財報數字），先問自己 — 這種細節合理嗎？AI 真的會記住嗎？越精確、越偏門，越要警覺。

真實案例：2025 年 5 月，Anthropic 的外部律師（Latham & Watkins 事務所）用 Claude 幫一份法庭證詞整理引用格式。對一篇真實存在的論文，Claude 編了錯誤的標題跟作者；原告律師在 5 月 13 日的聽證會上指出，法官隨後把那一段刪掉。幫 Anthropic 打官司的律師、用 Anthropic 自家的 Claude，照樣中招 — 這不是技術不夠強，是 AI 本來就會這樣。

訊號三：同一個問題問兩次，答案跳號 → 它在猜

第三個訊號很簡單，但很有用。

開一個新對話視窗（ChatGPT 點上方的「臨時聊天」、Gemini 也有「臨時聊天」這個功能），問同一個 AI 完全一樣的問題。然後對答案。

結果	表示什麼
兩次答案的細節完全一樣（人名、年份、條號、數字）	比較可能是它真的記住的
兩次答案在「同一個細節」上跳號（人名不一樣、年份差一年）	它在猜 — 沒記住，每次補的版本不同

為什麼會這樣：AI 在生成答案時有隨機性。如果它真的知道一件事，多問幾次通常都會給差不多同一個版本（因為那個版本機率最高）。如果它不知道，每次會補一個「機率還行」的版本，而那個版本每次都不一樣。

怎麼用：重要的細節值得花 30 秒問第二次。看到答案跳號，回到訊號一、訊號二再檢查一次，或者直接 Google 驗證。

⚠️ 注意：兩次答案一樣不代表對。它有可能兩次都用同一個錯誤版本（訓練資料裡的某個錯誤被它穩定地記住）。這招只能篩「它在亂猜」，不能證明「它答對了」。

看出來之後怎麼做

三個訊號中任何一個出現，先當 AI 在胡說。然後跑驗證：

數字 sanity 不過 → 直接不信。問 AI「這個數字怎麼算出來的？step by step」 — 通常它自己會發現算不出來。
細節太精確 → 把那個細節複製，丟 Google 搜。30 秒找不到，當它不存在。
重複問跳號 → 已經是它在猜的訊號，回到 1 跟 2 查證。

完整的驗證招式（包含「叫 AI 補連結點開看」、「換家問」、可以直接抄的 prompt）在 Ask AI Right Express Part 5：三招 30 秒驗證。

兩篇分工：這篇先講怎麼看出有鬼（看症狀，提高警覺），Part 5 再講真的要怎麼查（動手驗證，確認真假）。不會重複。

這篇的一句話

AI 的自信不是證明 — 看到數字超出範圍、細節太精確、重複問會跳號這三種訊號任一個，先當它在胡說。

下一篇：AI 怎麼「記住」你說過的話 — 對話記憶、真正的長期記憶、跟 context window 的差別。

這是「LLM 101」系列的第七篇。上一篇：為什麼要在自己電腦跑 AI。系列中的相關文章：Context Window 是什麼、怎麼選模型。