~/blog/llm-101-spot-ai-hallucination

LLM 101 · part 7

[LLM 101] 怎麼看出 AI 在胡說?三個訊號讓你提早警覺

2026-05-232 分鐘閱讀#llm#幻覺#入門#驗證English
cat --toc

TL;DR

AI 自信地給你錯答案,語氣跟講真話一樣分不出來。三個訊號讓你提早警覺 — 數字超出可能範圍細節精確到不像它會記得重複問會跳號。任一個訊號中了,先當它在胡說,再去查證。我自己把一張投資組合截圖丟給 ChatGPT,它列出「+205% 損益」這種數學上不可能的數字 — 細節在文章裡。

白話版:你不能靠 AI 的語氣判斷對錯

最常見的誤解:「AI 講得這麼有自信,應該是真的吧?」

反了。AI 對「自己答對的題」跟「自己亂猜的題」用完全一樣的語氣,都很肯定。語氣不是真實度的訊號,語氣只是它的預設值。自信本身不能當證明

這篇講三個你可以「不用 Google 也看得出來」的訊號 — 在你還沒驗證之前,先把警覺心提高。看出來之後怎麼查,看 Ask AI Right Express Part 5 的 30 秒驗證招式


前言

我把一張投資組合的截圖丟給 ChatGPT 請它幫我看 — 上面有十幾個倉位、每個倉位有一欄損益%。ChatGPT 給我一份完整分析,語氣很專業,還給了「84/100」的桌面操盤手評分。我滿意地點點頭。

然後我看到它列的數字:「META 損益 +205%」、「GOOGL +155%」、「TSM +142%」。

愣了三秒 — 那個欄位的數學上限就是 +100%。最多就是 100%,不可能更高。沒有任何一個算法會讓那一格變成 +205%。

但 ChatGPT 講得非常自信。沒有「⚠️」、沒有「我不確定」、沒有「請驗證」。它直接把那個數字當成事實寫進分析裡,還基於那個數字給我建議。

這就是 AI 講錯(技術上叫幻覺) 最典型的樣子 — 不是它故意騙我,是它本來就會這樣。上一篇我們講了為什麼要在自己電腦跑 AI。這篇來聊一個更根本的問題:你怎麼在還沒查證之前,就先看出 AI 在胡說?


AI 在胡說 — 不是壞了,是 AI 本來就會這樣

先講清楚機制。

ChatGPT 跟 Claude 這類 AI 在做的事不是「查資料」,是「猜下一個字接哪個最合理」。它讀過幾兆字的文字,訓練的目標是 — 給定前面的句子,預測下一個字。整個運作邏輯就是不停地接龍。

問題來了:當你問一個它沒有真實資料的問題,它還是會接。因為它的工作就是「接下去」,不是「判斷自己知不知道」。它沒有內建的「我不知道」按鈕 — 除非被訓練成在某些情境下會說「我不確定」,不然預設就是繼續接下去。

接下去的句子在語氣上跟講真話完全一樣。因為它讀過的真話跟假話在訓練資料裡都用一樣的句型。它學的是句型,不是事實。

所以你會看到:

  • 不存在的論文、不存在的作者、完美的格式
  • 數學上不可能的數字、自信的語氣
  • 對的網站名 + 編造的內容
  • 一個 ISBN、一個法條編號、一個年月日 — 全部編的,但長得很像真的

這是所有靠「猜下一個字」運作的 AI 都有的結構性問題,不是某家做不好。這個現象在學界跟業界都叫 AI 幻覺


訊號一:數字超出可能範圍 → 一定是編的

我前面講的 +205% 就是這類。數字超出物理或邏輯上限,一定是 AI 在編

幾個常見的「不可能」:

看到這種數字為什麼不可能
損益% 超過 +100%(在「賠最多賠光」的場景)上限就是 100%,不可能更高
機率超過 100% 或小於 0%機率就是 0 到 100
某網站每月訪客 100 億全球人口才 80 億,訪客不會比人多
某 PDF 引用第 437 頁(原本只有 200 頁)頁碼超出檔案範圍
某論文 2030 年發表未來的論文還不存在

怎麼用:看到 AI 給的數字,先做一個 5 秒 sanity check — 這個數字在物理或邏輯上有可能嗎?有沒有上限?有沒有下限?單位有沒有錯?

5 秒。一個直覺。對不上就先當它在胡說。

我自己的 +205% 案例就是這樣抓出來的 — 不需要查任何資料、不需要用 Google,光看數字就知道不對。

為什麼 AI 會編這種一眼看穿的數字?因為它在猜「像損益百分比應該長怎樣」,不是真的算數學。它湊了一個「百分比 + 三位數 + 正負號」的格式,沒有去檢查那個格式對該欄位來說合不合理。


訊號二:細節精確到「不應該記得」的程度

第二個訊號比較微妙,但一旦你抓到 pattern,會發現到處都是。

AI 對籠統的東西通常很準,對精確到非常細的東西很會編。

問法AI 表現
「量子力學大概是什麼?」通常準 — 概念在訓練資料裡反覆出現
「請給我量子物理 1947 年的某篇關鍵論文,作者跟期刊號」高機率編 — 這種精確細節大部分模型沒記住
「Python 是什麼?」
「Python 標準函式庫第 7.3.2 節在講什麼?」高機率編

為什麼:AI 讀過的文字很多,籠統的概念講得很順。但要它「精確到某條某項某頁某行」,它通常沒記住那個細節 — 又必須接下去 — 結果就會拼一個形式像真的、但內容是編的版本。

怎麼用:當 AI 給你一個很精確的細節(具體年月日、法條編號、頁碼、ISBN、論文作者全名、財報數字),先問自己 — 這種細節合理嗎?AI 真的會記住嗎?越精確、越偏門,越要警覺。

真實案例:2025 年 5 月,Anthropic 的外部律師(Latham & Watkins 事務所)用 Claude 幫一份法庭證詞整理引用格式。對一篇真實存在的論文,Claude 編了錯誤的標題跟作者;原告律師在 5 月 13 日的聽證會上指出,法官隨後把那一段刪掉。幫 Anthropic 打官司的律師、用 Anthropic 自家的 Claude,照樣中招 — 這不是技術不夠強,是 AI 本來就會這樣。


訊號三:同一個問題問兩次,答案跳號 → 它在猜

第三個訊號很簡單,但很有用。

開一個新對話視窗(ChatGPT 點上方的「臨時聊天」、Gemini 也有「臨時聊天」這個功能),問同一個 AI 完全一樣的問題。然後對答案。

結果表示什麼
兩次答案的細節完全一樣(人名、年份、條號、數字)比較可能是它真的記住的
兩次答案在「同一個細節」上跳號(人名不一樣、年份差一年)它在猜 — 沒記住,每次補的版本不同

為什麼會這樣:AI 在生成答案時有隨機性。如果它真的知道一件事,多問幾次通常都會給差不多同一個版本(因為那個版本機率最高)。如果它不知道,每次會補一個「機率還行」的版本,而那個版本每次都不一樣。

怎麼用:重要的細節值得花 30 秒問第二次。看到答案跳號,回到訊號一、訊號二再檢查一次,或者直接 Google 驗證

⚠️ 注意:兩次答案一樣不代表對。它有可能兩次都用同一個錯誤版本(訓練資料裡的某個錯誤被它穩定地記住)。這招只能篩「它在亂猜」,不能證明「它答對了」。


看出來之後怎麼做

三個訊號中任何一個出現,先當 AI 在胡說。然後跑驗證:

  1. 數字 sanity 不過 → 直接不信。問 AI「這個數字怎麼算出來的?step by step」 — 通常它自己會發現算不出來。
  2. 細節太精確 → 把那個細節複製,丟 Google 搜。30 秒找不到,當它不存在。
  3. 重複問跳號 → 已經是它在猜的訊號,回到 1 跟 2 查證。

完整的驗證招式(包含「叫 AI 補連結點開看」、「換家問」、可以直接抄的 prompt)在 Ask AI Right Express Part 5:三招 30 秒驗證

兩篇分工:這篇先講怎麼看出有鬼(看症狀,提高警覺),Part 5 再講真的要怎麼查(動手驗證,確認真假)。不會重複。


這篇的一句話

AI 的自信不是證明 — 看到數字超出範圍、細節太精確、重複問會跳號這三種訊號任一個,先當它在胡說。

下一篇:AI 怎麼「記住」你說過的話 — 對話記憶、真正的長期記憶、跟 context window 的差別。


這是「LLM 101」系列的第七篇。上一篇:為什麼要在自己電腦跑 AI。系列中的相關文章:Context Window 是什麼怎麼選模型

常見問題

什麼是 AI 幻覺?
AI 幻覺是 AI 自信地給你完全錯的答案的現象 — 編人名、編引用、編數字、編網址。它不會告訴你它在猜,語氣跟講真話的時候沒區別。這是 AI 本來就會的事,不是壞了。
為什麼 AI 會自信地講錯?
因為 AI 不是查資料,是猜「下一個字接哪個最像對的答案」。當它對某件事沒有真實資料,它會用最合理的句子填上去,而那個句子在語氣上跟真答案一模一樣。AI 沒有內建的「我不知道」按鈕,除非被訓練成會說。
ChatGPT、Gemini、Claude 誰幻覺最少?
沒有絕對贏家 — 不同領域、不同問法,排名會跳。各家在新版本通常會把幻覺率降低,但都還是會錯。重要的不是挑「最不幻覺的 AI」,是養成「重要的事一定驗證」的習慣。
AI 講錯的時候,看起來會不會比較沒自信?
不會。這是最大的陷阱。AI 對「自己答對的題」跟「自己亂猜的題」用一樣肯定的語氣。自信不是真實度訊號,自信只是預設值。看到 AI 很篤定就以為它對,反而最容易踩坑。
怎麼最快看出 AI 在胡說?
三個訊號:(1) 數字超出可能範圍 — 例如百分比應該不超過 100% 但 AI 講 205%,一定是編的。(2) 細節精確到不像它會記得的程度 — 法條編號、論文 ISBN、引用某年某月某日。(3) 同一個問題問兩次答案跳號 — 表示它在猜。任一個訊號中了,先當它在胡說,再去查證。