AI Agent 是什麼？跟 ChatGPT 有什麼不同？

ChatGPT 那種是「聊天助理」— 你問問題，它丟字回給你，要不要照做、怎麼做都是你的事。Agent 多了「自己動手」的能力 — 它能查資料、能讀檔、能跑工具、有些版本還能直接點你的滑鼠跟鍵盤。差別在誰在駕駛座：聊天時你開車、它導航；agent 模式下它開車、你監工。

Claude Computer Use 是什麼？

Anthropic 2024 年 10 月推出的功能，讓 Claude 能透過截圖看你的螢幕、用滑鼠跟鍵盤跟你電腦上的任何 app 互動 — 看畫面、決定要點哪、執行動作、重複。最初是 API 形式給工程師用，後來 2025 年 8 月推出「Claude for Chrome」瀏覽器擴充功能，一般人也能在 Chrome 裡看 Claude 操作網頁。

ChatGPT Agent Mode 跟 Operator 是同一個東西嗎？

近親。Operator 是 OpenAI 2025 年初先丟出來的 web agent，後來合進 ChatGPT 變成「Agent Mode」按鈕。功能上差不多 — 給它一個任務（例如「幫我訂明天到台北的車票」），它打開瀏覽器自己跑。

AI 能控制我電腦，安全嗎？

比你想像的容易出包。它會看錯按鈕、會點到廣告、會把你的隱私資料貼進不該貼的欄位。各家現在都還在 beta、都要求你逐步確認。簡單原則：機密的事不要丟、來路不明的網站不要丟、能自己 5 分鐘做完的事不要丟。值得丟的是那種「步驟很煩但低風險」的任務。

我現在能玩到什麼？

三條主線：ChatGPT 開「Agent Mode」按鈕（Plus 用戶能用）、Claude 的 Computer Use（API 或 Claude for Chrome 擴充）、Claude Code（給 dev，能讀寫你的檔案跟跑指令）。每一個都還在快速演化，半年內樣貌會再變。

[AI 會做事了] AI 像你一樣控制電腦 — 從聊天機器到動手做事，這兩年發生了什麼

TL;DR

ChatGPT 剛紅那會兒，AI 是「丟字給你、你照做」。這兩年它多了三層能力 — 能查資料、能跑工具、能直接點你的滑鼠 — 從聊天機器變成會用你電腦的東西。轉折點在於它從「給建議」變成「自己決定下一步」 — 風險變高了，但能做的事也變多了。三條主線你現在就玩得到：ChatGPT Agent Mode、Claude Computer Use、Claude Code。

白話版：我第一次看 AI 點滑鼠那天

我自己寫了個工具，讓 Claude Code 透過瀏覽器自動跑去 ChatGPT 跟 Gemini 那邊產圖、產影片 — 我下指令、它打開 Chrome、貼 prompt、按送出、等結果、下載檔案，整個過程不需要我介入。

第一次看著它跑完整輪，我愣了大概十秒。

不是「哇好聰明」那種讚嘆，是對 AI 是什麼這件事的認知突然滑了一格。在那之前，AI 對我而言是「問答機器 + 草稿產生器」— 一個聰明的工具，但要動手的還是我。看完那輪我意識到一件事：它已經不是只能丟字給我了，它能用我的電腦做事。

這篇是新系列「AI 會做事了」的第一篇 — 整理過去這兩年 AI 怎麼一步一步從聊天機器變成會動手的東西，跟為什麼這個改變值得停下來想一下。

前言

兩年前，ChatGPT 剛紅的時候，跟它互動的流程是這樣：

你：「幫我規劃台北兩天行程」 ChatGPT：丟一份文字版行程給你你：複製貼到 Google 地圖、打開訂房網、自己訂

它給字，你動手。

現在的版本，流程可能是這樣：

你：「幫我訂明天到台北的車票，下午兩點到三點之間的，靠窗」 ChatGPT Agent Mode：打開瀏覽器、跑去高鐵網站、選日期、選車次、選靠窗位、把票塞進你的購物車、回來問你「要不要刷下去」

它動手，你監工。

中間發生了什麼？這篇就是在講這條演化路線。

第一階段：AI 是聊天機器，你照著它的話自己做

2022 年底到 2023 年大半年，AI 對一般人來說就是「會丟字給你的東西」。

你問問題，它給答案。你要食譜，它給食譜。你要程式碼，它給程式碼。

但所有「動手」的事 — 開瀏覽器、複製貼上、按確認、傳訊息 — 全部是你的事。AI 是駕駛座旁邊那位很會講話的副駕，它指路、你開車。

這個階段的能力很清楚：

✅ 想點子、寫草稿、翻譯
✅ 解釋艱深概念、整理重點
❌ 不能查最新資訊（訓練資料截止）
❌ 不能讀你的檔案
❌ 不能離開那個對話框做任何事

每個用過 ChatGPT 的人對這個樣貌都熟。問題是 — 它停在這裡的時間沒有很長。

第二階段：AI 能查、能讀、能跑工具 — 但你還在駕駛座

大概 2024 年起，AI 開始接上工具。

OpenAI 在 ChatGPT 裡塞了即時搜尋、塞了能讀你上傳的 PDF、塞了「Code Interpreter / Data Analysis」讓它能跑 Python 算東西。Anthropic 的 Claude 也跟上 — 它能讀檔、能搜尋、能在大型 codebase 上跨檔動手。

這個階段重點是：AI 從「只會丟字」進化成「會用工具」。

你問「2026 諾貝爾物理獎得主是誰」— 它真的去查 Google，不是猜
你丟一份 200 頁 PDF — 它真的去讀，不是裝懂
你叫它算統計 — 它真的跑 Python 算，不是估

但這個階段有一個關鍵限制：工具的種類是 AI 公司事先決定好的，而且每次它要不要用工具、用哪個，你還能看到。你還在駕駛座。

那為什麼這算演化？因為它打破了「AI 只能在對話框裡」的天花板。一旦它能伸手出去拿工具，再加一步就是 — 它能伸手出去做事。

第三階段：AI 看著螢幕、自己點 — 你變監工

這就是最近這半年到一年發生的事。

三個有代表性的例子：

Anthropic Claude Computer Use（2024 年 10 月先 API beta，2025 年 8 月推出 Claude for Chrome 瀏覽器擴充功能）— Claude 能截你的螢幕、看畫面、決定要點哪、用滑鼠跟鍵盤操作，一直重複這個流程
OpenAI Operator / ChatGPT Agent Mode（2025 年 1 月 Operator → 7 月合進 ChatGPT 變 Agent Mode）— 給它一個目標，它自己開瀏覽器跑
Claude Code（2025 年 2 月推出）— 在 dev 機器上能讀寫檔案、跑指令、執行 git 操作

三者共通點：AI 從「丟字 / 用工具」進化成「自己決定下一步」。

實際感覺長這樣 — Claude Computer Use 在做事的時候：

[Claude 截圖] → 看到 Chrome 開著 Booking.com
[Claude 決定] → 「我要點搜尋欄、輸入台北」
[Claude 動作] → 滑鼠移到搜尋欄、click、鍵盤輸入「台北」
[Claude 截圖] → 看到搜尋結果出現
[Claude 決定] → 「我要點第一個結果...」
...

它在做的事跟你做的事長得一樣。只是它不會累、不會分心、有時候會點錯。

為什麼這是轉折點：多了一層「自己決定」

回頭看這條線：

階段	AI 的角色	你的角色
第一階段 (聊天)	給字	開車 + 動手
第二階段 (用工具)	給字 + 用內建工具	開車
第三階段 (動手)	自己決定 + 自己動手	監工

每個階段都加一層能力。第三階段加進來的那一層特別關鍵 — 是「自己決定下一步」。

以前 AI 出包，最糟就是給你一段錯的字 — 你看到、笑一下、丟掉。

現在 AI 出包 — 它可能已經點了下訂、可能已經把錯的資料貼進工作表、可能已經傳訊息出去。幻覺的代價從「看到一段假話」升級到「做了一件真事」。上一篇 LLM 101 Part 7 講怎麼看出 AI 在胡說 — 那篇的所有技巧，到第三階段價值翻倍。

所以這個系列其他幾篇會講：

第一手 demo — 我親自跑一輪、看它做了什麼、哪邊搞砸
決策表 — 什麼任務丟給 AI 划算、什麼不該丟

你現在能玩到什麼

入口	適合誰	風險度
ChatGPT Agent Mode	一般 Plus 使用者，想試試「叫 AI 自己上網跑流程」	中 — 在 OpenAI 的 sandbox 裡跑，限制比較多
Claude Computer Use / Claude for Chrome	想看 AI 操作自己電腦的人	中-高 — 它真的會點你電腦上的東西
Claude Code	工程師、想讓 AI 幫忙改 codebase	中 — 限制在 terminal，但能讀寫檔案

三個都還在快速演化 — 半年前的樣子跟現在不一樣，半年後一定又不一樣。這篇講的是大方向，不是操作手冊 — 操作手冊的壽命太短，等你看完它就過期。

這篇的一句話

AI 從「丟字給你」進化到「用你的電腦做事」，多出來的關鍵差別是「自己決定下一步」 — 能做的事多了，但出包時也更傷。

下一篇：我自己親手讓 Claude Computer Use 跑一個任務，看它順利做完什麼、又搞砸什麼。第一手 demo + 截圖。

這是新系列「AI 會做事了」第一篇。系列相關：LLM 101 Part 7 — 怎麼看出 AI 在胡說（AI 動手前的驗證能力）、LLM 101 Part 6 — 為什麼要在自己電腦跑 AI（哪些 AI 你能完全控制）。