~/blog/ai-can-act-from-chat-to-clicks

AI 會做事了 · part 1

[AI 會做事了] AI 像你一樣控制電腦 — 從聊天機器到動手做事,這兩年發生了什麼

2026-05-273 分鐘閱讀#ai#ai-agent#computer-use#入門
cat --toc

TL;DR

ChatGPT 剛紅那會兒,AI 是「丟字給你、你照做」。這兩年它多了三層能力 — 能查資料、能跑工具、能直接點你的滑鼠 — 從聊天機器變成會用你電腦的東西。轉折點在於它從「給建議」變成「自己決定下一步」 — 風險變高了,但能做的事也變多了。三條主線你現在就玩得到:ChatGPT Agent ModeClaude Computer UseClaude Code

白話版:我第一次看 AI 點滑鼠那天

我自己寫了個工具,讓 Claude Code 透過瀏覽器自動跑去 ChatGPT 跟 Gemini 那邊產圖、產影片 — 我下指令、它打開 Chrome、貼 prompt、按送出、等結果、下載檔案,整個過程不需要我介入。

第一次看著它跑完整輪,我愣了大概十秒。

不是「哇好聰明」那種讚嘆,是對 AI 是什麼這件事的認知突然滑了一格。在那之前,AI 對我而言是「問答機器 + 草稿產生器」— 一個聰明的工具,但要動手的還是我。看完那輪我意識到一件事:它已經不是只能丟字給我了,它能用我的電腦做事

這篇是新系列「AI 會做事了」的第一篇 — 整理過去這兩年 AI 怎麼一步一步從聊天機器變成會動手的東西,跟為什麼這個改變值得停下來想一下。


前言

兩年前,ChatGPT 剛紅的時候,跟它互動的流程是這樣:

你:「幫我規劃台北兩天行程」 ChatGPT:丟一份文字版行程給你 你:複製貼到 Google 地圖、打開訂房網、自己訂

它給字,你動手。

現在的版本,流程可能是這樣:

你:「幫我訂明天到台北的車票,下午兩點到三點之間的,靠窗」 ChatGPT Agent Mode:打開瀏覽器、跑去高鐵網站、選日期、選車次、選靠窗位、把票塞進你的購物車、回來問你「要不要刷下去」

它動手,你監工。

中間發生了什麼?這篇就是在講這條演化路線。


第一階段:AI 是聊天機器,你照著它的話自己做

2022 年底到 2023 年大半年,AI 對一般人來說就是「會丟字給你的東西」。

你問問題,它給答案。你要食譜,它給食譜。你要程式碼,它給程式碼。

但所有「動手」的事 — 開瀏覽器、複製貼上、按確認、傳訊息 — 全部是你的事。AI 是駕駛座旁邊那位很會講話的副駕,它指路、你開車

這個階段的能力很清楚:

  • ✅ 想點子、寫草稿、翻譯
  • ✅ 解釋艱深概念、整理重點
  • ❌ 不能查最新資訊(訓練資料截止)
  • ❌ 不能讀你的檔案
  • ❌ 不能離開那個對話框做任何事

每個用過 ChatGPT 的人對這個樣貌都熟。問題是 — 它停在這裡的時間沒有很長


第二階段:AI 能查、能讀、能跑工具 — 但你還在駕駛座

大概 2024 年起,AI 開始接上工具

OpenAI 在 ChatGPT 裡塞了即時搜尋、塞了能讀你上傳的 PDF、塞了「Code Interpreter / Data Analysis」讓它能跑 Python 算東西。Anthropic 的 Claude 也跟上 — 它能讀檔、能搜尋、能在大型 codebase 上跨檔動手。

這個階段重點是:AI 從「只會丟字」進化成「會用工具」

  • 你問「2026 諾貝爾物理獎得主是誰」— 它真的去查 Google,不是猜
  • 你丟一份 200 頁 PDF — 它真的去讀,不是裝懂
  • 你叫它算統計 — 它真的跑 Python 算,不是估

但這個階段有一個關鍵限制:工具的種類是 AI 公司事先決定好的,而且每次它要不要用工具、用哪個,你還能看到。你還在駕駛座

那為什麼這算演化?因為它打破了「AI 只能在對話框裡」的天花板。一旦它能伸手出去拿工具,再加一步就是 — 它能伸手出去做事


第三階段:AI 看著螢幕、自己點 — 你變監工

這就是最近這半年到一年發生的事。

三個有代表性的例子:

  1. Anthropic Claude Computer Use(2024 年 10 月先 API beta,2025 年 8 月推出 Claude for Chrome 瀏覽器擴充功能)— Claude 能截你的螢幕、看畫面、決定要點哪、用滑鼠跟鍵盤操作,一直重複這個流程
  2. OpenAI Operator / ChatGPT Agent Mode(2025 年 1 月 Operator → 7 月合進 ChatGPT 變 Agent Mode)— 給它一個目標,它自己開瀏覽器跑
  3. Claude Code(2025 年 2 月推出)— 在 dev 機器上能讀寫檔案、跑指令、執行 git 操作

三者共通點:AI 從「丟字 / 用工具」進化成「自己決定下一步」

實際感覺長這樣 — Claude Computer Use 在做事的時候:

[Claude 截圖] → 看到 Chrome 開著 Booking.com
[Claude 決定] → 「我要點搜尋欄、輸入台北」
[Claude 動作] → 滑鼠移到搜尋欄、click、鍵盤輸入「台北」
[Claude 截圖] → 看到搜尋結果出現
[Claude 決定] → 「我要點第一個結果...」
...

它在做的事跟你做的事長得一樣。只是它不會累、不會分心、有時候會點錯。


為什麼這是轉折點:多了一層「自己決定」

回頭看這條線:

階段AI 的角色你的角色
第一階段 (聊天)給字開車 + 動手
第二階段 (用工具)給字 + 用內建工具開車
第三階段 (動手)自己決定 + 自己動手監工

每個階段都加一層能力。第三階段加進來的那一層特別關鍵 — 是「自己決定下一步」

以前 AI 出包,最糟就是給你一段錯的字 — 你看到、笑一下、丟掉。

現在 AI 出包 — 它可能已經點了下訂、可能已經把錯的資料貼進工作表、可能已經傳訊息出去。幻覺的代價從「看到一段假話」升級到「做了一件真事」。上一篇 LLM 101 Part 7 講怎麼看出 AI 在胡說 — 那篇的所有技巧,到第三階段價值翻倍。

所以這個系列其他幾篇會講:

  • 第一手 demo — 我親自跑一輪、看它做了什麼、哪邊搞砸
  • 決策表 — 什麼任務丟給 AI 划算、什麼不該丟

你現在能玩到什麼

入口適合誰風險度
ChatGPT Agent Mode一般 Plus 使用者,想試試「叫 AI 自己上網跑流程」中 — 在 OpenAI 的 sandbox 裡跑,限制比較多
Claude Computer Use / Claude for Chrome想看 AI 操作自己電腦的人中-高 — 它真的會點你電腦上的東西
Claude Code工程師、想讓 AI 幫忙改 codebase中 — 限制在 terminal,但能讀寫檔案

三個都還在快速演化 — 半年前的樣子跟現在不一樣,半年後一定又不一樣。這篇講的是大方向,不是操作手冊 — 操作手冊的壽命太短,等你看完它就過期。


這篇的一句話

AI 從「丟字給你」進化到「用你的電腦做事」,多出來的關鍵差別是「自己決定下一步」 — 能做的事多了,但出包時也更傷。

下一篇:我自己親手讓 Claude Computer Use 跑一個任務,看它順利做完什麼、又搞砸什麼。第一手 demo + 截圖。


這是新系列「AI 會做事了」第一篇。系列相關:LLM 101 Part 7 — 怎麼看出 AI 在胡說(AI 動手前的驗證能力)、LLM 101 Part 6 — 為什麼要在自己電腦跑 AI(哪些 AI 你能完全控制)。

常見問題

AI Agent 是什麼?跟 ChatGPT 有什麼不同?
ChatGPT 那種是「聊天助理」— 你問問題,它丟字回給你,要不要照做、怎麼做都是你的事。Agent 多了「自己動手」的能力 — 它能查資料、能讀檔、能跑工具、有些版本還能直接點你的滑鼠跟鍵盤。差別在誰在駕駛座:聊天時你開車、它導航;agent 模式下它開車、你監工。
Claude Computer Use 是什麼?
Anthropic 2024 年 10 月推出的功能,讓 Claude 能透過截圖看你的螢幕、用滑鼠跟鍵盤跟你電腦上的任何 app 互動 — 看畫面、決定要點哪、執行動作、重複。最初是 API 形式給工程師用,後來 2025 年 8 月推出「Claude for Chrome」瀏覽器擴充功能,一般人也能在 Chrome 裡看 Claude 操作網頁。
ChatGPT Agent Mode 跟 Operator 是同一個東西嗎?
近親。Operator 是 OpenAI 2025 年初先丟出來的 web agent,後來合進 ChatGPT 變成「Agent Mode」按鈕。功能上差不多 — 給它一個任務(例如「幫我訂明天到台北的車票」),它打開瀏覽器自己跑。
AI 能控制我電腦,安全嗎?
比你想像的容易出包。它會看錯按鈕、會點到廣告、會把你的隱私資料貼進不該貼的欄位。各家現在都還在 beta、都要求你逐步確認。簡單原則:機密的事不要丟、來路不明的網站不要丟、能自己 5 分鐘做完的事不要丟。值得丟的是那種「步驟很煩但低風險」的任務。
我現在能玩到什麼?
三條主線:ChatGPT 開「Agent Mode」按鈕(Plus 用戶能用)、Claude 的 Computer Use(API 或 Claude for Chrome 擴充)、Claude Code(給 dev,能讀寫你的檔案跟跑指令)。每一個都還在快速演化,半年內樣貌會再變。