[AGENT] 6 分鐘閱讀OraCore 編輯部

Claude Code 也能操控 Mac 了

Claude Code 進入 Mac 桌面操控模式。它能點擊、捲動、開啟 App,先給 Claude Pro 與 Max 用戶測試,但 Anthropic 也坦白說,這功能慢、也更容易出錯。

分享 LinkedIn
Claude Code 也能操控 Mac 了

Claude Code 現在多了一個很猛的能力。它開始能直接操控你的 Mac 桌面。Anthropic 說,它可以在螢幕上點擊、捲動、開檔案,甚至跑 dev tools。這功能先以 research preview 形式推出。

講白了,這不是一般聊天機器人了。它不只會回你答案,還能真的去做事。Anthropic 先把它放給 Claude Pro 和 Max 訂戶,平台限定 macOS。公司自己也先講在前面:這功能比 API 直連慢,錯誤率也更高。

這種設計很有意思。以前 AI 是給建議,現在開始碰你的滑鼠和鍵盤。對開發者來說,這代表工作流又多了一層。對一般使用者來說,這代表 AI 不再只是在對話框裡嘴砲。

Claude Code 到底能做什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Anthropic 把自動化拆成兩條路。第一條是 Connectors。能直連的時候,Claude 會優先用 API 或資料連接方式去碰 app 和資料來源。第二條才是桌面控制。當連接器不行時,它才會請求權限,去操作整台機器。

這差很多。Connector 比較像後台叫資料。桌面控制則是看畫面辨識按鈕。前者靠結構化資料,後者靠視覺理解。講白了,前者像工程師,後者像臨時接手的人,得自己看著畫面猜下一步。

Anthropic 也沒有美化這件事。它直接說 computer use 比 connectors 慢,也更容易出錯。這句話很誠實。因為只要 UI 改一下,模型就可能找不到按鈕。只要視窗彈出來,流程就可能歪掉。

  • 先支援 macOS
  • 只開給 Claude Pro 與 Max
  • 目前是 research preview
  • 可開檔案、用瀏覽器、跑 dev tools
  • 可透過 Dispatch 遠端管理
  • 需要目標 Mac 保持開機

Anthropic 還提到一個搭配產品,叫 Claude Cowork。它和 Claude Code 都能在需要時用桌面。這表示 Anthropic 想做的,不只是單一功能,而是一整套 agent 工作方式。

我覺得這方向很務實。因為真實世界裡,很多軟體沒有 API。很多內部系統也很爛。這時候,讓 AI 直接看螢幕操作,反而是最土但最有效的路。

安全性不是裝飾品

這類功能最重要的,永遠是安全。Anthropic 說它有 prompt injection 防護,也會預設擋掉一些 app。像投資、交易平台,還有加密貨幣工具,都在限制名單裡。模型也被訓練成不要做危險操作,例如轉帳、改檔案、抓臉部影像,或輸入敏感資料。

但 Anthropic 也沒有裝作自己萬無一失。它直接說,這些保護「不是完美的」,也「不是絕對的」。這種話很少見,但很重要。因為只要是桌面級 agent,就一定會碰到 prompt injection、誤點按鈕、或讀到不該讀的畫面。

更麻煩的是,Claude 在 computer use 時,能看到螢幕上所有內容。這包含個資、敏感文件、私人訊息。你如果把它丟進日常工作桌面,那它看到的就不是只有你想讓它看的東西。

“The safeguards aren’t perfect and aren’t absolute,” Anthropic warns in its support material for computer use.

所以實務上,我會建議先用乾淨測試機。不要先拿正式帳號試。不要先開銀行頁面。不要先拿客戶資料玩。先從低風險流程開始,例如整理下載資料夾、跑本機測試、開文件、切換視窗。

如果你是團隊管理者,這點更重要。你得先定義哪些螢幕能看,哪些 app 能碰,哪些資料不能出現在那台 Mac 上。否則你不是在導入 AI。你是在導入一個會亂點的外包實習生。

跟其他桌面 AI 比,差在哪

這市場現在很擠。Perplexity 也推了 Personal ComputerManus 也有 My ComputerNVIDIA 也一直在推 agent 工具鏈。大家都在搶同一件事:讓 AI 不只會說,還能自己動手。

但路線不太一樣。Perplexity 比較像把搜尋和操作接在一起。Manus 則偏向通用 agent。Anthropic 的優勢,是它本來就很重視 Claude Code 這種開發者工作流。對寫軟體的人來說,這比純聊天介面更接近日常。

不過桌面控制也有天花板。它很吃畫面解析。它很吃延遲。它很吃 UI 穩定性。只要 app 更新,流程就可能壞掉。這也是為什麼 connector 仍然比較可靠。因為 API 比點按鈕穩太多。

  • Connector:適合結構化資料
  • 桌面控制:適合沒有 API 的軟體
  • API 方式:速度快,失誤少
  • 螢幕操作:彈性高,但更脆弱
  • Claude:偏開發者工作流
  • Perplexity:偏搜尋與任務操作
  • Manus:偏通用代理執行

如果硬要比,我會說 Anthropic 這步比較像務實派。它沒有說自己什麼都能做。它先承認這功能慢,也承認會出錯。這種態度,反而比喊口號更像真的產品。

這其實是軟體介面的警訊

這波變化背後,有一個更大的問題。很多軟體根本沒把機器人當第一級使用者。介面設計還是很人類中心。按鈕位置會亂跑。流程會藏在多層選單。很多內部工具甚至沒有正式 API。

所以 AI 一旦要進桌面,就得用最笨的方法。它要看圖。要猜元件。要試錯。這也解釋了為什麼 agent 產品一直卡在 demo 和實用之間。不是模型不夠聰明,是軟體世界本來就很亂。

從產業角度看,這會逼更多公司重新整理產品介面。至少對高頻流程來說,API、webhook、connector 會變更重要。因為一旦 AI 開始成為使用者,UI 的可機讀性就不再只是工程細節,而是產品競爭力。

這也會影響企業採購。以前你買 SaaS,看功能表。之後你可能還要看有沒有 connector,有沒有 agent-friendly workflow,有沒有可控權限。說真的,這會讓軟體供應商很頭痛,但也很合理。

對台灣開發者來說,這是個很實際的訊號。你如果在做內部系統、客服後台、或 DevOps 平台,現在就該想:我的系統能不能讓 AI 直接接?還是只能靠滑鼠慢慢點?

我怎麼看這件事

我覺得 Claude Code 這次不是在秀花招。它是在測一條很現實的路。當 API 不夠完整、資料格式不一致、系統又一堆舊包袱時,桌面操控就是最後那個補洞工具。

但它也不是你可以放心丟著跑的東西。它現在更像一個會自己動手的實習生。能幫忙,但要盯。能省時間,但不能放飛。這種定位其實很健康。

接下來我會看兩件事。第一,Anthropic 能不能把錯誤率壓下來。第二,企業會不會真的把它放進日常流程。只要這兩件事有一件做不好,這功能就很容易停在「很酷的 demo」。

如果你是開發者,我的建議很直接:先拿非正式環境試。先看它能不能在 5 到 10 分鐘內完成一個小任務。像開 repo、跑測試、抓 log、整理資料。不要一開始就丟最重要的工作。

接下來半年,這類桌面 agent 很可能會越來越多。問題不是會不會出現,而是誰先把可靠度做起來。你準備好把滑鼠交給 AI 了嗎?