根據《Engadget》報導,AI 公司 Anthropic 為旗下的程式開發工具 Claude Code 推出了升級版的「自動模式」(auto mode),加入了多項安全防護機制。這個升級的背景是:當 AI 從「回答你的問題」進化到「直接在你的電腦上執行指令」時,安全風險的性質發生了根本性的改變。

從「對話」到「行動」的安全跳躍

Claude Code 是 Anthropic 開發的 AI 程式助手,能直接在使用者的終端機(terminal)中讀取檔案、編輯程式碼、執行指令和管理版本控制。這類「代理式 AI」(agentic AI)跟傳統的聊天機器人有根本差異——它不只是生成文字,而是在真實的系統上採取行動

這帶來了一個傳統 AI 安全框架沒有充分處理的問題:如果 AI 誤解了使用者的意圖,或者執行了一連串看似合理但實際上有害的操作(例如刪除了不該刪的檔案、覆蓋了重要的設定),損害是即時且可能不可逆的。

新的安全防護包含什麼?

根據報導,升級後的自動模式新增了幾項關鍵防護:在執行可能造成不可逆影響的操作(如刪除檔案、修改系統設定)之前,自動暫停並請求使用者確認。建立了「沙箱」(sandbox)機制,限制 AI 能存取的系統範圍。對高風險操作(如推送程式碼到正式環境、執行資料庫變更)施加額外的審核層。以及改進了 AI 對自身操作的「不確定性」判斷能力——當它不確定某個操作是否符合使用者意圖時,傾向停下來詢問而非自行決定。

代理式 AI 的安全困境

Claude Code 面對的挑戰是整個「代理式 AI」領域的縮影。根據 AI 安全研究機構 METR 的分析,當 AI 系統從「生成建議」升級為「自主行動」時,安全要求不是線性增加——而是指數級跳升。

原因很簡單:一個回答錯誤的 AI 聊天機器人,使用者可以忽略它的回答;但一個執行了錯誤指令的 AI 程式助手,可能在使用者注意到之前就已經造成了損害。

Anthropic 一直以「安全優先」作為品牌定位——這次的升級再次印證了這個方向。在 OpenAI 和 Google 積極推進 AI agent 能力的競爭壓力下,Anthropic 選擇主動加上限制而非放任能力最大化,是一個值得關注的產業訊號。


📰 本文資料來源

  • Engadget:〈Anthropic releases safer Claude Code 'auto mode' to avoid major mishaps〉
  • 背景參考:METR(Model Evaluation & Threat Research)代理式 AI 安全評估報告