根據《Fast Company》報導,在微軟總部的某個角落裡,有一群人的工作是整天做一件事:試圖讓微軟的 AI 做出最糟糕的事。

他們是微軟的「AI 紅隊」(AI Red Team)——一支專門「壓力測試 AI 最壞情況」的安全團隊。而他們找到的東西,可能會讓你對 AI 安全的理解完全改觀。

什麼是 AI 紅隊?

「紅隊」(Red Team)是一個源自軍事和資安的概念:組建一支模擬敵方或攻擊者的團隊,專門找防禦方的弱點。在網路安全領域,紅隊是那群被公司僱用來「入侵自己公司」的駭客。

微軟的 AI 紅隊做的事類似——但對象不是防火牆和伺服器,而是 AI 模型。他們的工作是系統性地測試:如果有人故意用最惡意的方式使用我們的 AI,它會做出什麼?

他們測試什麼?

根據報導,AI 紅隊測試的場景涵蓋了一系列令人不安的可能性。

生成有害內容。 AI 能不能被誘導生成仇恨言論、暴力內容、兒童性剝削材料、或者針對特定族群的歧視性內容?紅隊會嘗試各種「提示注入」(prompt injection)和「越獄」(jailbreak)技術來繞過 AI 的安全防護。

洩漏訓練數據。 AI 模型是否會在回答中意外透露它訓練數據中的私人資訊——例如某個人的電話號碼、地址或醫療紀錄?

危險的專業建議。 如果有人問 AI 怎麼合成化學武器、怎麼製作炸彈、或者某個藥物的致死劑量——AI 會不會回答?更微妙的是:如果有人詢問法律或醫療建議,AI 給出的「聽起來很專業但實際上錯誤的」回答可能造成什麼後果?

大規模惡意使用。 如果有人用 AI 大量生成假新聞、深度偽造內容或釣魚郵件,系統能不能偵測到這種模式?

找到漏洞之後呢?

紅隊發現的每一個漏洞,都會被回報給 AI 產品團隊,然後被用來加強防護。具體的修復方式包括:在模型的安全訓練數據中加入更多的對抗性案例。在推理層加入額外的過濾器和安全檢查。修改系統提示(system prompt)以明確禁止特定類型的輸出。在某些情況下,直接限制模型在特定領域的回答能力。

但微軟的紅隊負責人在訪問中坦承:「這是一場永遠打不完的仗。」 每一次模型更新都可能引入新的漏洞。外部攻擊者的創意永遠超前於防禦者的想像。而且最難防的不是「明確的攻擊」——而是「看起來無害但組合起來有害的查詢」。

其他公司在做嗎?

Anthropic 是業內另一家以 AI 安全聞名的公司,它的安全測試框架(包括 RSP 和紅線測試)是公開發布的。Google 的 DeepMind 和 OpenAI 也有內部的安全測試團隊,但具體的運作方式較不透明。

微軟的 AI 紅隊可能是目前規模最大的——因為微軟的 AI 產品線極廣(Copilot、Azure AI、Bing、Office、GitHub Copilot),每一個產品都需要獨立的安全測試。

在 AI 變得越來越強大的時代,最重要的工作之一可能不是讓 AI 做更多事——而是確保它不做不該做的事。而這就是紅隊的工作。


📰 本文資料來源

  • Fast Company:〈This Microsoft security team stress-tests AI for its worst-case scenarios〉