微軟有一支專門「壓力測試AI最壞情況」的祕密團隊

本文摘要

根據《Fast Company》報導，微軟內部有一支專門的「AI紅隊」（AI Red Team），他們的工作是系統性地測試微軟所有AI產品在最壞情況下的行為——從生成仇恨言論到洩漏機密資料，從被誘導做危險事情到產生嚴重錯誤的醫療或法律建議。這支團隊的存在，是微軟應對AI安全挑戰的核心防線之一。

根據《Fast Company》報導，在微軟總部的某個角落裡，有一群人的工作是整天做一件事：試圖讓微軟的 AI 做出最糟糕的事。

他們是微軟的「AI 紅隊」（AI Red Team）——一支專門「壓力測試 AI 最壞情況」的安全團隊。而他們找到的東西，可能會讓你對 AI 安全的理解完全改觀。

什麼是 AI 紅隊？

「紅隊」（Red Team）是一個源自軍事和資安的概念：組建一支模擬敵方或攻擊者的團隊，專門找防禦方的弱點。在網路安全領域，紅隊是那群被公司僱用來「入侵自己公司」的駭客。

微軟的 AI 紅隊做的事類似——但對象不是防火牆和伺服器，而是 AI 模型。他們的工作是系統性地測試：如果有人故意用最惡意的方式使用我們的 AI，它會做出什麼？

根據報導，AI 紅隊測試的場景涵蓋了一系列令人不安的可能性。

生成有害內容。 AI 能不能被誘導生成仇恨言論、暴力內容、兒童性剝削材料、或者針對特定族群的歧視性內容？紅隊會嘗試各種「提示注入」（prompt injection）和「越獄」（jailbreak）技術來繞過 AI 的安全防護。

洩漏訓練數據。 AI 模型是否會在回答中意外透露它訓練數據中的私人資訊——例如某個人的電話號碼、地址或醫療紀錄？

危險的專業建議。 如果有人問 AI 怎麼合成化學武器、怎麼製作炸彈、或者某個藥物的致死劑量——AI 會不會回答？更微妙的是：如果有人詢問法律或醫療建議，AI 給出的「聽起來很專業但實際上錯誤的」回答可能造成什麼後果？

大規模惡意使用。 如果有人用 AI 大量生成假新聞、深度偽造內容或釣魚郵件，系統能不能偵測到這種模式？

紅隊發現的每一個漏洞，都會被回報給 AI 產品團隊，然後被用來加強防護。具體的修復方式包括：在模型的安全訓練數據中加入更多的對抗性案例。在推理層加入額外的過濾器和安全檢查。修改系統提示（system prompt）以明確禁止特定類型的輸出。在某些情況下，直接限制模型在特定領域的回答能力。

但微軟的紅隊負責人在訪問中坦承：「這是一場永遠打不完的仗。」 每一次模型更新都可能引入新的漏洞。外部攻擊者的創意永遠超前於防禦者的想像。而且最難防的不是「明確的攻擊」——而是「看起來無害但組合起來有害的查詢」。

Anthropic 是業內另一家以 AI 安全聞名的公司，它的安全測試框架（包括 RSP 和紅線測試）是公開發布的。Google 的 DeepMind 和 OpenAI 也有內部的安全測試團隊，但具體的運作方式較不透明。

微軟的 AI 紅隊可能是目前規模最大的——因為微軟的 AI 產品線極廣（Copilot、Azure AI、Bing、Office、GitHub Copilot），每一個產品都需要獨立的安全測試。

在 AI 變得越來越強大的時代，最重要的工作之一可能不是讓 AI 做更多事——而是確保它不做不該做的事。而這就是紅隊的工作。

📰 本文資料來源

Fast Company:〈This Microsoft security team stress-tests AI for its worst-case scenarios〉