根據《Business Insider》報導,一位 AI 研究者正在挑戰整個產業衡量 AI 能力的方式——而他的結論令人不安:我們目前用來評估 AI 的工具,可能同時在高估和低估它的真實能力。
基準測試的根本問題
當 OpenAI 發布 GPT-5、Google 推出 Gemini Ultra、或 Anthropic 更新 Claude 時,它們都會附上一串基準測試(benchmark)分數——MMLU(大規模多任務語言理解)、HumanEval(程式碼生成)、MATH(數學推理)等。這些分數是 AI 公司證明「我們的模型比競爭對手更好」的核心武器。
但這位研究者指出了一個根本問題:基準測試衡量的是 AI 的「考試能力」,而不是它在真實世界中的「做事能力」。
這跟人類教育中的問題如出一轍——一個學生在標準化考試中拿到 99 分,不代表他在職場上就能解決實際問題。AI 也一樣:一個在 MMLU 上得分 90% 的模型,在處理你公司的真實客服問題時可能錯得離譜。
高估了什麼?低估了什麼?
被高估的部分: 封閉式問答能力。現有 benchmark 多數是選擇題或有標準答案的問題。AI 在這類任務上的表現確實接近甚至超越人類。但真實世界的問題幾乎都不是選擇題——它們模糊、多義、且沒有「標準答案」。
被低估的部分: 長期推理和工具使用。最新的 AI 模型在「代理式」(agentic)任務——連續使用多個工具、在多步驟流程中維持目標和記憶——上的能力進步極快,但目前的 benchmark 幾乎沒有涵蓋這類能力。研究者認為,這可能是 AI 正在發生「質變」的領域,但我們缺乏衡量它的工具。
新框架提議了什麼?
這位研究者提出的新框架核心包括三個維度。可靠性(Reliability)——不只是「能不能做對」,而是「十次裡面幾次做對」。AI 的表現穩定性比單次最佳表現重要得多。適應性(Adaptability)——面對全新的、訓練數據中不存在的問題時,AI 的表現如何?這才是衡量「真正的智慧」而非「記憶力」的指標。自主性(Autonomy)——AI 在沒有人類持續指導的情況下,能獨立完成多少步驟的任務?這是代理式 AI 最核心的能力維度。
為什麼這很重要?
如果我們衡量 AI 的方式是錯的,那麼建立在這些衡量之上的所有決策——從投資方向、到政策制定、到企業的 AI 採用策略——都可能建立在錯誤的前提上。
我們不知道 AI 到底有多聰明。而在搞清楚之前,也許應該對那些「在 benchmark 上超越人類」的宣稱保持更多懷疑。
📰 本文資料來源
- Business Insider:〈This researcher has a new way to measure AI performance. It's not what you'd expect.〉



編輯觀點
這篇報導觸及了AI產業最核心的認識論問題:我們真的知道AI有多聰明嗎?當OpenAI和Google每次發表新模型都聲稱在某某benchmark上「超越人類」時,那些benchmark是否真的代表了有意義的能力?這位研究者的挑戰是:我們需要更好的尺來量AI,否則我們其實不知道自己在跟什麼東西打交道。