根據《Business Insider》報導,一位 AI 研究者正在挑戰整個產業衡量 AI 能力的方式——而他的結論令人不安:我們目前用來評估 AI 的工具,可能同時在高估和低估它的真實能力。

基準測試的根本問題

當 OpenAI 發布 GPT-5、Google 推出 Gemini Ultra、或 Anthropic 更新 Claude 時,它們都會附上一串基準測試(benchmark)分數——MMLU(大規模多任務語言理解)、HumanEval(程式碼生成)、MATH(數學推理)等。這些分數是 AI 公司證明「我們的模型比競爭對手更好」的核心武器。

但這位研究者指出了一個根本問題:基準測試衡量的是 AI 的「考試能力」,而不是它在真實世界中的「做事能力」。

這跟人類教育中的問題如出一轍——一個學生在標準化考試中拿到 99 分,不代表他在職場上就能解決實際問題。AI 也一樣:一個在 MMLU 上得分 90% 的模型,在處理你公司的真實客服問題時可能錯得離譜。

高估了什麼?低估了什麼?

被高估的部分: 封閉式問答能力。現有 benchmark 多數是選擇題或有標準答案的問題。AI 在這類任務上的表現確實接近甚至超越人類。但真實世界的問題幾乎都不是選擇題——它們模糊、多義、且沒有「標準答案」。

被低估的部分: 長期推理和工具使用。最新的 AI 模型在「代理式」(agentic)任務——連續使用多個工具、在多步驟流程中維持目標和記憶——上的能力進步極快,但目前的 benchmark 幾乎沒有涵蓋這類能力。研究者認為,這可能是 AI 正在發生「質變」的領域,但我們缺乏衡量它的工具。

新框架提議了什麼?

這位研究者提出的新框架核心包括三個維度。可靠性(Reliability)——不只是「能不能做對」,而是「十次裡面幾次做對」。AI 的表現穩定性比單次最佳表現重要得多。適應性(Adaptability)——面對全新的、訓練數據中不存在的問題時,AI 的表現如何?這才是衡量「真正的智慧」而非「記憶力」的指標。自主性(Autonomy)——AI 在沒有人類持續指導的情況下,能獨立完成多少步驟的任務?這是代理式 AI 最核心的能力維度。

為什麼這很重要?

如果我們衡量 AI 的方式是錯的,那麼建立在這些衡量之上的所有決策——從投資方向、到政策制定、到企業的 AI 採用策略——都可能建立在錯誤的前提上。

我們不知道 AI 到底有多聰明。而在搞清楚之前,也許應該對那些「在 benchmark 上超越人類」的宣稱保持更多懷疑。


📰 本文資料來源

  • Business Insider:〈This researcher has a new way to measure AI performance. It's not what you'd expect.〉