衡量AI到底多聰明，這位研究者發明了全新的方法——結果令人不安

冠廷·2026-03-25·1 分鐘·704 字

本文摘要

根據《Business Insider》報導，一位AI研究者提出了衡量AI效能的全新框架，取代傳統的基準測試（benchmark）。他認為現有的AI評測方式存在根本性缺陷——它們測的是AI的「考試能力」而非「真實世界能力」，導致我們同時高估和低估了AI的表現。

深度解析

根據《Business Insider》報導，一位 AI 研究者正在挑戰整個產業衡量 AI 能力的方式——而他的結論令人不安：我們目前用來評估 AI 的工具，可能同時在高估和低估它的真實能力。

基準測試的根本問題

當 OpenAI 發布 GPT-5、Google 推出 Gemini Ultra、或 Anthropic 更新 Claude 時，它們都會附上一串基準測試（benchmark）分數——MMLU（大規模多任務語言理解）、HumanEval（程式碼生成）、MATH（數學推理）等。這些分數是 AI 公司證明「我們的模型比競爭對手更好」的核心武器。

但這位研究者指出了一個根本問題：基準測試衡量的是 AI 的「考試能力」，而不是它在真實世界中的「做事能力」。

這跟人類教育中的問題如出一轍——一個學生在標準化考試中拿到 99 分，不代表他在職場上就能解決實際問題。AI 也一樣：一個在 MMLU 上得分 90% 的模型，在處理你公司的真實客服問題時可能錯得離譜。

高估了什麼？低估了什麼？

被高估的部分： 封閉式問答能力。現有 benchmark 多數是選擇題或有標準答案的問題。AI 在這類任務上的表現確實接近甚至超越人類。但真實世界的問題幾乎都不是選擇題——它們模糊、多義、且沒有「標準答案」。

被低估的部分： 長期推理和工具使用。最新的 AI 模型在「代理式」（agentic）任務——連續使用多個工具、在多步驟流程中維持目標和記憶——上的能力進步極快，但目前的 benchmark 幾乎沒有涵蓋這類能力。研究者認為，這可能是 AI 正在發生「質變」的領域，但我們缺乏衡量它的工具。

新框架提議了什麼？

這位研究者提出的新框架核心包括三個維度。可靠性（Reliability）——不只是「能不能做對」，而是「十次裡面幾次做對」。AI 的表現穩定性比單次最佳表現重要得多。適應性（Adaptability）——面對全新的、訓練數據中不存在的問題時，AI 的表現如何？這才是衡量「真正的智慧」而非「記憶力」的指標。自主性（Autonomy）——AI 在沒有人類持續指導的情況下，能獨立完成多少步驟的任務？這是代理式 AI 最核心的能力維度。

為什麼這很重要？

如果我們衡量 AI 的方式是錯的，那麼建立在這些衡量之上的所有決策——從投資方向、到政策制定、到企業的 AI 採用策略——都可能建立在錯誤的前提上。

我們不知道 AI 到底有多聰明。而在搞清楚之前，也許應該對那些「在 benchmark 上超越人類」的宣稱保持更多懷疑。

📰 本文資料來源

Business Insider:〈This researcher has a new way to measure AI performance. It's not what you'd expect.〉

編輯觀點

這篇報導觸及了AI產業最核心的認識論問題：我們真的知道AI有多聰明嗎？當OpenAI和Google每次發表新模型都聲稱在某某benchmark上「超越人類」時，那些benchmark是否真的代表了有意義的能力？這位研究者的挑戰是：我們需要更好的尺來量AI，否則我們其實不知道自己在跟什麼東西打交道。

本文為本站編輯依據多方國際媒體報導整理撰寫，內容觀點為編輯立場，不代表原始來源媒體之立場。

衡量AI到底多聰明，這位研究者發明了全新的方法——結果令人不安

基準測試的根本問題

高估了什麼？低估了什麼？

新框架提議了什麼？

為什麼這很重要？

法律界的OpenAI！AI法律新創Harvey為什麼能像頂級AI公司一樣瘋狂募資

Amazon測試新功能：讓外部網站也能提供Prime配送！電商生態要變天了