基準測試

1 篇報導

根據《Business Insider》報導，一位AI研究者提出了衡量AI效能的全新框架，取代傳統的基準測試（benchmark）。他認為現有的AI評測方式存在根本性缺陷——它們測的是AI的「考試能力」而非「真實世界能力」，導致我們同時高估和低估了AI的表現。