根據《ITmedia》報導,美國 Google 於 2026 年 3 月 24 日(當地時間)宣布,開發出一種全新的壓縮技術「TurboQuant」,可將運行大規模語言模型(LLM)所需的記憶體消耗減少至六分之一,預計將徹底改變 AI 模型的運行效率與應用範圍。

TurboQuant 技術的核心在於針對 AI 模型處理高維向量數據的過程,透過極限壓縮來減少資源消耗,特別著重於「鍵值(KV)快取」的數據壓縮。在 AI 推論過程中,KV 快取用於儲存模型運算時所需的臨時數據,而 Google 表示,TurboQuant 可在不損及模型準確度與運算性能的情況下,大幅提高 KV 快取的壓縮效率。

TurboQuant 的技術架構結合兩種創新方法:第一種為「PolarQuant」,透過簡化數據結構實現高壓縮比;第二種為「QJL」,利用 1 位元數據的數學補正技術,修正壓縮過程中產生的微量誤差。這種雙重壓縮機制使得 KV 快取數據可被壓縮至僅需 3 位元,有效解決了大規模 AI 模型運行時的記憶體瓶頸。

根據 Google 公布的實際測試結果,在長文本處理任務中,TurboQuant 不僅成功將記憶體需求壓縮至原本的六分之一,更在 NVIDIA H100 顯示卡上實現運算速度最多提升 8 倍的成果。這項技術對於 Google 的「Gemini」大規模模型而言,具有顯著優勢,不僅能解決 KV 快取的記憶體限制問題,更可望加速「向量搜尋」(Vector Search)技術,大幅提升從龐大資料庫中提取與用戶意圖相關資訊的速度。

業界專家指出,隨著 AI 技術逐漸整合至更多應用場景,基礎的數據壓縮技術將成為 AI 發展的關鍵。TurboQuant 的出現,不僅有助於降低 AI 模型的硬體門檻,也有望促進 AI 模型的普及與多樣化應用。Google 表示,相關研究成果將於 4 月 23 日在巴西里約熱內盧舉辦的國際會議「ICLR 2026」上正式發表。

📰 本文資料來源 • ITmedia • Google 官方公告 • ICLR 2026 官方網站