Google 推出 Gemini 3.1 Flash Live 音聲模型

本文摘要

Google 推出 Gemini 3.1 Flash Live 音聲模型，大幅提升對話自然度與反應速度，並搭配 SynthID 電子水印技術，有效辨識 AI 生成音聲，防止誤導內容擴散。Search Live 功能也擴展至全球多國，包括日本。

根據《GIGAZINE》報導，Google 於 2026 年 3 月 26 日正式推出新一代音聲生成 AI 模型「Gemini 3.1 Flash Live」，這款模型專為即時對話設計，大幅降低延遲並提升互動自然度，同時搭配 SynthID 電子水印技術，用以辨識 AI 生成音聲內容，防止不實資訊擴散。此外，Google 也宣布其「Search Live」功能，已擴展至包括日本在內的所有支援 AI 模式的語言與地區。

Gemini 3.1 Flash Live 是目前 Google 所有音聲模型中品質最高的版本，Google 首席執行官 Sundar Pichai 在官方帳號上表示，此模型在精準度與推理能力上都取得顯著提升，使與 AI 的互動更加自然直觀。此模型不僅在語音生成方面表現卓越，更支援複雜任務的處理，讓開發者與企業能大規模建置聲音優先的 AI 代理（Agent）。

根據 Google 公佈的測試結果，在 ComplexFuncBench Audio 測試中，Gemini 3.1 Flash Live 運行複雜函式調用任務時，較前一代 Gemini 2.5 Flash Native Audio 12-2025 提升達 90.8%。此外，在 Big Bench Audio 測試中，Gemini 3.1 Flash Live 在「高思考模式」下得分達 95.9%，遠超前代版本。即便是在「最小思考模式」下，該模型也能達成 70.5% 的表現，顯示其在不同情境下的適應能力。

在另一項測試「Audio MultiChallenge」中，Gemini 3.1 Flash Live 在「思考」模式下以 36.1% 的高分位居榜首。這個測試模擬真實語音中常見的停頓與中斷情境，用以評估模型在複雜指令與長期推理上的表現。Google 表示，這款模型在音色理解與語音特徵（如音高、節奏）的掌握上更加精準，能夠根據使用者語氣調整回應，從而不僅僅是聲音的再現，更是情感與語意的傳達。

Gemini 3.1 Flash Live 將支援消費者與企業級應用。消費者可透過 Google 應用程式中的「Search Live」功能，用語音或攝影鏡頭進行實時搜尋，而企業則可透過「Gemini Enterprise for Customer Experience」來部署此模型，以提供更高效與個人化的客戶服務體驗。

值得注意的是，Google 引入 SynthID 技術，對所有由 Gemini 3.1 Flash Live 生成的音聲內容嵌入不可見的電子水印，有助於識別 AI 生成音聲，從而協助平台與使用者辨別虛假內容。這項技術對抗假新聞與誤導性語音的擴散至關重要。

「Search Live」功能已從原本僅限於美國與印度兩地，擴展至所有支援 AI 模式的語言與地區。用戶只需在 Google 應用程式中點擊「Live」圖示，即可輕鬆使用此功能。Google 强調，Gemini Live 搭載該模型後，無論是簡單的日常對話或複雜的多輪互動，都能提供更流暢、自然且連貫的對話體驗。

此消息一出，市場與學術界皆給予高度關注。多位 AI 專家指出，Google 在語音生成與辨識技術上的持續突破，將推動 AI 在客服、教育、娛樂等領域的應用深化。此外，SynthID 的使用標誌著 Google 在打擊 AI 製假音內容的決心，也為未來 AI 負責任發展樹立了重要里程碑。

📰 本文資料來源 • GIGAZINE • Google Blog • Twitter @sundarpichai • YouTube • DeepMind 官方帳號

Google 推出 Gemini 3.1 Flash Live 音聲模型

創新與英雄的引擎：從古代蒸汽機到數位時代的轉型

德偉專業工具大促銷：組合套件直降30%