Cohere 發佈支援多語種的開源音聲辨識模型「Transcribe」

彥蓁·2026-03-27·1 分鐘·611 字

本文摘要

Cohere 於 2026 年 3 月釋出支援 14 種語言的開源音聲辨識模型「Transcribe」，在文字轉換正確率與處理速度方面超越市場主流模型，具備企業級應用潛力。

深度解析

根據《GIGAZINE》報導，AI企業 Cohere 於 2026 年 3 月 26 日正式釋出開源音聲辨識（ASR）模型「Transcribe」。此模型支援英語、日語、中文、韓語、越南語、法語、德語、義大利語、西班牙語、葡萄牙語等共 14 種語言，不僅可在 Hugging Face 平台下載，也能透過 Cohere 的 API 進行試用。

Transcribe 的推出，為企業提供了高精度、低延遲的文字轉換能力，主要應用於會議紀錄、音聲分析、即時客服等場景。Cohere 將其視為企業級音聲智慧的基礎建設，並強調此模型並非僅為實驗用途，而是為了實際部署所設計，並追求極致的文字轉換正確率。

在 Hugging Face 的 Open ASR Leaderboard 上，Transcribe 平均單字錯誤率（WER）為 5.42%，超越 OpenAI 的 Whisper Large v3（7.44%）、ElevenLabs Scribe v2（5.83%）以及 Qwen3-ASR-1.7B（5.76%）。這項表現不僅證實了 Transcribe 在多語種及多變音聲環境中的卓越適應性，也顯示其在處理真實場景中的複雜語音（如多人交談、不同口音）時具備高度穩定性。

此外，根據人工評估結果，Transcribe 在英文文字轉換中勝率達 64%，在日語轉換中則分別以 70% 和 66% 的勝率壓過 Qwen3-ASR-1.7B 和 Whisper Large v3。Transcribe 模型規模為 20 億參數，採用 Conformer 結構的編碼器-解碼器架構，音聲訊號首先轉換為梅爾頻譜圖，再由 Conformer 編碼器提取音響特徵，最後由 Transformer 解碼器生成文字。

在處理速度方面，Transcribe 的吞吐量（RTFx）達 525，意味其處理速度為實時的 525 倍，這在參數規模超過 10 億的 ASR 模型中表現突出。結合高達 14 種語言支援與高處理效率，Transcribe 模型被視為企業在音聲分析領域的強大工具。

Cohere 同時提到，Transcribe 的開源權重使企業能更靈活地部署於自有環境，特別適合對資料機密性要求高的應用。然而，該模型尚不支援自動語言檢測、話者分離或時間戳記功能，且在無聲或非語音片段上可能產生錯誤辨識，建議在實際應用前加裝語音活動檢測（VAD）或噪音門檻。

Cohere 表示未來將進一步整合 Transcribe 至其 AI 代理協調平台「North」，目標是打造更完整的音聲資料搜尋、分析與自動化平台。目前 Transcribe 作為高精準文字轉換模型已開放測試，未來將持續優化其企業應用能力。

📰 本文資料來源 • Cohere 官方網站 • Hugging Face Open ASR Leaderboard • GIGAZINE 原文報導

編輯觀點

Transcribe 的出現，代表 AI 音聲辨識技術進入企業級應用的新篇章。其開源特性與高精準度，將有助於企業在多語種環境中實現更高效的文字轉換與音聲分析。

本文為本站編輯依據多方國際媒體報導整理撰寫，內容觀點為編輯立場，不代表原始來源媒體之立場。

Cohere 發佈支援多語種的開源音聲辨識模型「Transcribe」

Google 推出 Gemini「記憶移植」功能，AI 服務跨平台整合再進一步

OpenAI 意外關閉 Sora 短視頻生成 App 投資人傻眼