根據《GIGAZINE》報導,AI企業 Cohere 於 2026 年 3 月 26 日正式釋出開源音聲辨識(ASR)模型「Transcribe」。此模型支援英語、日語、中文、韓語、越南語、法語、德語、義大利語、西班牙語、葡萄牙語等共 14 種語言,不僅可在 Hugging Face 平台下載,也能透過 Cohere 的 API 進行試用。
Transcribe 的推出,為企業提供了高精度、低延遲的文字轉換能力,主要應用於會議紀錄、音聲分析、即時客服等場景。Cohere 將其視為企業級音聲智慧的基礎建設,並強調此模型並非僅為實驗用途,而是為了實際部署所設計,並追求極致的文字轉換正確率。
在 Hugging Face 的 Open ASR Leaderboard 上,Transcribe 平均單字錯誤率(WER)為 5.42%,超越 OpenAI 的 Whisper Large v3(7.44%)、ElevenLabs Scribe v2(5.83%)以及 Qwen3-ASR-1.7B(5.76%)。這項表現不僅證實了 Transcribe 在多語種及多變音聲環境中的卓越適應性,也顯示其在處理真實場景中的複雜語音(如多人交談、不同口音)時具備高度穩定性。
此外,根據人工評估結果,Transcribe 在英文文字轉換中勝率達 64%,在日語轉換中則分別以 70% 和 66% 的勝率壓過 Qwen3-ASR-1.7B 和 Whisper Large v3。Transcribe 模型規模為 20 億參數,採用 Conformer 結構的編碼器-解碼器架構,音聲訊號首先轉換為梅爾頻譜圖,再由 Conformer 編碼器提取音響特徵,最後由 Transformer 解碼器生成文字。
在處理速度方面,Transcribe 的吞吐量(RTFx)達 525,意味其處理速度為實時的 525 倍,這在參數規模超過 10 億的 ASR 模型中表現突出。結合高達 14 種語言支援與高處理效率,Transcribe 模型被視為企業在音聲分析領域的強大工具。
Cohere 同時提到,Transcribe 的開源權重使企業能更靈活地部署於自有環境,特別適合對資料機密性要求高的應用。然而,該模型尚不支援自動語言檢測、話者分離或時間戳記功能,且在無聲或非語音片段上可能產生錯誤辨識,建議在實際應用前加裝語音活動檢測(VAD)或噪音門檻。
Cohere 表示未來將進一步整合 Transcribe 至其 AI 代理協調平台「North」,目標是打造更完整的音聲資料搜尋、分析與自動化平台。目前 Transcribe 作為高精準文字轉換模型已開放測試,未來將持續優化其企業應用能力。
📰 本文資料來源 • Cohere 官方網站 • Hugging Face Open ASR Leaderboard • GIGAZINE 原文報導






編輯觀點
Transcribe 的出現,代表 AI 音聲辨識技術進入企業級應用的新篇章。其開源特性與高精準度,將有助於企業在多語種環境中實現更高效的文字轉換與音聲分析。