根據《GIGAZINE》報導,法國人工智慧公司 Mistral AI 於 2026 年 3 月 26 日推出全新的語音合成模型「Voxtral TTS」,這項技術不僅支援九種主要語言,還能透過「零樣本音聲克隆」功能,快速且高品質地生成自然、富有情感的聲音。與其他市場上類似產品相比,Voxtral TTS 以低延遲、高效率和開放權重(open-weight)的設計理念,引領語音技術的創新風潮。

Voxtral TTS 支援包括英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、義大利語、印度語和阿拉伯語等九種語言,並能捕捉細微的口音與語調。根據官方介紹,只要提供五秒以內的聲音範本,模型便能生成符合原音特徵的語音,如語速、語調、情緒等,達到高度的個人化定製效果。

Mistral AI 的科學副總裁 Pierre Stock 表示,團隊在開發 Voxtral TTS 時,針對智慧手錶、手機、筆記型電腦等邊緣裝置進行優化,確保模型的輕量化與高效能。他強調:「我們的目標不是打造機械化的聲音,而是讓人與機器之間的互動更加自然。」這項技術不僅在聲音品質上超越市場主流產品,例如 ElevenLabs 的 v2.5 Flash 模型,在評估音聲自然度、語調準確性與與原始聲音相似度等指標上,Voxtral TTS 的表現堪比更複雜的 ElevenLabs v3 模型。

另一個 Voxtral TTS 的亮點在於其「串聯音聲翻譯」功能。例如,從法語音聲範本中,可以直接生成英文語音。這對於跨語種的語音合成應用,如語音導覽、自動翻譯或語音助手,有著極大的應用潛力。官方網站亦提供了互動式演示功能,讓使用者可以選擇不同語言的語音範本與文本,實時體驗生成聲音的差異與效果。

此外,Voxtral TTS 是「開放權重」的模型,開發者可以直接下載並在自己的環境中運行與改進模型。這項設計不僅促進技術的透明度與可及性,也保護了用戶的隱私,避免將個人語音樣本提交至第三方服務。

Mistral AI 對 Voxtral TTS 的未來發展也提出了兩大願景。首先,持續擴大語言與方言支援範圍,特別是針對文化差異與語境細微差異進行優化。其次,Mistral AI 將進一步發展「語音理解」功能,讓 AI 不僅能合成語音,更理解語音背後的語意與情緒,實現更完整的語音互動體驗。

📰 本文資料來源 • Mistral AI 官方新聞TechCrunch 報導VentureBeat 報導