圖/示意圖

商傳媒|責任編輯/綜合外電報導

AI 新創公司 Inworld AI 近日推出一款全新的 AI 語音模型 Realtime TTS-2,旨在讓機器對話更具人性化。這款模型不僅能理解用戶說出的內容,還能透過語氣、語調等線索,即時感知說話者的情緒狀態,並調整自身的回應方式與語音表達。

這款由山景城新創公司開發的 Realtime TTS-2 系統,能夠分析音高、語速、音調等聲音線索,即時推斷說話者的情感。隨後,AI 會動態調整自己的語音和表達方式,創造出更自然、更具情感的互動。文字轉語音(TTS)是一種基於語音的 AI 模型,能將文字內容轉換為語音輸出。

Realtime TTS-2 整合了多種現有 AI 語音系統難以同時具備的能力。它能理解對話的完整歷史和上下文,這意味著它能辨識出在開玩笑後說出的同一句話,與在聽到壞消息後說出的效果截然不同。該模型還能即時偵測人類語音中的情緒訊號,並持續更新 Inworld AI 所稱的「用戶狀態」和「代理人狀態」,以引導 AI 如何做出回應。據《Aol.com》報導,Inworld AI 先前的模型在語音品質的產業基準測試中已名列前茅,優於 Google 和 ElevenLabs 等競爭對手。

Inworld AI 執行長 Kylan Gibbs 指出,即時對話是人們最自然的互動模式,越接近這種模式,用戶的參與度就越高。Gibbs 也表示,雖然當今的 AI 語音聽起來像真人,但卻像是在照稿宣讀,總有些不自然之處。他比喻:「聽起來可能不錯,但感覺卻很糟糕,就像你只是在聽有聲書。」

Inworld AI 將這款模型定位為供開發者使用的基礎設施,而非直接的消費性產品。該公司透過應用程式介面(API)提供服務,讓開發者能將其整合到現有的 AI 系統中。API 是一種常見的應用程式共享資料和溝通方式。