Inworld AI推情緒感知模型語音互動超越Siri限制

發布：2026年06月08日
16人觀看

商傳媒｜責任編輯／綜合外電報導

AI 新創公司 Inworld AI 近日推出一款全新的 AI 語音模型 Realtime TTS-2，旨在讓機器對話更具人性化。這款模型不僅能理解用戶說出的內容，還能透過語氣、語調等線索，即時感知說話者的情緒狀態，並調整自身的回應方式與語音表達。

這款由山景城新創公司開發的 Realtime TTS-2 系統，能夠分析音高、語速、音調等聲音線索，即時推斷說話者的情感。隨後，AI 會動態調整自己的語音和表達方式，創造出更自然、更具情感的互動。文字轉語音（TTS）是一種基於語音的 AI 模型，能將文字內容轉換為語音輸出。

Realtime TTS-2 整合了多種現有 AI 語音系統難以同時具備的能力。它能理解對話的完整歷史和上下文，這意味著它能辨識出在開玩笑後說出的同一句話，與在聽到壞消息後說出的效果截然不同。該模型還能即時偵測人類語音中的情緒訊號，並持續更新 Inworld AI 所稱的「用戶狀態」和「代理人狀態」，以引導 AI 如何做出回應。據《Aol.com》報導，Inworld AI 先前的模型在語音品質的產業基準測試中已名列前茅，優於 Google 和 ElevenLabs 等競爭對手。

Inworld AI 執行長 Kylan Gibbs 指出，即時對話是人們最自然的互動模式，越接近這種模式，用戶的參與度就越高。Gibbs 也表示，雖然當今的 AI 語音聽起來像真人，但卻像是在照稿宣讀，總有些不自然之處。他比喻：「聽起來可能不錯，但感覺卻很糟糕，就像你只是在聽有聲書。」

Inworld AI 將這款模型定位為供開發者使用的基礎設施，而非直接的消費性產品。該公司透過應用程式介面（API）提供服務，讓開發者能將其整合到現有的 AI 系統中。API 是一種常見的應用程式共享資料和溝通方式。