AI 研發團隊 Thinking Machines 推出全新原生互動模型「TML-Interaction-Small 276B-A12B」。該模型專為即時語音設計,擁有 276B 總參數與 12B 啟用參數。它不僅刷新了即時語音的技術前沿(SOTA),更透過原生互動機制,徹底取代了傳統的語音活動檢測(VAD)模組,實現更自然、無縫的雙向語音對話。
OpenAI 推出全新一代即時語音與音訊 API,包含 GPT-Realtime-2、GPT-Translate 以及 GPT-Whisper。這些 API 將 GPT-5 的強大能力導入語音領域,提供全新業界領先(SOTA)的即時語音互動、多語言翻譯與語音識別效能,展現了 OpenAI 將 GPT-5 架構全面鋪設至各類應用場景的野心。
Google DeepMind 發表最新語音模型 Gemini 3.1 Flash Live。該模型專為即時語音互動設計,透過顯著降低延遲與提升精準度,讓 AI 語音對話變得更加流暢與自然。這項更新將大幅優化語音助理與即時互動應用的使用者體驗,並為開發者提供更強大的即時語音 API 支持。
Hugging Face 發表全新的「Voice Consent Gate」安全機制,旨在解決語音複製技術帶來的深偽(Deepfake)與盜用風險。該機制要求用戶在複製語音前,必須錄製一段特定的動態聲明以驗證身份與授權意願。這項開源工具將幫助開發者輕鬆在應用中整合語音授權驗證,推動更負責任的 AI 語音技術發展。