AI 研發團隊 Thinking Machines 推出全新原生互動模型「TML-Interaction-Small 276B-A12B」。該模型專為即時語音設計,擁有 276B 總參數與 12B 啟用參數。它不僅刷新了即時語音的技術前沿(SOTA),更透過原生互動機制,徹底取代了傳統的語音活動檢測(VAD)模組,實現更自然、無縫的雙向語音對話。
OpenAI 推出全新一代即時語音與音訊 API,包含 GPT-Realtime-2、GPT-Translate 以及 GPT-Whisper。這些 API 將 GPT-5 的強大能力導入語音領域,提供全新業界領先(SOTA)的即時語音互動、多語言翻譯與語音識別效能,展現了 OpenAI 將 GPT-5 架構全面鋪設至各類應用場景的野心。
Google DeepMind 發表最新語音模型 Gemini 3.1 Flash Live。該模型專為即時語音互動設計,透過顯著降低延遲與提升精準度,讓 AI 語音對話變得更加流暢與自然。這項更新將大幅優化語音助理與即時互動應用的使用者體驗,並為開發者提供更強大的即時語音 API 支持。
ServiceNow AI 在 Hugging Face 上發布了名為「EVA」(Evaluating Voice Agents)的全新開源評估框架。該框架旨在解決傳統文字 LLM 評估無法涵蓋語音互動特性的痛點,專注於即時延遲、語音打斷、輪替(Turn-taking)及語意理解等多維度指標。這為開發下一代即時語音助理(如類似 GPT-4o 或 Gemini Live 的應用)提供了標準化的測試基準。
Hugging Face 發表全新的「Voice Consent Gate」安全機制,旨在解決語音複製技術帶來的深偽(Deepfake)與盜用風險。該機制要求用戶在複製語音前,必須錄製一段特定的動態聲明以驗證身份與授權意願。這項開源工具將幫助開發者輕鬆在應用中整合語音授權驗證,推動更負責任的 AI 語音技術發展。
Hugging Face 發布技術教學,介紹如何在 Inference Endpoints 上部署語音對語音(Speech-to-Speech, S2S)模型。透過自訂 EndpointHandler 與串流(Streaming)技術,開發者可以實現低延遲的即時語音互動。本文以開源的 Mini-Omni 模型為例,展示了從環境設定、撰寫自訂推論邏輯到部署至 GPU 節點的完整流程。
Hugging Face 介紹了如何在 Inference Endpoints 上整合自動語音辨識(ASR)與語者辨識(Diarization)。透過結合 Whisper 與 PyAnnote 模型,並導入投機解碼(Speculative Decoding)技術,大幅提升了語音轉文字的推理速度與精準度。此方案為開發者提供了一個開箱即用、具備高擴展性的生產級語音處理管線。