Google DeepMind BlogDec 12, 2025, 5:50 PM重要 85
Improved Gemini audio models for powerful voice experiences
Google DeepMind 升級 Gemini 音訊模型,支援原生音訊對音訊處理,顯著降低延遲並提升語音互動的自然度。
Google DeepMind 宣布推出改進後的 Gemini 音訊模型,專為即時語音體驗進行優化。新模型採用原生多模態架構,無需經過「語音轉文字」的中介步驟,即可直接理解並生成語音,大幅降低延遲。這項升級將賦予開發者構建更具情感表現力、反應更迅速的語音助理與互動應用的能力,並已陸續在 Google AI Studio 與 Vertex AI 上線。
想看英文原文 / 完整內容?
前往 Google DeepMind Blog 原文 →摘要由 AI 整理,以原文為準。