Google DeepMind 發表新一代「Gemini Omni」模型,採用原生端到端全模態架構,能同時處理並輸出文字、音訊與視覺資訊。該模型顯著降低了互動延遲,實現如同真人般的流暢對話與即時視訊引導,未來將深度整合至 Android 系統與 Google 生態系,並透過 API 開放給開發者。
Google DeepMind 宣布推出改進後的 Gemini 音訊模型,專為即時語音體驗進行優化。新模型採用原生多模態架構,無需經過「語音轉文字」的中介步驟,即可直接理解並生成語音,大幅降低延遲。這項升級將賦予開發者構建更具情感表現力、反應更迅速的語音助理與互動應用的能力,並已陸續在 Google AI Studio 與 Vertex AI 上線。
Google DeepMind 宣布 Gemini 2.5 在 AI 語音對話與音訊生成上取得重大突破。新功能大幅提升了語音互動的流暢度、自然度與即時性,並支援更進階的音訊生成技術。這項更新將為開發者與企業帶來更具沉浸感的語音應用與全新一代的語音 Agent 體驗。
Hugging Face 發表全新開源庫 FastRTC,旨在簡化 Python 中的 WebRTC 即時音視訊串流開發。它解決了傳統 WebRTC 繁瑣的連線與協定處理,並與 Gradio 及 FastAPI 深度整合。開發者現在能以極低門檻,快速打造出類似 GPT-4o 或 Gemini Live 的即時語音對話機器人與視訊互動應用。