Google DeepMind 發表新一代「Gemini Omni」模型,採用原生端到端全模態架構,能同時處理並輸出文字、音訊與視覺資訊。該模型顯著降低了互動延遲,實現如同真人般的流暢對話與即時視訊引導,未來將深度整合至 Android 系統與 Google 生態系,並透過 API 開放給開發者。
OpenAI 推出全新一代即時語音與音訊 API,包含 GPT-Realtime-2、GPT-Translate 以及 GPT-Whisper。這些 API 將 GPT-5 的強大能力導入語音領域,提供全新業界領先(SOTA)的即時語音互動、多語言翻譯與語音識別效能,展現了 OpenAI 將 GPT-5 架構全面鋪設至各類應用場景的野心。
Google DeepMind 發表最新語音模型 Gemini 3.1 Flash Live。該模型專為即時語音互動設計,透過顯著降低延遲與提升精準度,讓 AI 語音對話變得更加流暢與自然。這項更新將大幅優化語音助理與即時互動應用的使用者體驗,並為開發者提供更強大的即時語音 API 支持。
Google DeepMind 宣布推出改進後的 Gemini 音訊模型,專為即時語音體驗進行優化。新模型採用原生多模態架構,無需經過「語音轉文字」的中介步驟,即可直接理解並生成語音,大幅降低延遲。這項升級將賦予開發者構建更具情感表現力、反應更迅速的語音助理與互動應用的能力,並已陸續在 Google AI Studio 與 Vertex AI 上線。
BNP Paribas Open(巴黎銀行公開賽)為應對賽事期間龐大的即時流量,與數位機構 Work & Co 合作,將其數位平台遷移至 Vercel。透過 Next.js 與 Vercel 的邊緣基礎設施,成功實現毫秒級的即時比分更新與極致的網頁效能,為全球數百萬網球愛好者提供不間斷的流暢體驗。
Stripe 在黑色星期五期間推出的實時交易數據看板,因其精美的 3D 視覺與流暢的實時數據更新在社群爆紅。本文深入解析該網站如何利用 Vercel 的邊緣網路(Edge Network)與 Next.js 架構,在面對全球數百萬次即時請求時,依然保持 100% 的可用性與毫秒級的數據同步,為現代高流量 Web 應用提供了極佳的架構範本。