近期有民眾利用 AI 技術,將美國國家運輸安全委員會(NTSB)公開的駕駛艙錄音「聲學頻譜圖(Spectrogram)」影像,成功逆向還原出已故飛行員的生前語音。由於駕駛艙語音記錄(CVR)涉及高度隱私,過去僅公開文字逐字稿,如今 AI 的還原能力打破了這項保護機制。為防止隱私進一步洩漏,NTSB 已緊急暫時關閉其公開案件卷宗系統。
Spotify 宣布在超過 20 個市場推出全新桌面 App 的研究預覽版,主打「個人化 Podcast」創建功能。此舉被視為直接挑戰 Google NotebookLM 的音訊導覽功能,旨在讓用戶能透過 AI 將素材輕鬆轉化為語音節目。
Google DeepMind 宣布 Gemini 2.5 在 AI 語音對話與音訊生成上取得重大突破。新功能大幅提升了語音互動的流暢度、自然度與即時性,並支援更進階的音訊生成技術。這項更新將為開發者與企業帶來更具沉浸感的語音應用與全新一代的語音 Agent 體驗。
Replicate 宣布支援 RVC(Retrieval-based Voice Conversion)的微調功能,讓開發者與創作者能輕鬆複製聲音。使用者只需提供 YouTube 影片等音訊來源,透過 Replicate 的 API 撰寫幾行程式碼,即可自動轉換為訓練數據集並開始微調。這項更新降低了高品質開源聲音複製的門檻,適合應用於遊戲配音、虛擬主播及個人化語音生成。