NVIDIA 推出全新輕量級多模態模型 Nemotron 3 Nano Omni,主打「長文本」與「多模態」處理能力。該模型專為文件分析、語音與影片理解的 AI Agent 所設計,能在資源受限的設備上運行。這標誌著邊緣端(On-device)多模態 Agent 應用的重大突破。
Google DeepMind 宣布推出改進後的 Gemini 音訊模型,專為即時語音體驗進行優化。新模型採用原生多模態架構,無需經過「語音轉文字」的中介步驟,即可直接理解並生成語音,大幅降低延遲。這項升級將賦予開發者構建更具情感表現力、反應更迅速的語音助理與互動應用的能力,並已陸續在 Google AI Studio 與 Vertex AI 上線。
Google DeepMind 發表全新開放模型 Gemma 3n 預覽版,專為行動裝置與端側(on-device)快速多模態 AI 設計。該模型不僅優化了執行效能,還引入獨特的「二合一(2-in-1)」彈性架構,並擴展了對音訊的理解能力。這將賦能開發者構建即時互動、以語音為核心的全新應用體驗。
Hugging Face 宣布在其託管服務 Inference Endpoints 中推出針對 Whisper 語音轉文字模型的全新優化部署方案。該方案結合了高度優化的推理引擎,能大幅提升轉錄速度並降低延遲。開發者只需一鍵即可部署企業級、具備自動擴展功能的語音識別 API,非常適合需要處理大量音訊數據的應用場景。
Hugging Face 發表了「Big Bench Audio」基準測試,旨在評估多模態模型在音訊領域的推理能力。傳統評估多著重於語音辨識(ASR),而此基準則涵蓋語音、音樂、環境音等多元任務,考驗模型進行邏輯推理與情境理解的深度。這項開源工具將協助開發者與研究人員更精準地衡量語音大模型的實際應用實力。
Hugging Face 發布技術指南,詳細說明如何利用 W2V2-BERT 進行低資源語言的自動語音辨識(ASR)微調。W2V2-BERT 結合了 Wav2Vec 2.0 與 BERT 的優勢,特別適合訓練樣本稀缺的語言。本教學涵蓋了從數據準備、特徵提取、CTC 模型配置到使用 Trainer API 進行訓練與評估的完整實作流程。
AI 雲端運行平台 Replicate 宣布支援 Meta MusicGen 音樂生成模型的微調(Fine-tuning)功能。使用者現在可以使用自己的音訊檔案,在 Replicate 上訓練 MusicGen 的 small、medium 和 melody 版本,藉此生成特定風格或旋律的音樂,為音樂創作者與開發者提供高度客製化的音訊生成方案。
Hugging Face 發布音訊資料集處理指南,詳細解析如何利用 datasets 庫管理語音與音訊資料。內容涵蓋 Audio 特徵類型的自動解碼與重採樣、使用 Streaming 模式免下載即時處理超大型資料集,以及搭配 AutoFeatureExtractor 進行模型訓練前的預處理。這為語音識別(ASR)與音訊分類任務提供了標準化且高效的工作流。
Hugging Face 針對其熱門開源庫 `datasets` 發布了全新的音訊與電腦視覺專屬文件。此更新旨在引導開發者如何載入、預處理及操作非文本資料,並詳細介紹了 `Audio` 與 `Image` 特徵類型的使用方法。這標誌著 Hugging Face 從純文本領域向多模態 AI 邁出的重要一步。
本指南詳細介紹如何利用 🤗 Transformers 與 Datasets 庫微調 Meta 的 Wav2Vec2 模型以進行英文語音辨識(ASR)。教學涵蓋了語音數據預處理(重採樣至 16kHz)、使用 CTC 損失函數、配置 Wav2Vec2Processor,以及使用 Trainer API 進行模型訓練與字錯率(WER)評估,是語音 AI 領域的經典必讀教學。