本期 Latent Space 專訪醫療 AI 領導品牌 Abridge 的產品副總裁 Janie Lee 與工程副總裁 Chai Asawa。Abridge 透過環境語音識別(Ambient AI)技術,將醫病對話自動轉化為結構化病歷,每週為醫生節省 10 至 20 小時。此外,他們正將應用擴展至「預先授權(Prior Auth)」等行政流程,致力將醫病對話打造為醫療系統的全新作業系統。
第 20 期《Open Artifacts》開源週報帶來了多個全新組織與新型態開源模型的發布。 重點亮點包含 NVIDIA 的 Nemotron Super 系列、專注於印度語系的 Sarvam AI,以及 Cohere 推出的 Transcribe 語音轉寫相關模型。 這波釋出展示了開源生態系正朝向更多元、更具特定領域專業化(如多語言與語音)的方向快速演進。
ServiceNow AI 在 Hugging Face 上發布了名為「EVA」(Evaluating Voice Agents)的全新開源評估框架。該框架旨在解決傳統文字 LLM 評估無法涵蓋語音互動特性的痛點,專注於即時延遲、語音打斷、輪替(Turn-taking)及語意理解等多維度指標。這為開發下一代即時語音助理(如類似 GPT-4o 或 Gemini Live 的應用)提供了標準化的測試基準。
Hugging Face 宣布升級其 Open ASR Leaderboard,正式引入「多語言」與「長音訊」兩大全新評測賽道。這項更新解決了過去 ASR 評測過於依賴短英文語音的痛點。新賽道不僅能更客觀地評估模型在全球多語系環境下的實用性,還能考驗模型在處理會議、播客等長篇語音時的幻覺控制與分段對齊能力,為開源語音社群提供更具實戰價值的參考基準。
Hugging Face 宣布在其託管服務 Inference Endpoints 中推出針對 Whisper 語音轉文字模型的全新優化部署方案。該方案結合了高度優化的推理引擎,能大幅提升轉錄速度並降低延遲。開發者只需一鍵即可部署企業級、具備自動擴展功能的語音識別 API,非常適合需要處理大量音訊數據的應用場景。
Replicate 發表最新技術週報,重點包括:1. 介紹如何透過稀疏自編碼器(SAE)在 GPT 模型中定位與提取特定概念;2. 展示利用瀏覽器進行低延遲、隱私安全的即時語音轉文字技術;3. 宣布 Replicate 平台即將迎來 NVIDIA H100 GPU,大幅提升開源模型推理與微調的速度。
Hugging Face 發布技術指南,詳細說明如何利用 W2V2-BERT 進行低資源語言的自動語音辨識(ASR)微調。W2V2-BERT 結合了 Wav2Vec 2.0 與 BERT 的優勢,特別適合訓練樣本稀缺的語言。本教學涵蓋了從數據準備、特徵提取、CTC 模型配置到使用 Trainer API 進行訓練與評估的完整實作流程。
Hugging Face 介紹了應用於 Whisper 語音識別模型的「投機解碼(Speculative Decoding)」技術。該技術透過一個較小的草稿模型(如 whisper-tiny)快速生成候選文字,再由大模型(如 whisper-large-v3)進行並行驗證。此方法在完全不犧牲辨識準確度的前提下,成功將 Whisper 的推論速度提高整整 2 倍,且已整合至 Transformers 函式庫中。
本教學詳細介紹如何使用 Hugging Face 的 `transformers` 庫微調 OpenAI 的 Whisper 語音辨識模型。內容涵蓋從載入 Common Voice 資料集、音訊預處理(重採樣至 16kHz 並轉換為 Log-Mel 聲譜圖)、設定 Tokenizer,到使用 `Seq2SeqTrainer` 進行訓練與評估(以 WER 為指標)的完整流程。這對於想在特定低資源語言或專業領域提升語音轉文字精準度的開發者與研究人員來說,是極具價值的實戰指南。
傳統 Wav2Vec2 等語音模型因自注意力機制的記憶體複雜度限制,難以直接處理長音檔。Hugging Face 推出分塊(Chunking)與重疊步長(Stride)技術,將長音訊切片處理後無縫拼接。此功能已整合至 Transformers 的 ASR Pipeline 中,開發者只需設定簡單參數即可實現高效且精準的長語音轉文字。
本指南詳細介紹如何利用 🤗 Transformers 與 Datasets 庫微調 Meta 的 Wav2Vec2 模型以進行英文語音辨識(ASR)。教學涵蓋了語音數據預處理(重採樣至 16kHz)、使用 CTC 損失函數、配置 Wav2Vec2Processor,以及使用 Trainer API 進行模型訓練與字錯率(WER)評估,是語音 AI 領域的經典必讀教學。