Hugging Face 宣布為其 Open ASR(自動語音識別)排行榜引入「Benchmaxxer 驅逐劑」。此舉旨在解決模型開發者針對公開基準測試集進行過度優化(即「刷榜」)的問題。通過引入未公開的私有評估數據集,該排行榜將能更真實地反映 ASR 模型在實際應用中的泛化能力,防止虛高的排名誤導社群。
Hugging Face 發布音訊資料集處理指南,詳細解析如何利用 datasets 庫管理語音與音訊資料。內容涵蓋 Audio 特徵類型的自動解碼與重採樣、使用 Streaming 模式免下載即時處理超大型資料集,以及搭配 AutoFeatureExtractor 進行模型訓練前的預處理。這為語音識別(ASR)與音訊分類任務提供了標準化且高效的工作流。
Hugging Face 推出整合 pyctcdecode 的新功能,讓開發者能輕鬆將 n-gram 語言模型與 Wav2Vec2 結合。 此方法能有效修正 Wav2Vec2 在 CTC 解碼時產生的拼寫錯誤,顯著降低語音識別的字錯率(WER)。 本指南提供完整的實作步驟,展示如何載入預訓練語言模型並應用於多語系的語音識別任務。