Hugging Face 發表全新開源工具包 vid_ds_scripts,解決影片生成模型(如 LTX-Video、HunyuanVideo)訓練資料準備的痛點。該工具包提供一站式解決方案,涵蓋影片下載、PySceneDetect 場景分割、VLM 自動生成詳細描述,以及資料過濾與格式化。這大幅降低了開發者構建高品質「影片-文字對」資料集的門檻,加速開源影片生成技術的微調與研發。
在訓練程式碼大語言模型(如 StarCoder)時,重複資料會嚴重影響模型效能。本文詳細介紹了 BigCode 專案如何利用 MinHash 和局部敏感雜湊(LSH)進行大規模的「近乎重複資料刪除(Near-deduplication)」。透過開源工具 `text-dedup`,BigCode 團隊成功處理了數 TB 的程式碼數據,不僅大幅減少了訓練資料量,還顯著降低了模型對特定程式碼的記憶效應,提升了泛化能力。
Hugging Face 發布音訊資料集處理指南,詳細解析如何利用 datasets 庫管理語音與音訊資料。內容涵蓋 Audio 特徵類型的自動解碼與重採樣、使用 Streaming 模式免下載即時處理超大型資料集,以及搭配 AutoFeatureExtractor 進行模型訓練前的預處理。這為語音識別(ASR)與音訊分類任務提供了標準化且高效的工作流。