Hugging Face 探討將「內容定義分塊 (CDC)」技術引入 Parquet 檔案格式。傳統固定大小分塊在資料微調時會導致快取失效,而 CDC 透過動態錨點切分,能精準識別重複內容。此技術將大幅優化大規模 AI 訓練資料集的去重效率、降低增量下載的頻寬消耗,並為 RAG 檢索提供更穩定的分塊基礎。
Hugging Face 發表全新的儲存優化方案,將傳統的檔案級儲存(如 Git LFS)轉型為「分塊儲存(Chunk-based Storage)」。透過內容定義分塊(CDC)與內容定址儲存(CAS)技術,Hub 能跨儲存庫進行資料去重。這對於微調(Fine-tune)與合併(Merge)模型的儲存能節省極大空間,並顯著加快上傳與下載速度。
Hugging Face Hub 宣布改進其自動 Parquet 轉換管線的去重(Deduplication)機制。過去更新資料集時常會觸發重複的 Parquet 檔案生成,造成儲存與運算浪費。新機制透過內容雜湊(Content Hashing)精確識別未變更的資料,直接重用已生成的 Parquet 檔案,從而加速資料集載入、降低 Hub 儲存成本,並提升開發者更新資料集的效率。
在訓練程式碼大語言模型(如 StarCoder)時,重複資料會嚴重影響模型效能。本文詳細介紹了 BigCode 專案如何利用 MinHash 和局部敏感雜湊(LSH)進行大規模的「近乎重複資料刪除(Near-deduplication)」。透過開源工具 `text-dedup`,BigCode 團隊成功處理了數 TB 的程式碼數據,不僅大幅減少了訓練資料量,還顯著降低了模型對特定程式碼的記憶效應,提升了泛化能力。