Hugging Face 探討將「內容定義分塊 (CDC)」技術引入 Parquet 檔案格式。傳統固定大小分塊在資料微調時會導致快取失效,而 CDC 透過動態錨點切分,能精準識別重複內容。此技術將大幅優化大規模 AI 訓練資料集的去重效率、降低增量下載的頻寬消耗,並為 RAG 檢索提供更穩定的分塊基礎。
Hugging Face Hub 宣布改進其自動 Parquet 轉換管線的去重(Deduplication)機制。過去更新資料集時常會觸發重複的 Parquet 檔案生成,造成儲存與運算浪費。新機制透過內容雜湊(Content Hashing)精確識別未變更的資料,直接重用已生成的 Parquet 檔案,從而加速資料集載入、降低 Hub 儲存成本,並提升開發者更新資料集的效率。
Hugging Face 宣布為其平台上的 15 萬多個資料集推出全新的搜尋與篩選功能。用戶現在可以透過任務類型、授權條款(如商業用途)、資料集大小(列數或檔案大小)以及語言等多重維度進行精準篩選。這項更新大幅優化了開發者與研究人員尋找特定機器學習訓練數據的效率。