Hugging Face BlogOct 5, 2024, 12:00 AM
Improving Parquet Dedupe on Hugging Face Hub
Hugging Face 升級 Hub 的 Parquet 轉換管線,透過內容雜湊去重,大幅減少重複轉換並節省空間。
Hugging Face Hub 宣布改進其自動 Parquet 轉換管線的去重(Deduplication)機制。過去更新資料集時常會觸發重複的 Parquet 檔案生成,造成儲存與運算浪費。新機制透過內容雜湊(Content Hashing)精確識別未變更的資料,直接重用已生成的 Parquet 檔案,從而加速資料集載入、降低 Hub 儲存成本,並提升開發者更新資料集的效率。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。