Hugging Face 探討將「內容定義分塊 (CDC)」技術引入 Parquet 檔案格式。傳統固定大小分塊在資料微調時會導致快取失效,而 CDC 透過動態錨點切分,能精準識別重複內容。此技術將大幅優化大規模 AI 訓練資料集的去重效率、降低增量下載的頻寬消耗,並為 RAG 檢索提供更穩定的分塊基礎。
Hugging Face Hub 宣布改進其自動 Parquet 轉換管線的去重(Deduplication)機制。過去更新資料集時常會觸發重複的 Parquet 檔案生成,造成儲存與運算浪費。新機制透過內容雜湊(Content Hashing)精確識別未變更的資料,直接重用已生成的 Parquet 檔案,從而加速資料集載入、降低 Hub 儲存成本,並提升開發者更新資料集的效率。
Hugging Face 宣布與嵌入式 SQL 資料庫 DuckDB 整合。現在開發者無需下載整個數據集,即可直接使用 SQL 語法查詢和分析 Hugging Face Hub 上超過 50,000 個數據集。這項功能結合了 Hugging Face 的 Datasets Server 與 DuckDB 的高效查詢能力,大幅提升了數據探索與預處理的效率。