Hugging Face BlogMay 16, 2023, 12:00 AM重要 75
Large-scale Near-deduplication Behind BigCode
介紹 BigCode 如何利用 MinHash 與 LSH 技術,對數 TB 等級的程式碼數據集進行大規模「近乎重複」資料刪除。
在訓練程式碼大語言模型(如 StarCoder)時,重複資料會嚴重影響模型效能。本文詳細介紹了 BigCode 專案如何利用 MinHash 和局部敏感雜湊(LSH)進行大規模的「近乎重複資料刪除(Near-deduplication)」。透過開源工具 `text-dedup`,BigCode 團隊成功處理了數 TB 的程式碼數據,不僅大幅減少了訓練資料量,還顯著降低了模型對特定程式碼的記憶效應,提升了泛化能力。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。