在訓練程式碼大語言模型(如 StarCoder)時,重複資料會嚴重影響模型效能。本文詳細介紹了 BigCode 專案如何利用 MinHash 和局部敏感雜湊(LSH)進行大規模的「近乎重複資料刪除(Near-deduplication)」。透過開源工具 `text-dedup`,BigCode 團隊成功處理了數 TB 的程式碼數據,不僅大幅減少了訓練資料量,還顯著降低了模型對特定程式碼的記憶效應,提升了泛化能力。
Hugging Face 與 ServiceNow 發起的 BigCode 專案正式推出 StarCoder,這是一款擁有 155 億參數的開源程式碼大語言模型。該模型在 The Stack 數據集上訓練,支援 80 多種程式語言,並具備 8K 上下文視窗與 Multi-Query Attention 技術。StarCoder 在多項程式碼基準測試中超越了當時的其他開源模型,並採用 OpenRAIL-M 授權,允許商業化使用。