Hugging Face BlogMar 20, 2024, 12:00 AM重要 85
Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models
Hugging Face 推出開源合成數據集 Cosmopedia,包含 250 億 Token,展示如何利用 LLM 生成高品質預訓練數據。
Hugging Face 發布了當時最大的開源合成數據集 Cosmopedia,內含 250 億 Token。該項目利用 Mixtral-8x7B 模型,根據精心設計的提示詞與主題生成教科書、部落格和教學等多元內容。實驗證明,使用此合成數據預訓練的 1.8B 模型(Cosmo-1.8B)在多項基準測試中超越了同量級的知名模型,為 LLM 預訓練提供了全新的合成數據生成範式。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。