Hugging Face BlogDec 16, 2024, 12:00 AM重要 82

Introducing the Synthetic Data Generator - Build Datasets with Natural Language

Hugging Face 推出全新免程式碼「Synthetic Data Generator」,讓用戶只需輸入自然語言描述,即可快速生成高品質的 AI 訓練資料集。

Hugging Face 發表「Synthetic Data Generator」工具,旨在降低 AI 模型訓練資料集的構建門檻。用戶只需用自然語言描述需求,系統便會利用 distilabel 框架與開源大模型(如 Llama 3.1)自動生成高品質的指令微調(SFT)或偏好對齊(DPO)資料集。生成的資料可直接上傳至 Hugging Face Hub,並支援匯出至 Argilla 進行人工標註與微調。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。