近期 AI 業界出現將「知識蒸餾(Distillation)」稱為「蒸餾攻擊(Distillation attacks)」的趨勢。 這反映了閉源模型廠商(如 OpenAI、Anthropic)面對開源模型透過合成數據快速追趕時的焦慮。 作者 Nathan Lambert 指出,將這種行之有年的機器學習技術與商業競爭行為「安全化(securitize)」,試圖將其塑造成惡意網路攻擊,是非常糟糕且誤導的術語,旨在為法律訴訟或技術封鎖鋪路。
本文分析了 AI 領域熱議的「自我提升(Self-improvement)」機制。作者指出,雖然模型透過生成合成數據、強化學習(RL)和自我校對確實能實現效能提升,但這個過程是「有損(Lossy)」的。每次迭代都會伴隨資訊流失與誤差累積,因此自我提升並不會導致預言中的「急遽暴漲(Fast Takeoff)」或瞬間的智能爆炸,而是呈現邊際效益遞減的漸進式成長。
本指南展示如何利用 Hugging Face 的 sentence-transformers 庫與 NVIDIA 的 GPU 加速技術,在一天內構建專屬領域的向量嵌入(Embedding)模型。內容涵蓋利用 LLM 生成合成數據、選擇基底模型、使用對比學習(Contrastive Learning)進行微調,以及如何評估與部署。這套流程能有效解決通用模型在特定專業領域(如醫療、法律、金融)檢索率不佳的問題,是優化 RAG 系統的關鍵步驟。
Jack Clark 在本期電子報中探討了三個技術趨勢與一個社會政治議題。技術上,LLM 訓練其他 LLM(合成資料與自我提升)正成為主流;社群成功完成了 72B 參數模型的分散式訓練,展示了去中心化算力的潛力;同時指出電腦視覺因物理世界的複雜性,比文本生成更具挑戰性。最後,他思考了 AI 的快速崛起是否會導致現有政治體制進入混亂的「過渡期」。
Hugging Face 發表最新「Upskill」專案,展示如何利用 Claude 3.5 等強大商用模型生成複雜的 CUDA 核心(Kernel)程式碼與測試案例。透過這套包含編譯與效能驗證的自動化管線,他們篩選出高品質的合成數據,並成功用來微調開源模型,大幅提升開源社群在極具挑戰性的 GPU 硬體加速編程任務上的表現。
NVIDIA 推出「Nemotron-Personas-India」計畫,旨在解決印度多語言與多元文化訓練數據不足的問題。該項目利用 Nemotron 模型生成具備印度各省分、語言及文化背景的「合成角色(Personas)」數據。這項開源成果將助力印度推動「主權 AI(Sovereign AI)」,讓本土語言模型能更精準地理解在地脈絡。
NVIDIA 推出「Nemotron-Personas-Japan」合成數據集,旨在推動日本「主權 AI」的發展。該數據集透過模擬多樣化的日本社會角色(Personas),生成符合日本文化、語言習慣與社會規範的高質量訓練數據。這將有助於開發者與研究人員訓練出更理解日本在地脈絡的本土 AI 模型。
ServiceNow AI 在 Hugging Face 發表了全新開源框架「SyGra」,旨在解決 LLM 與 SLM 訓練中高質量資料不足與成本高昂的痛點。該框架提供一站式的合成資料生成方案,結合了結構化控制與生成模型的優勢,能產生高多樣性、高精確度的訓練樣本。這對於需要微調特定領域小模型(SLM)的開發者與研究人員來說,是一個極具價值的工具。
Hugging Face 發表「Synthetic Data Generator」工具,旨在降低 AI 模型訓練資料集的構建門檻。用戶只需用自然語言描述需求,系統便會利用 distilabel 框架與開源大模型(如 Llama 3.1)自動生成高品質的指令微調(SFT)或偏好對齊(DPO)資料集。生成的資料可直接上傳至 Hugging Face Hub,並支援匯出至 Argilla 進行人工標註與微調。
為了協助用戶上手全新發布的 Argilla 2.0,Argilla 團隊利用其開源合成數據生成框架 distilabel 打造了專屬技術支持機器人。他們將官方文件切片,透過 distilabel 驅動 LLM 自動生成高質量的「問題-答案」對,並進行演化與過濾。最後利用這些合成數據微調開源模型,在不依賴人工標註下,快速構建出能精準回答產品技術問題的 AI 助理。
本期 Replicate Intelligence 探討了從「以模型為中心」轉向「以資料為中心」的 AI 趨勢。重點介紹了如何進行高品質的資料整理(Data Curation)以及利用 AI 進行合成資料生成(Data Generation),這兩者是提升開源模型微調效果與推論品質的關鍵基石。
Hugging Face 發布了當時最大的開源合成數據集 Cosmopedia,內含 250 億 Token。該項目利用 Mixtral-8x7B 模型,根據精心設計的提示詞與主題生成教科書、部落格和教學等多元內容。實驗證明,使用此合成數據預訓練的 1.8B 模型(Cosmo-1.8B)在多項基準測試中超越了同量級的知名模型,為 LLM 預訓練提供了全新的合成數據生成範式。
Hugging Face 指出,利用開源模型與工具(如 distilabel)生成合成數據(Synthetic Data),已成為現代 AI 開發的重要趨勢。這種方法不僅能將數據準備成本降低數倍,還能大幅縮短開發週期。更重要的是,透過蒸餾技術訓練小型專屬模型,能顯著減少推論與訓練過程中的碳排放,實現更永續的 AI 生態。
微軟提出的 TAPEX(Table Pre-training via Execution)是一種創新的表格預訓練方法,現已整合至 Hugging Face。它不依賴網路爬取的真實表格,而是利用隨機生成的 SQL 查詢及其執行結果(合成數據)來訓練 Seq2Seq 模型。這種「藉由執行來學習」的方式,顯著提升了模型對表格數據的推理能力,並在 WikiSQL 和 WikiTableQuestions 等基準測試中取得領先。