Hugging Face 發表全新工具「AI Sheets」,旨在降低數據集處理的門檻。使用者無需編寫複雜代碼,即可在類似 Excel 的試算表介面中導入數據,並調用 Hugging Face 上的開源 AI 模型進行批量文本分類、翻譯、情感分析或數據增強。這項工具結合了開源生態系的靈活性與直觀的無程式碼操作,大幅提升了數據準備與標記的效率。
Hugging Face 發表「Synthetic Data Generator」工具,旨在降低 AI 模型訓練資料集的構建門檻。用戶只需用自然語言描述需求,系統便會利用 distilabel 框架與開源大模型(如 Llama 3.1)自動生成高品質的指令微調(SFT)或偏好對齊(DPO)資料集。生成的資料可直接上傳至 Hugging Face Hub,並支援匯出至 Argilla 進行人工標註與微調。
開源數據標註平台 Argilla 發布 2.4 版本,主打與 Hugging Face Hub 的深度無程式碼整合。用戶現在可以直接在 Hugging Face Spaces 上部署 Argilla,並透過直觀的 UI 介面進行數據導入、協作標註與導出。這大幅降低了為大語言模型(LLM)準備指令微調(SFT)和偏好對齊(DPO)數據集的門檻,讓非技術背景的領域專家也能輕鬆參與數據策劃。
Hugging Face 宣布推出「Evaluation on the Hub」功能。用戶無需編寫任何程式碼,即可直接在瀏覽器中評估 Hub 上的模型與數據集。該功能與 AutoTrain 整合,評估結果會自動發布並連結至模型卡片,大幅提升了 AI 模型評估的便利性、透明度與可重複性。
本教學介紹了一套無程式碼/低程式碼的 NLP 工作流。首先利用 Kili Technology 平台進行高效的文本數據標註與品質管理,接著將標註好的輿情數據集導入 Hugging Face AutoTrain。AutoTrain 會自動嘗試多種開源模型架構並進行微調,讓開發者在無需編寫複雜深度學習程式碼的情況下,快速構建出高精度的輿情與觀點分類模型。