Hugging Face 旗下的輕量級 Agent 開源庫 smolagents 迎來重大更新,正式支援視覺語言模型(VLM)。開發者現在可以讓 Agent 接收並處理影像輸入,適用於網頁視覺導航、圖表分析及多模態任務。此更新大幅擴展了程式碼 Agent(Code Agent)的應用場景,使其能「看見」並理解真實世界的視覺資訊。
本文為 Hugging Face 倫理與社會小組的專題探討,指出 AI Agent(智慧代理)已從理論走向實用。文章深入分析了 Agent 在自主決策、工具調用中所帶來的安全隱患、責任歸屬及社會衝擊,並強調開源社群在建立安全評估與「人類協同(Human-in-the-loop)」機制中的關鍵角色。
Hugging Face 發表輕量級 AI Agent 框架「smolagents」,核心概念為「Code Agents」。與傳統輸出 JSON 的 Agent 不同,它讓 LLM 直接生成 Python 程式碼來執行複雜任務,大幅提升表達力與靈活性。該框架程式碼極簡(約千行),並內置安全的 Python 執行沙箱,支援多種主流 LLM 供應商。
Hugging Face 宣布在 HuggingChat 中推出「社群工具 (Community Tools)」功能。這項更新讓 HuggingChat 上的開源模型(如 Llama 3.1、Command R+)能夠調用由社群開發的各種工具,例如圖像生成、網頁抓取、計算機等。開發者可以使用 Python 輕鬆建立並分享工具,使開源 AI 助理具備更強大的 Agent 實用能力。
Hugging Face 推出統一的工具調用(Tool Use)標準,解決了過去不同開源模型工具格式不一的痛點。現在開發者只需定義標準 Python 函數,即可透過 `apply_chat_template` 自動轉換並傳遞給 Llama 3.1、Mistral 等支援的模型。此更新全面整合至 `transformers`、`huggingface_hub` 與 TGI,大幅降低了 AI Agent 的開發與切換門檻。
首屆 AI 數學奧林匹亞(AIMO)進步獎由 NuminaMath 奪得,其在私有測試集上取得 29/50 的佳績。該模型基於 DeepSeek-Math-Base 7B,採用獨特的兩階段微調策略:第一階段混合鏈式思考(CoT)與工具整合推理(TIR),第二階段則針對奧林匹亞級難題進行拒絕採樣微調。團隊已將包含 86 萬條數據的 NuminaMath 數據集與模型權重完全開源,為開源 AI 數學推理領域樹立了新里程碑。
Hugging Face 發表全新的 Transformers Code Agent,透過讓 AI 撰寫並執行 Python 程式碼來解決複雜任務。該方法在評估通用 AI 助理能力的 GAIA 基準測試上取得了 SOTA(當前最佳)表現,證明了「程式碼執行」作為 Agent 推理工具,遠比傳統的 JSON 工具調用(Tool Calling)更具彈性與效率。此專案已完全開源,為開發者提供構建高效能 Agent 的新選擇。
Hugging Face 聯合 Cubzh 與 Gigax 推出「NPC-Playground」3D 互動沙盒。該平台利用開源的大型語言模型(LLM)賦予 NPC 記憶、感知與決策能力,使其不僅能與玩家對話,還能在 3D 空間中執行撿拾、移動等實體動作。這項開源合作展示了 AI Agent 在遊戲領域的全新應用可能。
Hugging Face 推出 Transformers Agents 2.0,對其 Agent 框架進行了全面重構。新版本主打兩大核心 Agent:能直接撰寫並執行 Python 程式碼的 CodeAgent,以及基於 ReAct 思考循環的 ReactAgent。此版本大幅簡化了工具(Tools)的自訂與分享機制,並支援多種開源與商業 LLM,為開發者提供更靈活、強大的 Agent 開發體驗。
Hugging Face 發表通用型代理人 JAT(Jack of All Trades),採用統一的 Transformer 架構,在 Atari、BabyAI、Meta-World 等多種強化學習環境與文字任務上進行聯合訓練。此研究展示了單一模型如何同時掌握多種不同領域的技能,並開源了數據集與模型權重,推動具身智能發展。
本文介紹如何使用開源 LLM(如 Mixtral-8x7B)作為 LangChain Agent。過去 Agent 多依賴 GPT-4,但隨著開源模型推理能力提升,透過正確的 Prompt 格式(如 ReAct 框架)與 Hugging Face TGI 整合,開源模型也能穩定執行工具調用與多步驟推理,提供高隱私且低成本的替代方案。
Replicate 推出新工具 AutoCog,旨在簡化機器學習模型的打包流程。使用者只需提供含有模型程式碼的目錄,AutoCog 就能利用 GPT-4 自動編寫並修正 predict.py 和 cog.yaml。它會透過「執行、報錯、修正」的循環,直到模型能順利執行預測,大幅降低將模型部署至 Replicate 或 Docker 容器的門檻。
本文探討將基礎語言模型轉化為實用對話代理(如 ChatGPT)的核心要素。Hugging Face 指出,除了預訓練外,透過指令微調(SFT)與人類回饋強化學習(RLHF)來對齊「實用、誠實、無害」三大原則至關重要。此外,賦予代理使用外部工具(如搜尋、計算機)的能力,能大幅提升其回答的準確性與實用性。