Hugging Face 發表最新技術,展示如何在 Intel Core Ultra 平台上加速 Qwen3-8B Agent。該方法採用「深度剪枝(Depth-Pruning)」技術製作輕量化的草稿模型,並結合投機解碼(Speculative Decoding)技術。這使得在個人電腦(Edge AI)上運行複雜的 Agent 任務時,能獲得更高的 Token 生成效率與更低的延遲,為本地端 AI 應用帶來突破。
Hugging Face 正式發表 Gaia2 基準測試與 ARE (Agent Run Environment) 框架。Gaia2 延續前代精神,設計了更複雜、防污染且貼近真實世界的多模態任務;而 ARE 則提供安全沙盒化的執行環境,解決了 Agent 測試中重現性低與安全風險的痛點。這套組合將大幅降低社群研究與評估 AI Agent 的門檻。
Vercel 宣布推出 402-mcp,在 Model Context Protocol (MCP) 中啟用 x402 付款機制。這允許 AI 代理(Agents)在調用 MCP 工具或數據時,直接透過 HTTP 402 進行自動化微付款,為 AI 代理經濟(Agentic Economy)奠定商業化基礎。
Hugging Face 發表 Jupyter Agents 研究,專注於訓練大型語言模型(LLM)在 Jupyter Notebook 環境中進行推理。透過整合程式碼執行反饋(REPL),模型能像人類資料科學家一樣,一邊執行程式碼、一邊根據錯誤訊息進行自我修正。此方法顯著提升了開源模型在數學、科學及程式設計等複雜任務上的表現。
Vercel 指出 Model Context Protocol (MCP) 正進入第二階段。第一階段是將現有工具連接至 LLM,而第二階段則是「為 LLM 量身打造 API」。開發者不再只是暴露傳統的 REST 接口,而是需要設計具備豐富語意描述、適合 Agent 推理與執行的 MCP 服務。這將徹底改變未來軟體架構與 API 開發的思維。
Hugging Face 發表最新指南,展示如何利用 Model Context Protocol (MCP) 將 AI 模型與學術研究工具無縫串接。文章介紹了如何建立 MCP 伺服器來連接 arXiv、Semantic Scholar 及 Zotero 等文獻資料庫,讓 AI 能夠直接檢索、閱讀並整理最新學術論文。這項技術不僅能大幅降低 AI 的幻覺,還能自動化文獻回顧與資料分析流程,是科研人員與開發者構建智慧學術助理的實用指南。
Hugging Face 發表全新基準測試「TextQuests」,旨在評估大型語言模型(LLM)在文字冒險遊戲(如 Zork)中的表現。這類遊戲要求模型具備強大的自然語言理解、常識推理、長期規劃與狀態追蹤能力。測試結果顯示,儘管現今 LLM 在傳統基準上表現優異,但在面對需要多步驟決策與試錯的文字遊戲時仍面臨極大挑戰。
知名 AI 學者 Ethan Mollick 撰文探討 GPT-5 的核心變革。他指出,未來的 AI 不再只是回答問題的聊天機器人,而是能夠自主執行複雜工作流的「代理人(Agent)」。使用者將從「撰寫提示詞」轉變為「授權與管理」,真正實現「讓 AI 掌管任務(Putting the AI in Charge)」,這將徹底改變我們的工作與組織協作方式。
NVIDIA 在 Hugging Face 部落格分享了其開源且可移植的深度研究 Agent 成果。透過在 DeepResearch Bench 基準測試上評估開源的 Llama Nemotron 模型,該系統展現出極佳的研究與推理能力。此研究證明了開源模型在複雜、多步驟的研究任務中,已具備與閉源頂尖模型競爭的實力,為開發者提供了一個強大且可本地部署的 Deep Research 解決方案。
Model Context Protocol (MCP) 是一個開放標準,旨在解決 AI 應用程式與各種資料源、工具之間連接破碎化的問題。本文以問答(FAQ)形式,深入淺出地解釋 MCP 的核心架構(Client-Host-Server)、運作原理,以及開發者如何利用 Vercel 和 AI SDK 快速構建與部署 MCP 伺服器,實現更強大的 AI Agent 應用。
Vercel 宣布推出支援模型上下文協定(MCP)的新工具,允許 AI 代理與開發工具(如 Claude)直接檢索數百萬個 GitHub 公開儲存庫。開發者現在可以讓 AI 快速搜尋開源社群中的特定 API 用法、程式碼範例或設定檔,大幅提升開發效率與程式碼生成的準確性。
Hugging Face 發表全新基準測試「FutureBench」,旨在評估 AI Agent 在預測未來事件(如地緣政治、金融市場及科技趨勢)上的表現。該測試挑戰了 Agent 的資訊檢索、機率推理與時間推理能力,有效避免了傳統基準測試中常見的資料洩漏問題。評估結果顯示,目前的 AI Agent 在面對未知的未來事件時,預測準確度與人類專家仍有顯著差距。
Hugging Face 發表 Gradio MCP(Model Context Protocol)伺服器的五大重要改進。本次更新優化了 Gradio 應用轉為 MCP 服務的流程,提升了與 Claude Desktop、Cursor 等客戶端的相容性,並加強了動態 Schema 轉換、串流效能與安全權限控制。這讓開發者能更輕易地將豐富的 Gradio 生態系工具無縫對接給 AI 代理使用。
Hugging Face 宣布推出其 Model Context Protocol (MCP) 伺服器。這項工具讓支援 MCP 的 AI 客戶端(如 Claude Desktop、Cursor)能夠直接與 Hugging Face Hub 互動。使用者可以直接在對話中搜尋熱門模型、查詢資料集結構與讀取 Model Card,大幅簡化了 AI 開發者與研究人員的工作流程。
Hugging Face 介紹了 ScreenEnv,這是一個旨在簡化「電腦使用(Computer Use)」AI 代理部署的開源環境。它提供類似 Gym 的標準化接口,讓開發者能在安全的虛擬桌面(如 Docker/VM)中,利用多模態模型(如 Claude 或 GPT)進行滑鼠、鍵盤與螢幕視覺的完整互動,非常適合開發自動化工作流與 GUI 代理。
Hugging Face 宣布 Gradio 正式支援 Model Context Protocol (MCP)。開發者現在可以輕鬆將 Gradio 應用程式轉換為 MCP 伺服器,使 Claude 等 LLM 代理能直接調用各種機器學習模型、影像處理或數據分析工具。這項整合極大地擴展了 LLM 的實用技能,並搭起了 LLM 與 Hugging Face 龐大開源生態系之間的橋樑。
隨著 AI Agent 從單純對話走向自主執行任務,安全挑戰日益嚴峻。Vercel 釋出指南,探討如何透過安全沙盒(如 E2B)隔離程式碼執行、利用 IAM 限制 Agent 權限、防範提示詞注入,以及在關鍵步驟引入「人工確認(Human-in-the-Loop)」機制,幫助開發者在 Vercel 平台上構建兼具功能與安全性的 AI 應用。
Hugging Face 發表了 ScreenSuite,這是目前最全面的圖形使用者介面(GUI)Agent 評估套件。它解決了現有評估工具平台單一、任務簡單的問題,提供跨 Web、桌面與行動裝置的標準化測試環境。ScreenSuite 整合了多樣化的真實世界任務與嚴格的評估指標,幫助開發者精確衡量 Agent 的視覺導航與操作能力。
法國 AI 新創公司 H (Hcompany) 於 Hugging Face 發表了全新的視覺語言模型 (VLM) 家族「Holo1」,專為 GUI(圖形使用者介面)自動化設計。該模型家族是其全新 GUI 代理人「Surfer-H」的核心引擎。Holo1 具備強大的視覺解析與螢幕定位能力,能夠理解複雜的網頁與應用程式介面,並執行點擊、輸入等操作。這項釋出標誌著 AI 代理人從單純的文字 API 呼叫,邁向能像人類一樣直接透過視覺操作任何軟體介面的新階段。
Hugging Face 探討了將「結構化約束(Structure)」引入 Code Agent 的全新設計範式。傳統 Code Agent 透過撰寫 Python 程式碼來執行任務,雖具備極高的靈活性,但自由度過高也容易帶來語法錯誤與安全隱憂。新方法透過結合 Pydantic 驗證、結構化解碼與型別限制,讓 Agent 在保有程式碼強大表達力的同時,確保輸出與行為的預測性與安全性,大幅提升複雜任務的執行成功率。
Hugging Face 推出全新教學,教導開發者如何使用約 70 行 Python 程式碼構建一個由 MCP(模型上下文協定)驅動的微型 Agent。此方法擺脫了傳統繁重框架的束縛,直接展示了 Agent 的核心運作邏輯。透過 MCP,這個微型 Agent 能輕鬆連接並調用外部工具與資料源,極大地降低了開發與理解 AI Agent 的門檻。
Hugging Face 發布 2025 年視覺語言模型(VLM)趨勢報告。文章深入探討 VLM 在「更強(推理與 OCR)」、「更快(輕量化與推論優化)」與「更實用(多模態 Agent)」三大維度的演進。推薦了 Qwen2.5-VL、Llama-3.2-Vision 等主流開源模型,並介紹如何利用 Hugging Face 生態系進行高效部署與微調。
Hugging Face 官方發布教學,介紹如何將 Gradio 應用程式轉換為 Model Context Protocol (MCP) 伺服器。開發者只需撰寫簡單的 Python 程式碼,即可將現有的 Gradio 介面與 ML 模型封裝成 MCP 工具。這讓 Claude Desktop 或 Cursor 等客戶端能直接調用這些工具,極大地簡化了 AI Agent 與自訂模型的整合。
ServiceNow 在 Hugging Face 博客上介紹了全新開源項目 PipelineRL。該項目旨在將強化學習(RL)技術應用於複雜的 AI 與 LLM 工作流管線優化中。透過 PipelineRL,開發者可以更有效地訓練和調整多步驟代理(Agent)系統,解決傳統靜態管線難以應對的動態決策與資源分配挑戰。
Hugging Face 發表最新教學,展示如何利用 Model Context Protocol (MCP) 協定,在僅 50 行程式碼內構建出功能完整的 AI Agent。透過 MCP,這個輕量級 Agent 可以直接連接並使用現有的各種 MCP 工具伺服器(如搜尋、資料庫等),無需繁瑣的 API 對接。這項技術大幅降低了開發 Agent 的門檻,並展現了開源標準在 AI 生態系中的強大潛力。
Google 在 Cloud Next 大會上宣布雙重重磅消息:全面支援 Anthropic 的 MCP 協定,並推出全新的 Agent2Agent (A2A) 協定。A2A 旨在與 MCP 互補,解決跨遠端 Agent 溝通的痛點。該規範包含 Agent Card、Task 機制、企業級認證與推播支援,並同步開源了草案規範與 Agent 開發套件(ADK)。
Hugging Face 宣布與 Cloudflare 達成合作,將其開源即時通訊庫 FastRTC 與 Cloudflare 的 WebRTC 基礎設施(如 Cloudflare Calls)進行深度整合。此合作旨在解決即時語音和視訊 AI 應用在部署時面臨的高延遲與複雜網路設定難題。開發者現在可以更輕鬆地在全球邊緣網路上建構並擴展低延遲的互動式 AI 體驗。
Hugging Face 發表指南,介紹如何將其輕量級 Agent 框架 `smolagents` 與開源 LLM 觀測平台 Arize Phoenix 整合。透過 OpenTelemetry 標準,開發者可以輕鬆追蹤 Agent 的決策步驟、工具調用與 LLM 互動。此整合不僅能可視化複雜的 Agent 工作流,還能進行系統化的效能評估,有效解決 Agent 開發中「黑盒子」與難以除錯的痛點。
為對抗封閉的商業 Deep Research 服務,Hugging Face 推出開源版 DeepResearch。該專案基於其輕量級 Agent 框架 smolagents,能驅動開源模型(如 Qwen 或 Llama)進行多步驟網頁搜尋、資訊整合並產出詳盡報告。這不僅降低了研究型 Agent 的門檻,也讓開發者能完全掌控資料與搜尋邏輯。
Hugging Face 推出全新基準測試「DABStep」,旨在評估 AI 數據代理(Data Agent)執行多步驟推理的能力。DABStep 模擬了真實世界的複雜數據分析場景,要求 AI 規劃步驟、撰寫並執行程式碼、處理多種數據格式,並進行錯誤修正。此基準測試為開發更實用、更具規劃能力的數據分析 AI 助手提供了客觀的評估標準。