Hugging Face 宣布歐洲知名雲端服務商 Scaleway 正式加入其「推理提供商(Inference Providers)」生態系。開發者現在可以直接在 Hugging Face Hub 上,一鍵選擇 Scaleway 作為後端 API 來部署與運行開源 AI 模型。這項合作為重視數據隱私與歐盟 GDPR 合規性的企業與開發者,提供了更具性價比且符合法規的歐洲本土 GPU 推理新選擇。
Hugging Face 介紹了 RiskRubric.ai 平台,旨在將 AI 安全評估民主化。該平台提供標準化的風險評估量表(Rubrics),幫助開發者與研究人員量化評估 AI 模型在偏見、毒性及隱私等維度的風險。透過開源與社群驅動的方式,它降低了中小型團隊進行 AI 安全測試與紅隊演練的門檻,並能與 Hugging Face 生態系無縫整合。
Hugging Face 宣佈與 Public AI 合作,正式將其整合至「推理提供商(Inference Providers)」生態系中。開發者現在可以直接在 Hugging Face Hub 上,選擇由 Public AI 提供的無伺服器(Serverless)API 來運行 Llama、Mistral 等熱門開源模型。此舉不僅簡化了 AI 應用的部署流程,也為開發者在尋求高效能、低延遲且具成本效益的推理基礎設施時,提供了全新的選擇。
Hugging Face 宣布推出 LeRobotDataset:v3.0,這是其開源機器人庫 LeRobot 的重大更新。新版本重新設計了數據集格式,旨在解決大規模機器人數據(如影像、關節狀態、動作)的儲存與 I/O 瓶頸。v3.0 提供了更高效的串流載入、統一的機器人本體架構 Schema,並無縫整合至 Hugging Face Hub,為訓練下一代具身智能(Embodied AI)奠定基礎。
Hugging Face 旗下的 Gradio 框架推出「視覺化浮水印」新功能。開發者現在能在部署圖像生成應用時,直接在輸出圖像上疊加自訂的浮水印或 Logo。這項更新不僅簡化了開發流程,更能有效保護創作者版權並防止 AI 內容被惡意濫用,是 AI 應用開發者必備的安全工具。
Vercel 宣布推出 402-mcp,在 Model Context Protocol (MCP) 中啟用 x402 付款機制。這允許 AI 代理(Agents)在調用 MCP 工具或數據時,直接透過 HTTP 402 進行自動化微付款,為 AI 代理經濟(Agentic Economy)奠定商業化基礎。
Vercel 宣布推出「x402-mcp」,這是一個針對模型上下文協議(MCP)工具的開放式支付協議。該協議旨在解決 AI Agent 與工具互動時的付費與授權問題,靈感源自 HTTP 402(Payment Required)狀態碼。透過 x402-mcp,開發者可以更輕鬆地為其 MCP 工具整合計費與支付機制,促進 AI 工具生態系的商業化發展。
知名 AI 學者 Ethan Mollick 提出「與魔法師共事」的隱喻,指出當前 AI 並非傳統軟體,而是具備強大卻不穩定能力的魔法師。在「參差不齊的技術前沿(Jagged Frontier)」上,AI 可能在困難任務上表現驚人,卻在簡單任務上出錯。人類必須學會扮演「驗證者」,透過深度整合(如半人馬或賽博格模式)來駕馭這股魔法般的技術。
Enterprise AI 公司 Writer 在 Hugging Face 上推出了全新的「Palmyra-mini」模型系列。該系列主打輕量化與強大效能,並特別強調具備「推理(reasoning)」能力。這使得開發者能在資源受限的環境中,部署具備複雜邏輯思考與問題解決能力的 AI 模型,為邊緣運算與企業應用提供新選擇。
Hugging Face 官方解析了 OpenAI 最新開源項目 `gpt-oss` 的核心加速技術,並教導開發者如何將這些優化手段移植到現有的 `transformers` 庫中。重點技巧包含:利用 `torch.compile` 配合「靜態 KV 快取」消除 Python 執行期開銷、引入「投機性解碼」實現多倍速生成,以及透過 FP8/INT4 量化與 Triton 自訂核心緩解記憶體頻寬瓶頸。這些方法能讓開發者在不犧牲精度的情況下,極大化 GPU 的推論效率。
Hugging Face 宣布與 Together AI 深度整合,推出全新微調解決方案。開發者現在可以直接從 Hugging Face Hub 選擇任何開源大語言模型,並利用 Together AI 的高效能 GPU 叢集與微調 API 進行訓練。此合作大幅簡化了微調的工作流程,免去繁瑣的硬體設定,並提供極具成本效益的無伺服器微調體驗。
Hugging Face 發表 Jupyter Agents 研究,專注於訓練大型語言模型(LLM)在 Jupyter Notebook 環境中進行推理。透過整合程式碼執行反饋(REPL),模型能像人類資料科學家一樣,一邊執行程式碼、一邊根據錯誤訊息進行自我修正。此方法顯著提升了開源模型在數學、科學及程式設計等複雜任務上的表現。
Vercel 指出 Model Context Protocol (MCP) 正進入第二階段。第一階段是將現有工具連接至 LLM,而第二階段則是「為 LLM 量身打造 API」。開發者不再只是暴露傳統的 REST 接口,而是需要設計具備豐富語意描述、適合 Agent 推理與執行的 MCP 服務。這將徹底改變未來軟體架構與 API 開發的思維。
Hugging Face 與社群合作推出 mmBERT,這是基於 ModernBERT 架構的多語言版本。mmBERT 繼承了 ModernBERT 的現代化改進(如 FlashAttention、RoPE 與 8192 token 長文本支持),旨在取代傳統的 mBERT 與 XLM-RoBERTa。它能顯著提升多語言文本分類、命名實體識別(NER)及檢索(RAG)等任務的運算效率,為開發者提供更強大且省資源的開源選擇。
PyTorch 的 torch.compile 能顯著提升模型推論速度,但首次編譯的「冷啟動」時間往往令人頭痛。Replicate 介紹了如何透過快取(Caching)編譯後的模型成品,避免每次容器啟動時重複編譯。這項技術能有效縮短伺服器無預載(Serverless)部署時的啟動延遲,讓開發者在享受高效能推論的同時,也能擁有極速的部署與反應時間。
Google 正式推出全新開源嵌入模型 EmbeddingGemma。該模型基於強大的 Gemma 2 架構,專為檢索、語意搜尋與 RAG(檢索增強生成)等任務設計。EmbeddingGemma 在 MTEB 等主流基準測試中表現優異,並提供高效的推理能力。目前已全面整合至 Hugging Face 生態系統,開發者可透過 transformers 與 sentence-transformers 輕鬆部署與微調。
Alphabet 拆分出的 AI 與量子技術公司 SandboxAQ,在 Hugging Face 上正式發布了 SAIR 數據集。該數據集專為製藥研發(Pharma R&D)設計,利用 AI 驅動的「結構智能」,提供高質量的分子與蛋白質結構數據。此舉解決了 AI 藥物發現中高質量數據匱乏的痛點,將有助於研究人員訓練更精準的預測模型,大幅縮短新藥開發的週期與成本。
Hugging Face 釋出最新指南,教導開發者如何在 ZeroGPU Spaces 中使用 PyTorch 的 AOT (Ahead-of-Time) 提前編譯技術。透過在建置階段將模型預先編譯為優化的 C++ 共享庫,開發者可以完全消除運行時的首次熱身(warm-up)延遲。這不僅能讓 ZeroGPU 的啟動與推理速度飛起,還能有效節省寶貴的 GPU 使用配額。
知名 AI 學者 Ethan Mollick 撰文探討「大眾智能(Mass Intelligence)」的降臨。他指出,AI 正在朝兩極化普及:一方面是如 GPT-5 等具備頂尖推理能力的前沿模型,另一方面是能在個人裝置運行的超輕量本地模型(如 nano banana 等)。這意味著強大的 AI 算力將如同電力般無所不在且廉價,徹底民主化智能的獲取管道。
NVIDIA 在 Hugging Face 上正式發布了包含 600 萬個樣本的全新「多語言推理數據集」(Multi-Lingual Reasoning Dataset)。 該數據集旨在解決當前 AI 模型在非英語系語言中邏輯推理能力不足的痛點,提供大規模且高質量的訓練素材。 此開源資源將顯著降低開發多語言推理模型(如 Reasoning LLM)的門檻,對開源社群具有重要推動作用。
Hugging Face 推出實用指南,協助開發者克服自訂 GPU 算子的開發門檻。文章深入探討如何從零開始撰寫 CUDA Kernel,並介紹如何利用 OpenAI Triton 簡化開發流程。最後,指南展示了如何將這些自訂算子無縫整合至 PyTorch 中,並透過 Profiling 工具進行效能調優,以達到生產環境的擴展需求。
Hugging Face 發表最新指南,展示如何利用 Model Context Protocol (MCP) 將 AI 模型與學術研究工具無縫串接。文章介紹了如何建立 MCP 伺服器來連接 arXiv、Semantic Scholar 及 Zotero 等文獻資料庫,讓 AI 能夠直接檢索、閱讀並整理最新學術論文。這項技術不僅能大幅降低 AI 的幻覺,還能自動化文獻回顧與資料分析流程,是科研人員與開發者構建智慧學術助理的實用指南。
Hugging Face 的 AI-MO(AI 數學奧林匹亞)團隊發表全新項目 Kimina-Prover-RL,專注於自動定理證明(ATP)。該項目透過強化學習(RL)引導模型在 Lean 等形式化環境中進行證明搜尋,是開源社群追趕 DeepMind AlphaProof 的重要里程碑,為複雜數學推理與形式化驗證提供了可重現的 RL 訓練框架與模型。
Hugging Face 介紹 Arm 與 PyTorch 團隊在 ExecuTorch 0.7 的最新合作成果。此版本專為 Arm 架構(如手機、AI PC)優化生成式 AI 效能,透過先進的量化技術與核心優化(如 Arm KleidiAI),讓開發者能更輕鬆地在邊緣裝置上部署低延遲、低功耗的輕量化大語言模型。
Arm 與 Hugging Face 合作宣布「Neural Super Sampling (NSS)」技術正式上線。這項技術旨在利用神經網路,在行動裝置與邊緣設備上實現即時的圖像與遊戲畫面超取樣(類似行動版 DLSS)。透過 Hugging Face 平台,開發者現在可以輕鬆獲取優化後的 NSS 模型與工具鏈,大幅提升手遊與 XR 應用的畫面流暢度並降低能耗。
Hugging Face 發表全新評測基準「FilBench」,旨在評估 LLM 在菲律賓語上的理解與生成能力。由於菲律賓語在 NLP 領域常被視為資源較匱乏的語言,此基準填補了評測空白。FilBench 涵蓋多種任務,能協助研究人員與開發者客觀評估並優化模型在東南亞在地化應用的表現。
Hugging Face 發表全新基準測試「TextQuests」,旨在評估大型語言模型(LLM)在文字冒險遊戲(如 Zork)中的表現。這類遊戲要求模型具備強大的自然語言理解、常識推理、長期規劃與狀態追蹤能力。測試結果顯示,儘管現今 LLM 在傳統基準上表現優異,但在面對需要多步驟決策與試錯的文字遊戲時仍面臨極大挑戰。
Replicate 宣布推出遠端 MCP(Model Context Protocol)伺服器,將其平台上的數萬個開源模型直接接入開發工作流。使用者現在無需離開編輯器或聊天介面,即可在 Claude Desktop、Cursor 和 VS Code 等工具中,直接搜尋、比較並執行 Replicate 上的模型。這項更新大幅簡化了開發者測試與整合各種開源 AI 模型(如 Llama、Flux 等)的流程,提升開發效率。
Hugging Face 釋出最新指南,介紹 `accelerate` 的 N 維並行(ND-Parallel)技術,解決單一並行模式在超大模型訓練時的瓶頸。 文章深入探討如何有機結合數據並行(DP)、張量並行(TP)與流水線並行(PP),並透過簡單的設定檔啟用。 本指南特別適合需要跨多節點、多 GPU 進行 LLM 微調或預訓練的開發者與研究人員,能顯著提升硬體利用率(MFU)。
Hugging Face 發表全新工具「AI Sheets」,旨在降低數據集處理的門檻。使用者無需編寫複雜代碼,即可在類似 Excel 的試算表介面中導入數據,並調用 Hugging Face 上的開源 AI 模型進行批量文本分類、翻譯、情感分析或數據增強。這項工具結合了開源生態系的靈活性與直觀的無程式碼操作,大幅提升了數據準備與標記的效率。