Vercel 宣布與 xAI 展開合作,將 Grok 系列模型深度整合至 Vercel AI SDK。開發者現在可以透過 Vercel 平台快速配置環境變數、使用專屬 Next.js 模板,並以極低門檻將 xAI 的強大推理與即時檢索能力融入 Web 應用中,實現零摩擦的 AI 開發體驗。
Hugging Face 發表指南,介紹如何利用 LM Studio 在本機運行 Open R1 計畫的 OlympicCoder 模型。OlympicCoder 是專為程式設計與推理優化的開源模型。透過本機部署,開發者無需將程式碼上傳至雲端,即可享受媲美頂級商用模型的程式碼生成與除錯能力,兼顧隱私與效能。
Hugging Face 針對美國白宮的 AI 行動計畫徵求意見稿(RFI)提交了官方回應。其核心訴求圍繞在保護與推廣「開源 AI」與「開放科學」。Hugging Face 強調,開放源碼不僅能加速技術創新、防止科技巨頭壟斷,更能透過社群的集體審查提升 AI 的安全性與透明度,呼籲政府在制定政策時應避免扼殺開源生態。
Hugging Face 宣布將先前收購的 XetHub 技術(Xet)正式整合至 Hugging Face Hub。此整合旨在解決傳統 Git LFS 在處理超大型檔案與數百萬小檔案時的效能瓶頸。透過 Xet 的區塊級去重與隨選載入技術,開發者能以極快速度進行大檔案的 Git 版本控制、複製與推送,大幅提升機器學習工作流效率。
NVIDIA 在 GTC 2025 針對實體 AI(Physical AI)領域發表重大更新,與 Hugging Face 合作釋出全新開源模型與資料集。這些資源旨在降低具身智慧與機器人開發門檻,涵蓋世界模型、VLA 模型及高質量訓練資料。開發者可直接在 Hugging Face 平台獲取,加速實體世界 AI 應用的落地。
Google 推出全新一代開源模型 Gemma 3,具備強大的多模態(視覺與語音)理解能力、廣泛的多語言支持以及長文本處理能力。本次發布涵蓋多種參數規格,並與 Hugging Face 生態系統深度整合,開發者可立即透過 Transformers、vLLM 等工具進行部署與微調,為開源社群注入強大動力。
Hugging Face 發表開源推理模型專案 Open R1 的第三次技術更新。本次更新重點在於釋出基於 Qwen/Llama 的全新推理模型,並詳細公開了使用 TRL 進行 GRPO(群體相對策略優化)的訓練細節。團隊成功解決了訓練中的「獎勵黑客」問題,並開源了完整的訓練數據集與配方,顯著降低了社群重現 DeepSeek-R1 推理能力的門檻。
Hugging Face 的開源機器人平台 LeRobot 宣布進軍自動駕駛領域,發布了目前全球最大的開源自動駕駛資料集。此舉旨在打破科技巨頭對自動駕駛數據的壟斷,為研究人員與開發者提供豐富的真實駕駛場景數據。透過 LeRobot 的工具鏈,開發者可以更輕鬆地訓練與評估端到端的自動駕駛模型,推動具身智能在交通載具上的應用。
Replicate 團隊針對阿里巴巴最新開源的 Wan2.1 影片生成模型進行了深入的「參數掃描(Parameter Sweep)」測試。文章探討了調整各項參數(如 Guidance Scale、推理步數、Sample Shift 等)對最終影片生成品質、連貫性與風格的具體影響。這份實用指南能幫助開發者與創作者在 Replicate 平台上部署與調優 Wan2.1 時,找到最佳的效能與品質平衡點。
Hugging Face 與軟體供應鏈安全領導廠商 JFrog 展開戰略合作。雙方將整合 Hugging Face 的開源模型生態系與 JFrog 的安全平台,讓企業在引進 AI 模型時能進行自動化漏洞掃描與惡意代碼檢測。此舉旨在解決 AI 供應鏈中的安全隱憂,讓 AI 開發流程更加透明且符合企業合規要求。
Cohere For AI 發表全新開源多語言多模態模型「Aya Vision」(提供 8B 與 32B 版本)。該模型旨在解決現有視覺語言模型(VLM)嚴重偏向英語的問題,大幅提升了對全球多種語言(特別是低資源語言)的圖像理解與文字生成能力。在多項多語言多模態基準測試中,Aya Vision 展現出超越同量級開源模型的優異性能,並已於 Hugging Face 平台上開源。
Hugging Face 發表指南,介紹如何將其輕量級 Agent 框架 `smolagents` 與開源 LLM 觀測平台 Arize Phoenix 整合。透過 OpenTelemetry 標準,開發者可以輕鬆追蹤 Agent 的決策步驟、工具調用與 LLM 互動。此整合不僅能可視化複雜的 Agent 工作流,還能進行系統化的效能評估,有效解決 Agent 開發中「黑盒子」與難以除錯的痛點。
Hugging Face 宣布與印度頂尖研究機構印度科學理工學院(IISc)展開合作。雙方將結合 IISc 的學術研究實力與 Hugging Face 的開源生態系,致力於解決印度多元語言(包含多種低資源語言)的 AI 模型開發挑戰。此舉旨在為印度本土語言建立更完善的開源數據集與語言模型,促進在地化的 AI 技術普及。
Hugging Face 發表全新開源庫 FastRTC,旨在簡化 Python 中的 WebRTC 即時音視訊串流開發。它解決了傳統 WebRTC 繁瑣的連線與協定處理,並與 Gradio 及 FastAPI 深度整合。開發者現在能以極低門檻,快速打造出類似 GPT-4o 或 Gemini Live 的即時語音對話機器人與視訊互動應用。
Hugging Face 宣布在 Inference Endpoints 中支援「Remote VAE」解碼功能。在運行 FLUX.1 或 Stable Diffusion 等大型圖像生成模型時,VAE 解碼通常會消耗大量 GPU 顯存(VRAM)。透過將 VAE 解碼步驟與潛在空間生成解耦並進行遠端處理,開發者可以在較小、較便宜的 GPU 上部署大型擴散模型,同時優化整體的推論吞吐量與頻寬傳輸。
Google 與 Hugging Face 聯合發表 SigLIP 2 視覺語言編碼器。作為經典 SigLIP 的升級版,SigLIP 2 引入了動態解析度、自監督學習(SSL)輔助任務與更強的多語言支援。它在零樣本分類、圖文檢索及定位等任務上表現優異,並提供多種尺寸的模型,非常適合用作新一代多模態大模型(VLM)的視覺骨幹網路(Vision Backbone)。
Hugging Face 正式發布 SmolVLM2 系列模型,專為手機與筆電等個人裝置設計。此版本最大亮點是引入了強大的「影片理解」與「多圖處理」能力,其中 2.2B 旗艦版本在保持極低運算資源消耗的同時,能在多項視覺與影片基準測試中媲美更大尺寸的模型。模型完全開源並採用 Apache 2.0 授權,極具實用價值。
Google 與 Hugging Face 合作推出了 PaliGemma 2 Mix 系列模型。這是專為指令遵循(Instruction-following)設計的輕量級視覺語言模型(VLM),結合了 SigLIP 視覺編碼器與 Gemma 2 語言解碼器。 PaliGemma 2 Mix 提供多種參數大小(包含 3B、10B 與 28B),並在多種視覺問答、圖像描述及目標檢測等任務上進行了混合微調,開箱即可展現優異的多模態理解能力。 開發者可直接在 Hugging Face 上取得權重,並透過 Transformers 庫輕鬆進行部署與微調。
Hugging Face 宣布新增三家無伺服器(Serverless)推論合作夥伴:Hyperbolic、Nebius AI Studio 與 Novita AI。開發者現在能直接在 Hugging Face 生態系中,以更具彈性、低延遲且具成本效益的方式呼叫各類主流開源模型。這項更新不僅擴展了 Hugging Face 的推論 API 選擇,也為去中心化運算與高效能 GPU 雲端服務帶來更多應用場景。
Hugging Face 宣佈與高效能推論平台 Fireworks.ai 展開合作,將其整合至 Hugging Face Hub。開發者現在可以直接在 Hub 上利用 Fireworks.ai 的超低延遲推論引擎,運行 Llama 3、Qwen 等熱門開源模型。這項合作不僅簡化了 API 調用流程,也為尋求高性價比、企業級推論服務的開發者提供了全新選擇。
Hugging Face 宣布在 Open LLM Leaderboard 中引入全新開源工具 Math-Verify。過去的數學評測常因模型輸出格式與標準答案不完全一致(如分數與小數)而導致誤判。Math-Verify 透過強大的數學表達式解析與等價性檢查,修正了這些評分偏差,讓開源模型的數學推理能力得到更真實的呈現。
Hugging Face 發表專文探討大規模文本分類的實踐。在 LLM 時代,許多開發者盲目使用 GPT-4 等生成式大模型進行分類,導致成本高昂且延遲高。文章展示了如何利用 ModernBERT、DeBERTa 等開源編碼器模型,搭配 Rust 編寫的 TEI (Text Embeddings Inference) 引擎,在極低成本下於短時間內完成 10 億次分類。這種方法不僅能將延遲壓低至個位數毫秒,成本更比使用 LLM API 降低高達 90% 以上,為工業級數據處理提供高效示範。
Hugging Face 官方宣布重構其 `huggingface_hub` SDK 的傳輸架構。新架構從傳統的「分塊(Chunks)」改為「區塊(Blocks)」管理,支援並行傳輸、獨立區塊重試與更低的記憶體佔用。這項更新顯著提升了數 GB 甚至數百 GB 級模型(如 Safetensors)與數據集的上傳與下載速度,並增強了網路不穩定時的容錯能力。
Hugging Face 發表全新開源工具包 vid_ds_scripts,解決影片生成模型(如 LTX-Video、HunyuanVideo)訓練資料準備的痛點。該工具包提供一站式解決方案,涵蓋影片下載、PySceneDetect 場景分割、VLM 自動生成詳細描述,以及資料過濾與格式化。這大幅降低了開發者構建高品質「影片-文字對」資料集的門檻,加速開源影片生成技術的微調與研發。
Hugging Face 釋出 Open R1 專案的第二份進度報告。團隊分享了使用 TRL 庫中的 GRPO 演算法在 Llama-8B 與 Qwen-32B 上進行強化學習(RL)訓練的實戰經驗,成功重現了「頓悟時刻」與推理鏈。本次更新也詳細探討了格式控制、訓練穩定性及在 MATH、AIME 等基準測試上的最新評估數據。
Hugging Face 宣布推出「開源阿拉伯語大語言模型排行榜 2.0」。本次更新旨在解決舊版基準過時與數據污染問題,引入了更具挑戰性的評測數據集,涵蓋推理、數學、文化理解等維度。新版本採用 Lighteval 評估工具並加強防作弊機制,為阿拉伯語 AI 研究提供更具公信力的評估標準。
Hugging Face 推出全新基準測試「DABStep」,旨在評估 AI 數據代理(Data Agent)執行多步驟推理的能力。DABStep 模擬了真實世界的複雜數據分析場景,要求 AI 規劃步驟、撰寫並執行程式碼、處理多種數據格式,並進行錯誤修正。此基準測試為開發更實用、更具規劃能力的數據分析 AI 助手提供了客觀的評估標準。
為對抗封閉的商業 Deep Research 服務,Hugging Face 推出開源版 DeepResearch。該專案基於其輕量級 Agent 框架 smolagents,能驅動開源模型(如 Qwen 或 Llama)進行多步驟網頁搜尋、資訊整合並產出詳盡報告。這不僅降低了研究型 Agent 的門檻,也讓開發者能完全掌控資料與搜尋邏輯。
機器人 AI 新創公司 Physical Intelligence 在 Hugging Face 上開源了其通用機器人基礎模型 π0 及其加速版本 π0-FAST。這款視覺-語言-動作(VLA)模型能透過文字與視覺指令控制多種不同硬體的機器人,執行摺衣服、收拾雜物等複雜任務。π0-FAST 則大幅提升了推理速度,滿足高頻率實時控制的需求,為開源實體 AI 領域帶來重大突破。
Hugging Face 發表 Open-R1 專案的第一階段更新,旨在完全開源重現 DeepSeek-R1。團隊目前專注於利用 TRL 庫中的 GRPO 演算法進行強化學習訓練,並已釋出初步的訓練配方、資料集與評估結果。報告中也探討了推理模型訓練中常見的「獎勵作弊(Reward Hacking)」與格式控制等技術挑戰。