Cohere For AI 發表全新開源多語言多模態模型「Aya Vision」(提供 8B 與 32B 版本)。該模型旨在解決現有視覺語言模型(VLM)嚴重偏向英語的問題,大幅提升了對全球多種語言(特別是低資源語言)的圖像理解與文字生成能力。在多項多語言多模態基準測試中,Aya Vision 展現出超越同量級開源模型的優異性能,並已於 Hugging Face 平台上開源。
Hugging Face 與軟體供應鏈安全領導廠商 JFrog 展開戰略合作。雙方將整合 Hugging Face 的開源模型生態系與 JFrog 的安全平台,讓企業在引進 AI 模型時能進行自動化漏洞掃描與惡意代碼檢測。此舉旨在解決 AI 供應鏈中的安全隱憂,讓 AI 開發流程更加透明且符合企業合規要求。
Hugging Face 宣布與印度頂尖研究機構印度科學理工學院(IISc)展開合作。雙方將結合 IISc 的學術研究實力與 Hugging Face 的開源生態系,致力於解決印度多元語言(包含多種低資源語言)的 AI 模型開發挑戰。此舉旨在為印度本土語言建立更完善的開源數據集與語言模型,促進在地化的 AI 技術普及。
Hugging Face 正式發布 SmolVLM2 系列模型,專為手機與筆電等個人裝置設計。此版本最大亮點是引入了強大的「影片理解」與「多圖處理」能力,其中 2.2B 旗艦版本在保持極低運算資源消耗的同時,能在多項視覺與影片基準測試中媲美更大尺寸的模型。模型完全開源並採用 Apache 2.0 授權,極具實用價值。
Hugging Face 宣佈與高效能推論平台 Fireworks.ai 展開合作,將其整合至 Hugging Face Hub。開發者現在可以直接在 Hub 上利用 Fireworks.ai 的超低延遲推論引擎,運行 Llama 3、Qwen 等熱門開源模型。這項合作不僅簡化了 API 調用流程,也為尋求高性價比、企業級推論服務的開發者提供了全新選擇。
Hugging Face 宣布在 Open LLM Leaderboard 中引入全新開源工具 Math-Verify。過去的數學評測常因模型輸出格式與標準答案不完全一致(如分數與小數)而導致誤判。Math-Verify 透過強大的數學表達式解析與等價性檢查,修正了這些評分偏差,讓開源模型的數學推理能力得到更真實的呈現。
機器人 AI 新創公司 Physical Intelligence 在 Hugging Face 上開源了其通用機器人基礎模型 π0 及其加速版本 π0-FAST。這款視覺-語言-動作(VLA)模型能透過文字與視覺指令控制多種不同硬體的機器人,執行摺衣服、收拾雜物等複雜任務。π0-FAST 則大幅提升了推理速度,滿足高頻率實時控制的需求,為開源實體 AI 領域帶來重大突破。
Hugging Face 發表 Open-R1 專案的第一階段更新,旨在完全開源重現 DeepSeek-R1。團隊目前專注於利用 TRL 庫中的 GRPO 演算法進行強化學習訓練,並已釋出初步的訓練配方、資料集與評估結果。報告中也探討了推理模型訓練中常見的「獎勵作弊(Reward Hacking)」與格式控制等技術挑戰。
Hugging Face 推出全新「AI 藝術工具電子報(Issue 1)」,旨在為藝術家與創意工作者搭起技術橋樑。本期聚焦於 2025 年 1 月最新的開源 AI 藝術工具、互動式 Hugging Face Spaces 以及實用的創意工作流。內容涵蓋影像生成、風格轉移與社群熱門的視覺創作模型,幫助創作者掌握開源 AI 的最新藝術應用。
Hugging Face 宣布啟動 Open-R1 專案,目標是完全重現 DeepSeek-R1 的推理能力。該專案將開源所有訓練配方、資料集與模型權重,並利用 TRL 框架中的 GRPO 演算法進行強化學習。這項計畫將降低開發者構建高效推理模型的門檻,推動開源 AI 社群的推理模型民主化。
本文回顧了 Hugging Face Diffusers 函式庫中開源影片生成模型的最新進展。隨著技術從 UNet 轉向 Diffusion Transformers (DiTs),如 CogVideoX、Mochi 1、LTX-Video 及 HunyuanVideo 等模型已全面整合。文章重點介紹了如何透過 CPU 卸載、FP8 量化與 Tiled VAE 等技術,在消費級 GPU 上高效運行這些動輒數十億參數的影片生成模型。
AI 雲端託管平台 Replicate 宣布推出開源影片生成模型的微調(Fine-tuning)功能。首波支援騰訊(Tencent)的 HunyuanVideo 模型,讓開發者與創作者能夠針對特定的藝術風格、動態效果或特定角色進行訓練。這項更新降低了自訂高品質影片生成模型的門檻,用戶無需自行管理複雜的 GPU 基礎設施即可完成微調。
Vercel 宣布收購專注於數據可視化的開源 React 組件庫 Tremor。Tremor 以基於 Tailwind CSS 構建精美儀表板著稱,此舉顯示 Vercel 致力於提升開發者在構建數據密集型應用時的體驗。未來 Tremor 有望與 Vercel 的 AI 介面生成工具 v0 進行更深度的整合,為前端生態帶來更多可能性。
Hugging Face 宣布與 FriendliAI 建立合作夥伴關係,旨在加速 Hugging Face Hub 上的模型部署。透過整合 FriendliAI 的高效能推理技術,開發者將能以更低的延遲和更低的成本部署大型語言模型(LLM)。此合作簡化了從 Hub 到生產環境的部署流程,為企業提供更具成本效益的 AI 服務方案。
Hugging Face 宣布推出新功能,現在平台上的「組織(Organizations)」帳號也可以直接撰寫並發布部落格文章。過去此功能主要開放給個人,如今企業、研究機構與開源團隊將能以官方名義直接在平台上分享技術細節、模型發布公告與教學,進一步強化 Hugging Face 作為 AI 社群知識樞紐的地位。
Hugging Face 宣布將著名的 PyTorch 圖像模型庫 `timm` 與 `transformers` 進行深度整合。現在開發者可以直接使用 `AutoModel` 和 `AutoImageProcessor` 等標準 API,輕鬆載入並使用 `timm` 中的數千個電腦視覺模型。這項更新不僅簡化了工作流程,還讓 `timm` 模型能完美融入 Hugging Face 的生態系,包括 Trainer、Pipelines 以及各類部署工具。
Hugging Face 發表輕量級 AI Agent 框架「smolagents」,核心概念為「Code Agents」。與傳統輸出 JSON 的 Agent 不同,它讓 LLM 直接生成 Python 程式碼來執行複雜任務,大幅提升表達力與靈活性。該框架程式碼極簡(約千行),並內置安全的 Python 執行沙箱,支援多種主流 LLM 供應商。
阿布達比技術創新研究所(TII)正式發布 Falcon 3 系列開源模型,提供 1B、3B、7B 及 10B MoE 等多種參數規格。Falcon 3 在多項基準測試中表現優異,其 7B 版本在性能上甚至超越了 Llama 3.1 8B 與 Gemma 2 9B。此系列模型對硬體友善,極適合邊緣運算與本地部署,並已深度整合至 Hugging Face 生態系統。
Replicate 指出,AI 影片生成領域正經歷類似當年 Stable Diffusion 顛覆圖像生成的「開源時刻」。 目前市場上已出現多款效果足以媲美 OpenAI Sora 的開源影片生成模型。 這意味著開發者與創作者不再受限於封閉的 API,能以更低成本、更高自由度在本地或雲端部署高品質影片生成。
Hugging Face 宣布推出「LeMaterial」開源倡議,旨在降低材料科學領域的 AI 應用門檻。該項目整合了大規模材料數據集、先進的機器學習模型(如圖神經網路 GNN)以及標準化的評估基準。透過將這些資源託管於 Hugging Face 平台,LeMaterial 將促進全球研究人員協作,大幅縮短新材料的研發週期。
歐盟《AI 法案》(EU AI Act)已正式生效,Hugging Face 針對開源社群推出實用指南。文章釐清了開源模型在何種情況下可享有豁免(如釋出權重與架構),並指出當模型運算量超過 10^25 FLOPs 或被用於高風險領域時,開發者仍需承擔合規義務。此指南旨在幫助開源開發者在推動創新的同時,避免觸犯法律紅線。
AI 雲端託管平台 Replicate 宣布大幅提升 FLUX.1 圖像生成模型的微調(Fine-tuning)速度。透過底層優化,用戶現在能以極快的速度訓練出專屬的 FLUX LoRA 模型。最重要的是,Replicate 將這些優化技術與訓練程式碼完全開源,讓開發者不僅能在其平台上快速部署,也能在自己的硬體上實現高效訓練。
Hugging Face 發表全新輕量級視覺語言模型 SmolVLM(約 2.2B 參數),專為本機與邊緣設備設計。該模型結合了 SigLIP 視覺編碼器與 SmolLM2 語言模型,不僅支援多圖輸入與影片分析,在多項基準測試中更展現出媲美更大尺寸模型的性能。SmolVLM 採 Apache 2.0 開源授權,極低記憶體佔用使其成為開發者在終端裝置部署 VLM 的理想選擇。
Hugging Face 官方發文鼓勵機器學習研究人員將其開源數據集託管至 Hugging Face Hub。透過 Hub 提供的強大工具(如數據集瀏覽器、版本控制與 metadata 標記),研究人員能更輕鬆地推廣其研究成果。此舉旨在降低數據集獲取門檻,進一步推動全球開源 AI 社群的協作與創新。
非營利組織 Digital Green 為了向農民提供精確的農業建議,開發了基於 RAG 的問答系統。透過 Hugging Face 專家支援服務,他們導入了「LLM-as-a-Judge」自動化評估框架。此方案不僅能有效衡量回答的真實性與相關性,還透過開源模型替代昂貴的專有模型,在維持高評估準確度的同時大幅降低了營運成本。
Hugging Face 宣布與 AI 安全領導廠商 Protect AI 展開合作,旨在提升開源機器學習(ML)社群的模型安全性。雙方將共同應對日益嚴重的開源模型安全威脅,如惡意代碼注入與反序列化漏洞。透過整合先進的安全掃描技術,此合作將幫助開發者在 Hugging Face Hub 上更安全地分享與下載模型,降低供應鏈安全風險。
Hugging Face 委託專業安全公司 Trail of Bits 對 Gradio 5 進行全面安全性審計。本次更新修復了包括任意檔案讀取(LFI)與伺服器端請求偽造(SSRF)等潛在漏洞,並重新設計了檔案存取架構。新版本採取「預設安全」策略,大幅降低開發者在部署 AI 互動介面時面臨的安全風險。
Replicate 平台上的 FLUX 模型現在運行速度顯著加快。官方不僅提升了推論效能,還將這些優化技術與程式碼完全開源,讓開發者可以深入了解其運作原理,並能在此基礎上進行二次開發與自定義部署。
隨著 Qwen、DeepSeek、Yi 等中國開源模型在 Hugging Face 排行榜上名列前茅,中國 AI 勢力正加速全球擴張。這些模型憑藉強大的多語言能力、數學與程式碼推理性能,以及極高的性價比,成為全球開發者在 Llama 之外的重要選擇。本文總結了中國 AI 透過開源生態系打破地理限制、走向國際的關鍵策略與面臨的挑戰。
Meta 正式發布 Llama 3.2,最大亮點為首次推出 11B 和 90B 的視覺多模態模型,能理解圖像與圖表;同時推出專為手機與邊緣裝置設計的 1B 和 3B 超輕量文字模型,支援 128k 脈絡長度。Hugging Face 已在 Transformers、TGI 及微調工具中全面支援,方便開發者即刻部署與應用。