Google 與 Hugging Face 合作推出了 PaliGemma 2 Mix 系列模型。這是專為指令遵循(Instruction-following)設計的輕量級視覺語言模型(VLM),結合了 SigLIP 視覺編碼器與 Gemma 2 語言解碼器。 PaliGemma 2 Mix 提供多種參數大小(包含 3B、10B 與 28B),並在多種視覺問答、圖像描述及目標檢測等任務上進行了混合微調,開箱即可展現優異的多模態理解能力。 開發者可直接在 Hugging Face 上取得權重,並透過 Transformers 庫輕鬆進行部署與微調。
Hugging Face 宣布新增三家無伺服器(Serverless)推論合作夥伴:Hyperbolic、Nebius AI Studio 與 Novita AI。開發者現在能直接在 Hugging Face 生態系中,以更具彈性、低延遲且具成本效益的方式呼叫各類主流開源模型。這項更新不僅擴展了 Hugging Face 的推論 API 選擇,也為去中心化運算與高效能 GPU 雲端服務帶來更多應用場景。
Hugging Face 宣布在 Open LLM Leaderboard 中引入全新開源工具 Math-Verify。過去的數學評測常因模型輸出格式與標準答案不完全一致(如分數與小數)而導致誤判。Math-Verify 透過強大的數學表達式解析與等價性檢查,修正了這些評分偏差,讓開源模型的數學推理能力得到更真實的呈現。
Hugging Face 宣佈與高效能推論平台 Fireworks.ai 展開合作,將其整合至 Hugging Face Hub。開發者現在可以直接在 Hub 上利用 Fireworks.ai 的超低延遲推論引擎,運行 Llama 3、Qwen 等熱門開源模型。這項合作不僅簡化了 API 調用流程,也為尋求高性價比、企業級推論服務的開發者提供了全新選擇。
Hugging Face 發表專文探討大規模文本分類的實踐。在 LLM 時代,許多開發者盲目使用 GPT-4 等生成式大模型進行分類,導致成本高昂且延遲高。文章展示了如何利用 ModernBERT、DeBERTa 等開源編碼器模型,搭配 Rust 編寫的 TEI (Text Embeddings Inference) 引擎,在極低成本下於短時間內完成 10 億次分類。這種方法不僅能將延遲壓低至個位數毫秒,成本更比使用 LLM API 降低高達 90% 以上,為工業級數據處理提供高效示範。
Hugging Face 發表全新開源工具包 vid_ds_scripts,解決影片生成模型(如 LTX-Video、HunyuanVideo)訓練資料準備的痛點。該工具包提供一站式解決方案,涵蓋影片下載、PySceneDetect 場景分割、VLM 自動生成詳細描述,以及資料過濾與格式化。這大幅降低了開發者構建高品質「影片-文字對」資料集的門檻,加速開源影片生成技術的微調與研發。
Hugging Face 釋出 Open R1 專案的第二份進度報告。團隊分享了使用 TRL 庫中的 GRPO 演算法在 Llama-8B 與 Qwen-32B 上進行強化學習(RL)訓練的實戰經驗,成功重現了「頓悟時刻」與推理鏈。本次更新也詳細探討了格式控制、訓練穩定性及在 MATH、AIME 等基準測試上的最新評估數據。
Hugging Face 宣布推出「開源阿拉伯語大語言模型排行榜 2.0」。本次更新旨在解決舊版基準過時與數據污染問題,引入了更具挑戰性的評測數據集,涵蓋推理、數學、文化理解等維度。新版本採用 Lighteval 評估工具並加強防作弊機制,為阿拉伯語 AI 研究提供更具公信力的評估標準。
為對抗封閉的商業 Deep Research 服務,Hugging Face 推出開源版 DeepResearch。該專案基於其輕量級 Agent 框架 smolagents,能驅動開源模型(如 Qwen 或 Llama)進行多步驟網頁搜尋、資訊整合並產出詳盡報告。這不僅降低了研究型 Agent 的門檻,也讓開發者能完全掌控資料與搜尋邏輯。
Hugging Face 推出全新基準測試「DABStep」,旨在評估 AI 數據代理(Data Agent)執行多步驟推理的能力。DABStep 模擬了真實世界的複雜數據分析場景,要求 AI 規劃步驟、撰寫並執行程式碼、處理多種數據格式,並進行錯誤修正。此基準測試為開發更實用、更具規劃能力的數據分析 AI 助手提供了客觀的評估標準。
Hugging Face 發表 Open-R1 專案的第一階段更新,旨在完全開源重現 DeepSeek-R1。團隊目前專注於利用 TRL 庫中的 GRPO 演算法進行強化學習訓練,並已釋出初步的訓練配方、資料集與評估結果。報告中也探討了推理模型訓練中常見的「獎勵作弊(Reward Hacking)」與格式控制等技術挑戰。
Hugging Face 的 open-r1 專案推出全新實作教學,旨在重現 DeepSeek-R1 最著名的「頓悟時刻」(自我糾錯能力)。本教學以經典的「倒數遊戲」(Countdown Game)為任務,引導讀者使用強化學習(RL)訓練小模型。透過設計精準的規則與格式獎勵,開發者能親眼見證模型在思考過程中自動發現錯誤並進行修正,是理解 R1 推理機制與 GRPO 演算法絕佳的低成本實作教材。
Hugging Face 推出全新「AI 藝術工具電子報(Issue 1)」,旨在為藝術家與創意工作者搭起技術橋樑。本期聚焦於 2025 年 1 月最新的開源 AI 藝術工具、互動式 Hugging Face Spaces 以及實用的創意工作流。內容涵蓋影像生成、風格轉移與社群熱門的視覺創作模型,幫助創作者掌握開源 AI 的最新藝術應用。
本文為 Hugging Face 釋出的實用指南,詳細介紹如何在 AWS 環境中部署與微調熱門的 DeepSeek-R1 及其蒸餾(Distilled)模型。內容涵蓋使用 Hugging Face LLM DLC(深度學習容器)與 TGI 技術在 Amazon SageMaker 上進行低延遲推論部署,以及如何透過 SageMaker 訓練作業與 Hugging Face TRL 庫進行高效微調(如 LoRA),並提供針對不同模型大小的 AWS 硬體配置建議。
Hugging Face 宣布啟動 Open-R1 專案,目標是完全重現 DeepSeek-R1 的推理能力。該專案將開源所有訓練配方、資料集與模型權重,並利用 TRL 框架中的 GRPO 演算法進行強化學習。這項計畫將降低開發者構建高效推理模型的門檻,推動開源 AI 社群的推理模型民主化。
Hugging Face 宣佈在 Hub 上整合「Inference Providers」功能。開發者現在可以直接在模型頁面或透過 SDK,自由選擇 Groq、Together AI、Fireworks AI 等第三方推理服務商來運行開源模型。這項更新簡化了 API 調用流程,讓用戶能根據速度、成本與延遲,彈性切換最適合的後端算力,無需自行維護基礎設施。
本文回顧了 Hugging Face Diffusers 函式庫中開源影片生成模型的最新進展。隨著技術從 UNet 轉向 Diffusion Transformers (DiTs),如 CogVideoX、Mochi 1、LTX-Video 及 HunyuanVideo 等模型已全面整合。文章重點介紹了如何透過 CPU 卸載、FP8 量化與 Tiled VAE 等技術,在消費級 GPU 上高效運行這些動輒數十億參數的影片生成模型。
AI 雲端託管平台 Replicate 宣布推出開源影片生成模型的微調(Fine-tuning)功能。首波支援騰訊(Tencent)的 HunyuanVideo 模型,讓開發者與創作者能夠針對特定的藝術風格、動態效果或特定角色進行訓練。這項更新降低了自訂高品質影片生成模型的門檻,用戶無需自行管理複雜的 GPU 基礎設施即可完成微調。
Hugging Face 旗下的輕量級 Agent 開源庫 smolagents 迎來重大更新,正式支援視覺語言模型(VLM)。開發者現在可以讓 Agent 接收並處理影像輸入,適用於網頁視覺導航、圖表分析及多模態任務。此更新大幅擴展了程式碼 Agent(Code Agent)的應用場景,使其能「看見」並理解真實世界的視覺資訊。
隨著大語言模型(LLM)處理的上下文長度不斷增加,KV Cache(鍵值快取)已成為記憶體與推理速度的主要瓶頸。NVIDIA 與 Hugging Face 合作推出了開源庫 KVPress,旨在簡化各種 KV Cache 壓縮技術的實現與評估。KVPress 提供統一的 API,支援多種剪枝與壓縮策略,能有效降低長文本推理時的硬體門檻,並與 Hugging Face transformers 生態系無縫整合。
Hugging Face 發表了 SmolVLM 家族的最新成員:256M 和 500M 參數的超小型視覺語言模型(VLM)。這兩款模型體積極小,旨在讓多模態 AI 能在手機、物聯網設備或瀏覽器中流暢運行。儘管尺寸迷你,它們在基礎圖像描述與問答任務上仍展現出實用的性能,為邊緣端多模態應用開闢新路徑。
Hugging Face 宣布與 FriendliAI 建立合作夥伴關係,旨在加速 Hugging Face Hub 上的模型部署。透過整合 FriendliAI 的高效能推理技術,開發者將能以更低的延遲和更低的成本部署大型語言模型(LLM)。此合作簡化了從 Hub 到生產環境的部署流程,為企業提供更具成本效益的 AI 服務方案。
AI 開源模型託管平台 Replicate 宣布在其網頁端 Playground 中加入更便利的短影片生成工作流。使用者現在可以直接在瀏覽器中輸入提示詞、調整參數,並快速預覽與生成 AI 影片。這項更新降低了測試開源影片生成模型的門檻,非常適合開發者與創作者進行快速原型設計與效果測試。
Hugging Face 宣布將著名的 PyTorch 圖像模型庫 `timm` 與 `transformers` 進行深度整合。現在開發者可以直接使用 `AutoModel` 和 `AutoImageProcessor` 等標準 API,輕鬆載入並使用 `timm` 中的數千個電腦視覺模型。這項更新不僅簡化了工作流程,還讓 `timm` 模型能完美融入 Hugging Face 的生態系,包括 Trainer、Pipelines 以及各類部署工具。
Hugging Face 的 Text Generation Inference (TGI) 宣布支援多後端架構,正式整合 NVIDIA TensorRT-LLM 與 vLLM。這項更新讓開發者無需在 TGI 的生產級功能(如 Tokenizer、工具調用、安全防護)與其他引擎的極致效能之間做抉擇。現在,用戶可以透過簡單的設定,直接在 TGI 中調用 TRT-LLM 的硬體優化或 vLLM 的高吞吐量優勢。
本文為 Hugging Face 倫理與社會小組的專題探討,指出 AI Agent(智慧代理)已從理論走向實用。文章深入分析了 Agent 在自主決策、工具調用中所帶來的安全隱患、責任歸屬及社會衝擊,並強調開源社群在建立安全評估與「人類協同(Human-in-the-loop)」機制中的關鍵角色。
Hugging Face 發表全新的 VDR-2B-multilingual 模型,專為視覺文件檢索(VDR)設計。傳統檢索依賴繁瑣的 OCR 步驟,而該模型能直接將文件頁面視為圖像進行向量化,保留排版、圖表與插圖資訊。本次更新重點在於擴展至多語言支持(包含中英日韓等),大幅提升跨國企業與多語系文檔的檢索效率與準確度。
Hugging Face 發表 Open LLM Leaderboard 的碳排放分析報告,探討模型評估過程中的能源消耗與 CO₂ 排放。研究指出,雖然大型模型性能優異,但其碳足跡也呈指數增長;相反地,透過模型量化與參數優化,能在大幅降低能耗的同時保持高水準性能。此報告呼籲社群在追求高分之餘,也應重視「綠色 AI」與運算效率。
Hugging Face 發表輕量級 AI Agent 框架「smolagents」,核心概念為「Code Agents」。與傳統輸出 JSON 的 Agent 不同,它讓 LLM 直接生成 Python 程式碼來執行複雜任務,大幅提升表達力與靈活性。該框架程式碼極簡(約千行),並內置安全的 Python 執行沙箱,支援多種主流 LLM 供應商。
NVIDIA 與 Hugging Face 合作介紹 LogitsProcessorZoo,這是一個專為控制大語言模型(LLM)生成行為而設計的工具庫。透過在 Token 生成階段直接干預 Logits(未歸一化的機率值),開發者能輕鬆實現 JSON 結構化輸出、正則表達式約束及自定義解碼策略。該工具與 Hugging Face Transformers 深度整合,大幅提升了生成內容的可靠性與安全性。