阿聯酋技術創新研究所(TII)發表 Falcon-Edge 系列模型,採用 1.58-bit(三進制)權重技術。該系列模型不僅體積小、運算速度快且功耗極低,非常適合在手機與筆電等邊緣設備上運行,同時還支援高效的微調,打破了以往極低位元模型難以微調的限制,為本地端 AI 應用帶來全新可能。
Replicate 宣布與 Hugging Face 展開深度合作,將其高效的無伺服器推理服務引進 Hugging Face 平台。這項整合讓開發者能直接在 Hugging Face 上運行超過 30,000 個 LoRA 微調模型,免去繁瑣的 GPU 配置。結合了 Hugging Face 的豐富生態與 Replicate 的彈性算力,大幅簡化了 AI 模型的部署與測試流程。
Hugging Face 針對其核心 `transformers` 函式庫進行重大架構更新,旨在標準化模型定義。過去為了易讀性而採用的「單一檔案政策」導致了嚴重的程式碼重複,難以進行全域優化。新標準化方案將引入模組化設計,統一常見組件(如 Attention、MLP),在保持可讀性的同時,大幅簡化新模型開發與硬體加速(如 Flash Attention)的整合。
Hugging Face 與 Kaggle 展開全新整合,優化數據科學家在 Kaggle 環境中調用模型的體驗。此更新簡化了身份驗證流程,讓用戶能更輕鬆地存取受限模型(如 Llama 或 Gemma),並提升了模型下載速度與工作流順暢度,讓開發者能更專注於模型微調與競賽。
Hugging Face 宣布在其託管服務 Inference Endpoints 中推出針對 Whisper 語音轉文字模型的全新優化部署方案。該方案結合了高度優化的推理引擎,能大幅提升轉錄速度並降低延遲。開發者只需一鍵即可部署企業級、具備自動擴展功能的語音識別 API,非常適合需要處理大量音訊數據的應用場景。
Hugging Face 發布 2025 年視覺語言模型(VLM)趨勢報告。文章深入探討 VLM 在「更強(推理與 OCR)」、「更快(輕量化與推論優化)」與「更實用(多模態 Agent)」三大維度的演進。推薦了 Qwen2.5-VL、Llama-3.2-Vision 等主流開源模型,並介紹如何利用 Hugging Face 生態系進行高效部署與微調。
Hugging Face 深度解析 Qwen-3 的對話模板(Chat Template),並歸納出四大核心啟示:首先是更精準的工具調用(Tool Calling)格式化;其次是針對推理模型設計的思考區塊(Thought)隔離;第三是系統提示詞與角色權重的動態管理;最後則是多模態與多輪對話的 Token 效率優化。這對微調與部署 Qwen-3 的開發者極具參考價值。
Intel 與 Hugging Face 合作介紹先進的僅權重量化演算法 AutoRound。它透過符號梯度下降優化權重捨入決策,顯著降低 4-bit 等低位元量化帶來的精度損失。該技術全面支援 LLM 與視覺語言模型(VLM),並已深度整合至 Hugging Face 生態系,讓開發者能更輕鬆地在消費級硬體上部署高效能模型。
ServiceNow 在 Hugging Face 博客上介紹了全新開源項目 PipelineRL。該項目旨在將強化學習(RL)技術應用於複雜的 AI 與 LLM 工作流管線優化中。透過 PipelineRL,開發者可以更有效地訓練和調整多步驟代理(Agent)系統,解決傳統靜態管線難以應對的動態決策與資源分配挑戰。
Hugging Face 發表最新教學,展示如何利用 Model Context Protocol (MCP) 協定,在僅 50 行程式碼內構建出功能完整的 AI Agent。透過 MCP,這個輕量級 Agent 可以直接連接並使用現有的各種 MCP 工具伺服器(如搜尋、資料庫等),無需繁瑣的 API 對接。這項技術大幅降低了開發 Agent 的門檻,並展現了開源標準在 AI 生態系中的強大潛力。
Allen AI 推出的 olmOCR 是基於視覺語言模型(VLM)的強大 PDF 轉 Markdown 工具,但在面對嚴謹業務時仍有幻覺或漏字風險。TNG Technology Consulting 分享了他們如何透過精心設計的資料集與微調技術,顯著提升 olmOCR 的「忠實度(Faithfulness)」。微調後的模型能更精準地辨識複雜排版、表格與公式,並大幅降低文字篡改與遺漏,為企業級 OCR 應用提供可靠的開源解決方案。
LLM 推論包含計算密集的 Prefill(處理輸入)與記憶體頻寬受限的 Decode(逐字生成)階段。當面對多個併發請求時,傳統靜態批處理會導致資源浪費。本文介紹了連續批處理(Continuous Batching)、區塊預填充(Chunked Prefill)以及 Prefill-Decode 分離等技術,幫助開發者在高併發場景下最大化吞吐量並降低延遲。
Hugging Face 宣布與 Cohere 合作,將其納入「推論提供商(Inference Providers)」生態系。現在開發者可以直接在 Hugging Face Hub 上,透過 Cohere 的託管服務免伺服器(Serverless)調用 Command R 和 Command R+ 等熱門模型。這項整合簡化了開發流程,讓用戶無需自行部署即可在 HF 生態系中無縫測試與整合 Cohere 的強大語言模型。
Hugging Face 介紹了由普林斯頓大學等機構提出的 HELMET 基準測試,旨在解決現有長文本評估(如 Needle In A Haystack)過於單一的問題。HELMET 包含 7 大類、11 個真實應用數據集,涵蓋長文本問答、摘要、資訊檢索與程式碼生成等。測試結果顯示,許多宣稱擁有超長上下文的模型,在實際複雜任務中的有效性能會隨著長度增加而顯著衰退。
OpenAI 正式發表全新主力模型 GPT 4.1,定位為兼顧效能與成本的「工作馬(Workhorse)」。本次更新同步推出 MRCR 與 GraphWalks 兩項全新基準測試,並釋出官方 Prompt 指南與 Cookbook。此外,社群(如 Reddit 與 Discord)也熱烈討論 GLM-4 強化學習模型與 DeepSeek 的開源貢獻。
Hugging Face 正式收購法國機器人公司 Pollen Robotics,將其硬體技術與 Hugging Face 的 LeRobot 開源機器人平台深度整合。此舉標誌著 Hugging Face 正式進軍實體機器人硬體領域,未來將致力於降低機器人開發門檻,並直接向開發者與研究人員銷售開源機器人硬體,加速具身智能(Embodied AI)的普及。
Hugging Face 與 AI 安全公司 Protect AI 合作滿六個月,宣布已完成平台上 400 萬個開源模型的安全掃描。此項合作旨在解決開源模型(特別是含有 pickle 反序列化風險的舊格式)中潛在的惡意代碼與安全漏洞。透過自動化安全掃描與漏洞標記,雙方共同為全球開發者建構更安全、更值得信賴的 AI 供應鏈生態。
巴塞隆納超級電腦中心(BSC-LT)正式發布 Visual Salamandra 7B 多模態模型。該模型以其自主研發的 Salamandra 7B 語言模型為基礎,融合了先進的視覺編碼器,旨在提升圖像理解、視覺問答及 OCR 能力。特別的是,它承襲了 Salamandra 家族在西班牙語、加泰隆尼亞語等多語言環境下的優異表現,為開源多模態社群注入新選擇。
Sam Altman 宣傳了 ChatGPT 的「記憶(Memory)」功能更新,同時市場傳出 o3、o4-mini 即將推出,以及 GPT-4o 將升級為 GPT-4.1 的洩露消息。 xAI 正式推出 Grok 3 與 Grok 3 mini 的 API,Epoch AI 曾短暫證實其具備 o1 等級的推理能力。 社群方面,Qwen3 宣布延期推出,而 AI Engineer World's Fair 2025 也正展開熱烈徵稿。
Together 與 Agentica Project(曾推出 DeepScaleR)聯合發表了全新 14B 程式碼推理模型「DeepCoder」。該模型完全開源,並採用 GPRO+(Group Relative Policy Optimization+)強化學習技術。在多項程式碼基準測試中,DeepCoder 展現出媲美 OpenAI o3-mini 的強大實力,是開源 AI 推理領域的重大突破。
Hugging Face 宣布與 Cloudflare 達成合作,將其開源即時通訊庫 FastRTC 與 Cloudflare 的 WebRTC 基礎設施(如 Cloudflare Calls)進行深度整合。此合作旨在解決即時語音和視訊 AI 應用在部署時面臨的高延遲與複雜網路設定難題。開發者現在可以更輕鬆地在全球邊緣網路上建構並擴展低延遲的互動式 AI 體驗。
Hugging Face 宣布升級其阿拉伯語大語言模型(LLM)評估體系。本次更新重點引入了「阿拉伯語指令遵循(Arabic IFEval)」評估,用以測試模型執行特定格式與約束指令的能力;同時更新了阿拉伯語生成基準「AraGen」。這些舉措旨在解決非英語系評估資源不足的問題,為全球開源社群提供更精準的阿拉伯語模型評估工具。
Hugging Face 發表文章慶祝旗下開源機器學習網頁介面庫 Gradio 的使用者正式突破 100 萬人。文章回顧了 Gradio 自創立以來的成長軌跡,如何透過極簡的 Python 程式碼讓開發者快速部署 AI 互動 Demo,並探討其在 Hugging Face 生態系中扮演的關鍵角色與未來展望。
Hugging Face 宣布將其廣受歡迎的經典「NLP 課程(NLP Course)」正式轉型並升級為「LLM 課程(LLM Course)」。這項轉變反映了 AI 領域從傳統 NLP(如 BERT、分類與命名實體識別)向大語言模型(如 Llama、生成式 AI、RAG 與 Agent)的典範轉移。新課程將全面更新,涵蓋現代 LLM 架構、微調(PEFT/LoRA)、對齊(RLHF/DPO)及應用開發,繼續提供免費且高品質的開源學習資源。
隨著大語言模型(LLM)應用的普及,如何在高併發流量下維持低延遲與高吞吐量成為關鍵挑戰。本文深入分析了 LLM 推論的記憶體瓶頸(特別是 KV Cache),並探討如何結合「連續批處理(Continuous Batching)」與「請求佇列(Request Queueing)」機制。透過在推論引擎層與網關層實施合理的佇列策略,能有效防止 GPU 記憶體溢位(OOM),並在維持高吞吐量的同時,優化首字延遲(TTFT)與字元間延遲(ITL)。
Hugging Face 宣布其文字生成推理(TGI)框架現已整合 Intel Gaudi 加速器後端。這項合作讓開發者能直接在 Intel Gaudi 2 和 Gaudi 3 晶片上部署高效能 LLM,並享有連續批處理(Continuous Batching)與張量並行(Tensor Parallelism)等優化技術。此舉為企業在 NVIDIA 之外,提供了一個極具成本效益且易於部署的 AI 推理硬體新選擇。
Hugging Face 釋出 Open R1 專案的第四次技術更新。本階段重點在於提升 TRL 框架中 GRPO(群體相對策略最佳化)的訓練效率與記憶體最佳化,並釋出針對數學與程式碼推理的全新合成資料集。團隊分享了在 Qwen 與 Llama 模型上進行強化學習(RL)訓練的最新評測結果,為開源社群複製 DeepSeek-R1 的推理能力提供更完整的實踐指南。
Hugging Face 釋出全新教學,詳細介紹如何利用 Sentence Transformers 庫訓練與微調 Reranker(重排)模型。Reranker 在 RAG 系統中扮演關鍵角色,能對初步檢索的文檔進行二次精準排序。本文涵蓋資料準備、損失函數選擇、訓練流程及評估方法,幫助開發者針對特定領域優化檢索效果。
Hugging Face 發表指南,介紹如何利用 LM Studio 在本機運行 Open R1 計畫的 OlympicCoder 模型。OlympicCoder 是專為程式設計與推理優化的開源模型。透過本機部署,開發者無需將程式碼上傳至雲端,即可享受媲美頂級商用模型的程式碼生成與除錯能力,兼顧隱私與效能。
Hugging Face 針對美國白宮的 AI 行動計畫徵求意見稿(RFI)提交了官方回應。其核心訴求圍繞在保護與推廣「開源 AI」與「開放科學」。Hugging Face 強調,開放源碼不僅能加速技術創新、防止科技巨頭壟斷,更能透過社群的集體審查提升 AI 的安全性與透明度,呼籲政府在制定政策時應避免扼殺開源生態。