巴塞隆納超級電腦中心(BSC-LT)正式發布 Visual Salamandra 7B 多模態模型。該模型以其自主研發的 Salamandra 7B 語言模型為基礎,融合了先進的視覺編碼器,旨在提升圖像理解、視覺問答及 OCR 能力。特別的是,它承襲了 Salamandra 家族在西班牙語、加泰隆尼亞語等多語言環境下的優異表現,為開源多模態社群注入新選擇。
Sam Altman 宣傳了 ChatGPT 的「記憶(Memory)」功能更新,同時市場傳出 o3、o4-mini 即將推出,以及 GPT-4o 將升級為 GPT-4.1 的洩露消息。 xAI 正式推出 Grok 3 與 Grok 3 mini 的 API,Epoch AI 曾短暫證實其具備 o1 等級的推理能力。 社群方面,Qwen3 宣布延期推出,而 AI Engineer World's Fair 2025 也正展開熱烈徵稿。
Together 與 Agentica Project(曾推出 DeepScaleR)聯合發表了全新 14B 程式碼推理模型「DeepCoder」。該模型完全開源,並採用 GPRO+(Group Relative Policy Optimization+)強化學習技術。在多項程式碼基準測試中,DeepCoder 展現出媲美 OpenAI o3-mini 的強大實力,是開源 AI 推理領域的重大突破。
Vercel 宣布推出全新的 Chatbot 模板,旨在簡化開發者建構 AI 對話介面的流程。該模板基於 Next.js 與 Vercel AI SDK 開發,支援即時串流響應、工具調用(Tool Calling)以及多種主流 LLM 供應商。開發者可以一鍵部署至 Vercel,並輕鬆自訂 UI 與後端邏輯,是打造現代 AI 助理與對話式應用的理想起步工具。
Hugging Face 宣布與 Cloudflare 達成合作,將其開源即時通訊庫 FastRTC 與 Cloudflare 的 WebRTC 基礎設施(如 Cloudflare Calls)進行深度整合。此合作旨在解決即時語音和視訊 AI 應用在部署時面臨的高延遲與複雜網路設定難題。開發者現在可以更輕鬆地在全球邊緣網路上建構並擴展低延遲的互動式 AI 體驗。
Hugging Face 宣布升級其阿拉伯語大語言模型(LLM)評估體系。本次更新重點引入了「阿拉伯語指令遵循(Arabic IFEval)」評估,用以測試模型執行特定格式與約束指令的能力;同時更新了阿拉伯語生成基準「AraGen」。這些舉措旨在解決非英語系評估資源不足的問題,為全球開源社群提供更精準的阿拉伯語模型評估工具。
Hugging Face 發表文章慶祝旗下開源機器學習網頁介面庫 Gradio 的使用者正式突破 100 萬人。文章回顧了 Gradio 自創立以來的成長軌跡,如何透過極簡的 Python 程式碼讓開發者快速部署 AI 互動 Demo,並探討其在 Hugging Face 生態系中扮演的關鍵角色與未來展望。
Hugging Face 宣布將其廣受歡迎的經典「NLP 課程(NLP Course)」正式轉型並升級為「LLM 課程(LLM Course)」。這項轉變反映了 AI 領域從傳統 NLP(如 BERT、分類與命名實體識別)向大語言模型(如 Llama、生成式 AI、RAG 與 Agent)的典範轉移。新課程將全面更新,涵蓋現代 LLM 架構、微調(PEFT/LoRA)、對齊(RLHF/DPO)及應用開發,繼續提供免費且高品質的開源學習資源。
隨著大語言模型(LLM)應用的普及,如何在高併發流量下維持低延遲與高吞吐量成為關鍵挑戰。本文深入分析了 LLM 推論的記憶體瓶頸(特別是 KV Cache),並探討如何結合「連續批處理(Continuous Batching)」與「請求佇列(Request Queueing)」機制。透過在推論引擎層與網關層實施合理的佇列策略,能有效防止 GPU 記憶體溢位(OOM),並在維持高吞吐量的同時,優化首字延遲(TTFT)與字元間延遲(ITL)。
本文介紹如何利用開源影片生成模型 Wan2.1 搭配 LoRA 進行風格化影片生成。讀者可以透過 Replicate 平台,輕鬆將特定的藝術風格(如動漫、3D、特定畫風)應用於影片中。這項技術不僅降低了影片風格轉換的門檻,也為創作者提供了更豐富的視覺實驗空間。
Replicate 彙整了社群最新的創意 AI 模型與實驗專案。本次焦點包括:如何利用 AI 生成高品質且具一致性的個人頭像、趣味的光劍視覺特效應用,以及在平台上訓練與融合多個 LoRA 模型的實用技巧。這為設計師與開發者提供了豐富的視覺創作靈感與技術指引。
Hugging Face 宣布其文字生成推理(TGI)框架現已整合 Intel Gaudi 加速器後端。這項合作讓開發者能直接在 Intel Gaudi 2 和 Gaudi 3 晶片上部署高效能 LLM,並享有連續批處理(Continuous Batching)與張量並行(Tensor Parallelism)等優化技術。此舉為企業在 NVIDIA 之外,提供了一個極具成本效益且易於部署的 AI 推理硬體新選擇。
Hugging Face 釋出 Open R1 專案的第四次技術更新。本階段重點在於提升 TRL 框架中 GRPO(群體相對策略最佳化)的訓練效率與記憶體最佳化,並釋出針對數學與程式碼推理的全新合成資料集。團隊分享了在 Qwen 與 Llama 模型上進行強化學習(RL)訓練的最新評測結果,為開源社群複製 DeepSeek-R1 的推理能力提供更完整的實踐指南。
Hugging Face 釋出全新教學,詳細介紹如何利用 Sentence Transformers 庫訓練與微調 Reranker(重排)模型。Reranker 在 RAG 系統中扮演關鍵角色,能對初步檢索的文檔進行二次精準排序。本文涵蓋資料準備、損失函數選擇、訓練流程及評估方法,幫助開發者針對特定領域優化檢索效果。
Hugging Face 發表指南,介紹如何利用 LM Studio 在本機運行 Open R1 計畫的 OlympicCoder 模型。OlympicCoder 是專為程式設計與推理優化的開源模型。透過本機部署,開發者無需將程式碼上傳至雲端,即可享受媲美頂級商用模型的程式碼生成與除錯能力,兼顧隱私與效能。
Hugging Face 針對美國白宮的 AI 行動計畫徵求意見稿(RFI)提交了官方回應。其核心訴求圍繞在保護與推廣「開源 AI」與「開放科學」。Hugging Face 強調,開放源碼不僅能加速技術創新、防止科技巨頭壟斷,更能透過社群的集體審查提升 AI 的安全性與透明度,呼籲政府在制定政策時應避免扼殺開源生態。
Vercel 宣佈 Groq、fal 和 DeepInfra 正式上架其 Marketplace。開發者現在可以直接在 Vercel 平台中一鍵啟用這些熱門的 AI 推理與生成服務。此整合不僅簡化了 API 金鑰管理與環境變數設定,還提供了統一帳單功能,大幅降低了在 Vercel 專案中部署高效能 AI 應用的門檻。
NVIDIA 在 GTC 2025 針對實體 AI(Physical AI)領域發表重大更新,與 Hugging Face 合作釋出全新開源模型與資料集。這些資源旨在降低具身智慧與機器人開發門檻,涵蓋世界模型、VLA 模型及高質量訓練資料。開發者可直接在 Hugging Face 平台獲取,加速實體世界 AI 應用的落地。
Google 推出全新一代開源模型 Gemma 3,具備強大的多模態(視覺與語音)理解能力、廣泛的多語言支持以及長文本處理能力。本次發布涵蓋多種參數規格,並與 Hugging Face 生態系統深度整合,開發者可立即透過 Transformers、vLLM 等工具進行部署與微調,為開源社群注入強大動力。
Hugging Face 發表開源推理模型專案 Open R1 的第三次技術更新。本次更新重點在於釋出基於 Qwen/Llama 的全新推理模型,並詳細公開了使用 TRL 進行 GRPO(群體相對策略優化)的訓練細節。團隊成功解決了訓練中的「獎勵黑客」問題,並開源了完整的訓練數據集與配方,顯著降低了社群重現 DeepSeek-R1 推理能力的門檻。
Hugging Face 的開源機器人平台 LeRobot 宣布進軍自動駕駛領域,發布了目前全球最大的開源自動駕駛資料集。此舉旨在打破科技巨頭對自動駕駛數據的壟斷,為研究人員與開發者提供豐富的真實駕駛場景數據。透過 LeRobot 的工具鏈,開發者可以更輕鬆地訓練與評估端到端的自動駕駛模型,推動具身智能在交通載具上的應用。
雲端 AI 託管平台 Replicate 宣布支援目前最強大的開源影片生成模型 Wan2.1。 開發者現在無需自行配置昂貴且複雜的 GPU 環境,透過 Replicate 的單行 API 程式碼即可快速呼叫。 Wan2.1 以其優異的畫面連貫性與高視覺品質著稱,非常適合用於整合至各類應用程式與工作流中。
Replicate 團隊針對阿里巴巴最新開源的 Wan2.1 影片生成模型進行了深入的「參數掃描(Parameter Sweep)」測試。文章探討了調整各項參數(如 Guidance Scale、推理步數、Sample Shift 等)對最終影片生成品質、連貫性與風格的具體影響。這份實用指南能幫助開發者與創作者在 Replicate 平台上部署與調優 Wan2.1 時,找到最佳的效能與品質平衡點。
Cohere For AI 發表全新開源多語言多模態模型「Aya Vision」(提供 8B 與 32B 版本)。該模型旨在解決現有視覺語言模型(VLM)嚴重偏向英語的問題,大幅提升了對全球多種語言(特別是低資源語言)的圖像理解與文字生成能力。在多項多語言多模態基準測試中,Aya Vision 展現出超越同量級開源模型的優異性能,並已於 Hugging Face 平台上開源。
Hugging Face 與軟體供應鏈安全領導廠商 JFrog 展開戰略合作。雙方將整合 Hugging Face 的開源模型生態系與 JFrog 的安全平台,讓企業在引進 AI 模型時能進行自動化漏洞掃描與惡意代碼檢測。此舉旨在解決 AI 供應鏈中的安全隱憂,讓 AI 開發流程更加透明且符合企業合規要求。
Hugging Face 宣布與印度頂尖研究機構印度科學理工學院(IISc)展開合作。雙方將結合 IISc 的學術研究實力與 Hugging Face 的開源生態系,致力於解決印度多元語言(包含多種低資源語言)的 AI 模型開發挑戰。此舉旨在為印度本土語言建立更完善的開源數據集與語言模型,促進在地化的 AI 技術普及。
Hugging Face 發表全新開源庫 FastRTC,旨在簡化 Python 中的 WebRTC 即時音視訊串流開發。它解決了傳統 WebRTC 繁瑣的連線與協定處理,並與 Gradio 及 FastAPI 深度整合。開發者現在能以極低門檻,快速打造出類似 GPT-4o 或 Gemini Live 的即時語音對話機器人與視訊互動應用。
Hugging Face 宣布在 Inference Endpoints 中支援「Remote VAE」解碼功能。在運行 FLUX.1 或 Stable Diffusion 等大型圖像生成模型時,VAE 解碼通常會消耗大量 GPU 顯存(VRAM)。透過將 VAE 解碼步驟與潛在空間生成解耦並進行遠端處理,開發者可以在較小、較便宜的 GPU 上部署大型擴散模型,同時優化整體的推論吞吐量與頻寬傳輸。
Google 與 Hugging Face 聯合發表 SigLIP 2 視覺語言編碼器。作為經典 SigLIP 的升級版,SigLIP 2 引入了動態解析度、自監督學習(SSL)輔助任務與更強的多語言支援。它在零樣本分類、圖文檢索及定位等任務上表現優異,並提供多種尺寸的模型,非常適合用作新一代多模態大模型(VLM)的視覺骨幹網路(Vision Backbone)。
Hugging Face 正式發布 SmolVLM2 系列模型,專為手機與筆電等個人裝置設計。此版本最大亮點是引入了強大的「影片理解」與「多圖處理」能力,其中 2.2B 旗艦版本在保持極低運算資源消耗的同時,能在多項視覺與影片基準測試中媲美更大尺寸的模型。模型完全開源並採用 Apache 2.0 授權,極具實用價值。