Hugging Face 宣布 Gradio 正式支援 Model Context Protocol (MCP)。開發者現在可以輕鬆將 Gradio 應用程式轉換為 MCP 伺服器,使 Claude 等 LLM 代理能直接調用各種機器學習模型、影像處理或數據分析工具。這項整合極大地擴展了 LLM 的實用技能,並搭起了 LLM 與 Hugging Face 龐大開源生態系之間的橋樑。
Hugging Face 介紹了「高效多模態資料管線 (MMDP)」的最佳實踐與工具。針對多模態模型(如 VLM)訓練中龐大的資料 I/O 瓶頸,MMDP 結合了延遲解碼、多程序並行處理與流式傳輸技術,顯著提升了影像、影片和音訊資料的處理效率,降低記憶體佔用,是現代多模態 AI 開發者優化訓練流程的必備指南。
Hugging Face 正式發表 SmolLM3 輕量級模型系列。延續前代小巧好部署的特色,SmolLM3 這次特別強化了「多語言支援」、「長上下文處理」以及「推理能力(Reasoner)」。這使得開發者能在資源受限的設備或本地端,運行具備複雜邏輯推理與長文本理解的多語言 AI 應用。
賓州大學教授 Ethan Mollick 在新文中探討了 AI 對人類思考能力的深遠影響。他指出,將思考外包給 AI 雖然能提高短期效率,但長期可能導致人類批判性思考與寫作能力的退化(即「腦部損傷」)。為了避免這種認知萎縮,我們必須主動與 AI 協作,將其視為挑戰思維的「共同智慧」(Co-intelligence),而非單純的自動化寫作工具。
Hugging Face 與阿聯酋技術創新研究所(TII)聯合宣布 NeurIPS 2025 E2LM 競賽。該競賽聚焦於大語言模型(LLM)的「早期訓練評估」,旨在尋找能在訓練初期(僅消耗少數算力或數據時)即準確預測模型最終表現的方法。這將有助於大幅降低 LLM 研發的算力成本與時間,推動更高效、環保的 AI 開發流程。
Hugging Face 釋出最新指南,介紹如何利用 Sentence Transformers 庫訓練與微調稀疏嵌入(Sparse Embedding)模型。稀疏嵌入(如 SPLADE)能將文本轉化為高維稀疏向量,在保留關鍵字匹配能力的同時具備語意理解力。此更新簡化了訓練流程,讓開發者能輕鬆構建適用於混合檢索(Hybrid Search)的高效檢索系統。
NVIDIA 宣布將其輕量級視覺語言模型 Llama Nemotron Nano VLM 上架至 Hugging Face Hub。該模型結合了 Llama 架構與 NVIDIA 的 Nemotron 優化技術,專為邊緣運算與本機端部署設計。它能在低資源設備上高效執行圖像理解、視覺問答(VQA)與 OCR 等任務,為開發者提供更便利的開源多模態選擇。
Google 最新推出的 Gemma 3n 模型系列已正式在 Hugging Face 開源社群全面上線。此版本針對端側部署(On-device)與高效能推論進行優化,Hugging Face 生態系已提供完整支援。開發者現在可以無縫使用 Transformers、vLLM、TRL 等工具進行部署、推論與微調,為輕量級與邊緣運算 AI 應用提供了全新的強大選擇。
Google DeepMind 發表全新 DNA 序列統一模型「AlphaGenome」,旨在深化人類對基因組功能的理解。該模型顯著提升了「調控變異效應(regulatory variant-effect)」的預測精準度,有助於疾病研究與基因療法開發。目前 AlphaGenome 已正式透過 API 開放給全球研究人員使用。
Google DeepMind 宣布推出「Gemini Robotics On-Device」模型。這是一款專為本地(裝置端)運作設計的高效機器人 AI 模型,旨在賦予機器人通用的靈巧操作能力(general-purpose dexterity),並能針對新任務進行快速適應(fast task adaptation),大幅提升邊緣端機器人的自主與反應能力。
知名 AI 學者 Ethan Mollick 整理了最新的 AI 實用指南,解答「該用哪款 AI」與「如何使用」的核心問題。他強調應直接使用最頂尖的 Frontier Models(如 GPT、Claude、Gemini),並將 AI 視為「聰明但缺乏常識的實習生」。指南涵蓋日常寫作、程式開發、資料搜尋與多媒體生成等四大領域的推薦工具與實戰心法。
高效能 LLM 推理與結構化生成框架 SGLang 宣布正式整合 Hugging Face Transformers 作為其執行後端。此更新讓開發者能直接利用 SGLang 的結構化控制 API(如 gen、select 等)驅動任何 Hugging Face 上的模型,無需等待原生 CUDA 核心適配,為新架構模型的快速原型設計、除錯與相容性測試提供極大便利。
本文介紹如何在消費級硬體(如 RTX 3090/4090)上微調 Black Forest Labs 的 FLUX.1-dev 12B 圖像生成模型。透過 Hugging Face 的 PEFT 與 Diffusers 庫,結合 4-bit QLoRA 量化、梯度檢查點與 8-bit 優化器,開發者能將顯存需求降至 24GB 以下,讓個人創作者也能輕鬆客製化頂級開源圖像模型。
Google DeepMind 宣布 Gemini 2.5 思考模型家族的最新更新。其中,具備強大推理能力的 Gemini 2.5 Pro 已達到穩定版(Stable)階段;主打快速高效的 Gemini 2.5 Flash 進入一般可用性(GA)階段;此外,官方還推出了全新的超輕量模型 Gemini 2.5 Flash-Lite 供開發者預覽,進一步擴展了其 AI 模型的應用場景與性價比選擇。
Google DeepMind 宣布擴展其 Gemini 2.5 模型家族。先前推出的 Gemini 2.5 Flash 與 Gemini 2.5 Pro 現已達到正式商用(GA)階段。同時,Google 還推出了全新的 Gemini 2.5 Flash-Lite,這是目前 Gemini 2.5 家族中速度最快、成本最低的模型,旨在為開發者提供極致的性價比與低延遲體驗。
Hugging Face 正式將 Groq 納入其「推理提供商(Inference Providers)」生態系。開發者現在可以直接在 Hugging Face Hub 上,選擇由 Groq 的 LPU 晶片驅動的 API 來運行熱門開源模型(如 Llama 3 和 Mistral)。這項整合不僅簡化了高吞吐量、低延遲應用的開發流程,也為開源模型生態注入了更強大的硬體支援。
Google DeepMind 宣布推出全新平台「Weather Lab」,展示其在熱帶氣旋預測方面的實驗性 AI 技術。同時,DeepMind 將與美國國家颶風中心(NHC)展開合作,在今年的氣旋季節中提供預報與警報支持。此舉旨在利用先進的 AI 氣象預報模型,提高極端天氣預測的準確性,協助各界更好地進行防災準備。
本文探討 LLM 在處理長 Prompt 時,因 Prefill(預填充)階段佔用大量 GPU 運算,導致其他短請求或生成階段被阻塞的「隊頭阻塞」現象。文章深入分析了 Prefill 與 Decode 階段的資源衝突,並提出分塊預填充(Chunked Prefill)與 Prompt 快取(Prompt Caching)等關鍵優化策略,以在多用戶併發環境下顯著降低延遲並提升吞吐量。
Hugging Face 全新推出 Kernel Hub(hf-kernels),旨在解決深度學習自訂算子碎片化的問題。開發者現在可以像分享模型一樣,在平台上發布、版本控制與下載優化過的 CUDA 或 Triton 算子。這項工具能透過簡單的 API 實現動態編譯與載入,大幅簡化模型推理與訓練的硬體加速流程,是 AI 系統優化工程師的全新利器。
Hugging Face 宣布與 Featherless AI 合作,將其納入官方推理供應商(Inference Providers)名單。Featherless 專注於無冷啟動的無伺服器(Serverless)推理技術,能高效運行數千種開源與微調模型。開發者現在可以直接在 Hugging Face Hub 上,透過 Featherless 的高效能架構一鍵部署與調用各種利基型模型,大幅降低延遲與維運成本。
本指南介紹如何結合 NVIDIA 的 Isaac GR00T N1.5 機器人基礎模型與 Hugging Face 的開源機器人平台 LeRobot。 透過後訓練(Post-Training)與微調技術,開發者能讓強大的 GR00T 模型適配低成本、開源的 SO-101 五軸機械手臂。 此合作降低了具身智能(Embodied AI)的開發門檻,展示了從模擬到真實世界(Sim-to-Real)的高效轉移路徑。
Hugging Face 宣布與 NVIDIA 合作推出「訓練集群即服務」(Training Cluster as a Service)。這項新服務旨在簡化大規模 AI 模型的訓練流程,讓企業與開發者無需處理繁雜的基礎設施設定,即可直接在 Hugging Face 平台上租用由 NVIDIA 技術支援的高效能 GPU 運算集群,快速進行模型微調與訓練。
隨著 AI Agent 從單純對話走向自主執行任務,安全挑戰日益嚴峻。Vercel 釋出指南,探討如何透過安全沙盒(如 E2B)隔離程式碼執行、利用 IAM 限制 Agent 權限、防範提示詞注入,以及在關鍵步驟引入「人工確認(Human-in-the-Loop)」機制,幫助開發者在 Vercel 平台上構建兼具功能與安全性的 AI 應用。
Hugging Face 發表了 ScreenSuite,這是目前最全面的圖形使用者介面(GUI)Agent 評估套件。它解決了現有評估工具平台單一、任務簡單的問題,提供跨 Web、桌面與行動裝置的標準化測試環境。ScreenSuite 整合了多樣化的真實世界任務與嚴格的評估指標,幫助開發者精確衡量 Agent 的視覺導航與操作能力。
本教學深入探討大語言模型推理加速的核心技術——KV Cache。文章以輕量級視覺語言模型 nanoVLM 為基礎,從原理出發,逐步引導讀者用 PyTorch 從頭實作 KV Cache。內容涵蓋 Prefill 與 Decode 階段的快取處理,並特別解析了多模態情境下視覺 Token 的快取優化,是理解 Transformer 推理底層邏輯的極佳教材。
Google DeepMind 宣布 Gemini 2.5 在 AI 語音對話與音訊生成上取得重大突破。新功能大幅提升了語音互動的流暢度、自然度與即時性,並支援更進階的音訊生成技術。這項更新將為開發者與企業帶來更具沉浸感的語音應用與全新一代的語音 Agent 體驗。
本文介紹如何在 Arm 架構硬體(如筆電、手機及邊緣設備)上運行即時 AI 聲音生成模型。透過 Hugging Face 與 Arm 的技術優化,創作者現在能以極低延遲在本地端生成音效,無需依賴昂貴的雲端 GPU。這項突破不僅提升了創作隱私,也為離線互動式媒體與遊戲開發開闢了新路徑。
法國 AI 新創公司 H (Hcompany) 於 Hugging Face 發表了全新的視覺語言模型 (VLM) 家族「Holo1」,專為 GUI(圖形使用者介面)自動化設計。該模型家族是其全新 GUI 代理人「Surfer-H」的核心引擎。Holo1 具備強大的視覺解析與螢幕定位能力,能夠理解複雜的網頁與應用程式介面,並執行點擊、輸入等操作。這項釋出標誌著 AI 代理人從單純的文字 API 呼叫,邁向能像人類一樣直接透過視覺操作任何軟體介面的新階段。
Hugging Face 發表全新開源模型 SmolVLA,專為具身智能與機器人控制設計。該模型屬於「Smol」輕量化系列,結合視覺、語言與動作(VLA)能力,並完全採用 LeRobot 社群的真實機器人操作數據進行訓練。SmolVLA 的高效能與小體積,讓開發者能在邊緣設備上實現低延遲的機器人視覺決策與控制。
Hugging Face 的 TRL 團隊推出與 vLLM 協同部署(Co-located)的新功能。在進行線上強化學習(如 PPO、GRPO)訓練時,生成階段常是效能瓶頸。透過在相同 GPU 上同時運行訓練與 vLLM 推理引擎,此技術能無縫共享權重並利用 vLLM 的高效生成能力,顯著提升 GPU 利用率並縮短整體訓練時間。