NVIDIA 推出全新輕量級多模態模型 Nemotron 3 Nano Omni,主打「長文本」與「多模態」處理能力。該模型專為文件分析、語音與影片理解的 AI Agent 所設計,能在資源受限的設備上運行。這標誌著邊緣端(On-device)多模態 Agent 應用的重大突破。
Google 正式推出 Gemma 4 開放模型家族,將前沿的多模態智能帶入裝置端。Gemma 4 體積輕量、適合在手機與筆電運行,並具備強大的視覺與文字理解能力。Hugging Face 已在第一時間提供完整支援,開發者可立即透過 Transformers 進行微調與部署。
Hugging Face 發布 2026 年春季開源報告,揭示開源 AI 生態的最新趨勢。報告指出,具備推理能力的開源模型(如 DeepSeek 與 Qwen 系列)已成為社群主流;同時,以 smolagents 為首的輕量級 Agent 框架與本機端(On-Device)小模型正快速普及。此外,開源多模態與影片生成技術的下載量也創下歷史新高,展現出開源社群強大的創新動能。
Google DeepMind 宣布在 Gemma 3 工具包中加入全新成員「Gemma 3 270M」。這款僅有 2.7 億(270M)參數的極致輕量級模型,專為需要超高效率、低延遲以及資源受限的邊緣設備(On-device)運算場景所設計,為開發者在極端硬體限制下部署 AI 提供了全新的高效能選擇。
本文介紹了 dots.ocr 模型與 Apple Core ML 框架的結合。透過將 SOTA 等級的 OCR 模型轉換為 Core ML 格式,開發者可以在 iPhone、iPad 和 Mac 上實現高效能的本地端文字辨識。這不僅大幅降低了延遲,還能完全在裝置端運行以保護用戶隱私,是 iOS 與 macOS 開發者整合 AI 視覺功能的新利器。
Google 最新推出的 Gemma 3n 模型系列已正式在 Hugging Face 開源社群全面上線。此版本針對端側部署(On-device)與高效能推論進行優化,Hugging Face 生態系已提供完整支援。開發者現在可以無縫使用 Transformers、vLLM、TRL 等工具進行部署、推論與微調,為輕量級與邊緣運算 AI 應用提供了全新的強大選擇。
Google DeepMind 宣布推出「Gemini Robotics On-Device」模型。這是一款專為本地(裝置端)運作設計的高效機器人 AI 模型,旨在賦予機器人通用的靈巧操作能力(general-purpose dexterity),並能針對新任務進行快速適應(fast task adaptation),大幅提升邊緣端機器人的自主與反應能力。
本文介紹如何在 Arm 架構硬體(如筆電、手機及邊緣設備)上運行即時 AI 聲音生成模型。透過 Hugging Face 與 Arm 的技術優化,創作者現在能以極低延遲在本地端生成音效,無需依賴昂貴的雲端 GPU。這項突破不僅提升了創作隱私,也為離線互動式媒體與遊戲開發開闢了新路徑。
Google DeepMind 發表全新開放模型 Gemma 3n 預覽版,專為行動裝置與端側(on-device)快速多模態 AI 設計。該模型不僅優化了執行效能,還引入獨特的「二合一(2-in-1)」彈性架構,並擴展了對音訊的理解能力。這將賦能開發者構建即時互動、以語音為核心的全新應用體驗。
Hugging Face 正式發布 SmolVLM2 系列模型,專為手機與筆電等個人裝置設計。此版本最大亮點是引入了強大的「影片理解」與「多圖處理」能力,其中 2.2B 旗艦版本在保持極低運算資源消耗的同時,能在多項視覺與影片基準測試中媲美更大尺寸的模型。模型完全開源並採用 Apache 2.0 授權,極具實用價值。
Hugging Face 發表了 SmolVLM 家族的最新成員:256M 和 500M 參數的超小型視覺語言模型(VLM)。這兩款模型體積極小,旨在讓多模態 AI 能在手機、物聯網設備或瀏覽器中流暢運行。儘管尺寸迷你,它們在基礎圖像描述與問答任務上仍展現出實用的性能,為邊緣端多模態應用開闢新路徑。
Meta 正式發布 Llama 3.2,最大亮點為首次推出 11B 和 90B 的視覺多模態模型,能理解圖像與圖表;同時推出專為手機與邊緣裝置設計的 1B 和 3B 超輕量文字模型,支援 128k 脈絡長度。Hugging Face 已在 Transformers、TGI 及微調工具中全面支援,方便開發者即刻部署與應用。
Hugging Face 宣布推出全新開源 Swift 套件 `swift-transformers`,旨在簡化在 Apple 裝置(iOS、macOS)上部署與運行本地端大型語言模型(LLM)的流程。該套件支援 Tokenization 與模型推理,並能與 Apple 的 Core ML 框架緊密結合,充分發揮 Apple Silicon 的硬體加速優勢,為行動端應用帶來更隱私、低延遲的 AI 體驗。
Hugging Face 宣布開源基於 Stable Diffusion 蒸餾的輕量化模型 SD-Small(約 5.11 億參數)與 SD-Tiny(約 3.23 億參數)的權重與完整訓練程式碼。透過知識蒸餾技術減少 UNet 的層數,這些模型在保留高圖像質量的同時,實現了 1.5 到 2 倍的推理加速。此舉不僅降低了消費級顯卡與行動裝置運行 AI 繪圖的門檻,也讓開發者能自行蒸餾客製化的 SD 模型。