Hugging Face Blog announces NVIDIA Cosmos 3, described as the first open omni-model for Physical AI reasoning and action. The title indicates a focus on AI systems that interact with physical-world scenarios rather than only text generation. Because the article body was not provided, its architecture, supported modalities, license, downloadable assets, benchmarks, and deployment requirements cannot be verified from the available material.
Ars Technica reports that Hugging Face has introduced a roughly $2,500 bipedal humanoid robot project built around 3D-printable legs. The effort targets builders and researchers rather than mainstream consumers, lowering the hardware barrier for hands-on robotics experiments. Its broader significance is in open, reproducible embodied AI research, where models and control systems need physical platforms for testing.
Google DeepMind 發表全新 Gemini Robotics-ER 1.6 模型,專為自主機器人設計。該版本專注於提升「具身推理(Embodied Reasoning)」能力,特別加強了空間推理與多視角理解。這項技術突破將使機器人能更精準地整合不同角度的視覺資訊,並在真實世界中執行更複雜的物理任務。
Hugging Face 發表 Waypoint-1.5,這是一款專為消費級 GPU 優化的互動式世界模擬器。相較於前代,它在提升視覺與物理保真度的同時,大幅降低了硬體門檻。這讓研究人員與開發者能在單張家用顯示卡上,高效進行具身智能(Embodied AI)與強化學習代理的訓練,加速 AI 與物理世界互動的研究。
Hugging Face 發表開源機器人庫 LeRobot v0.5.0 重大更新。本次更新以「全面擴展(Scaling Every Dimension)」為核心,大幅提升了數據集規模、支援更多樣的模型架構(如 Diffusion Policy 與 ACT)、擴展了相容的實體硬體與模擬環境。這標誌著開源社群在具身智能(Embodied AI)領域邁出關鍵一步,降低了開發者進入實體機器人研究的門檻。
NVIDIA 於 Hugging Face 宣布推出 Cosmos Reason 2 模型,專為「物理 AI(Physical AI)」與具身智能設計。該模型結合了先進的推理機制,使機器人與自主系統能更深層地理解物理規律、進行複雜的空間時間規劃。此模型的發布將大幅降低開發者構建具備物理常識與決策能力 AI 應用的門檻。
Hugging Face 宣布與 NVIDIA 合作,將 NVIDIA 全新的 DGX Spark 運算平台與 Pollen Robotics 的 Reachy Mini 機器人進行深度整合。此合作旨在降低具身智能(Embodied AI)的開發門檻,讓開發者能透過 Hugging Face 的 LeRobot 開源機器人框架,輕鬆將 AI 代理(Agents)部署至實體硬體,實現具備物理互動能力的實體 AI 應用。
AMD 與 Hugging Face 攜手推出「AMD Open Robotics Hackathon」,旨在推動開源機器人與實體 AI(Embodied AI)技術的發展。參賽者將利用 Hugging Face 的 LeRobot 開源機器人框架,並結合 AMD 的強大運算平台(如 ROCm、Ryzen AI 或 Kria 開發套件)來開發創新的機器人應用。活動提供豐富的硬體與獎金回饋,是機器人開發者與 AI 研究人員展身手的絕佳機會。
Google DeepMind 發表 Gemini Robotics 1.5,旨在將 AI Agent 的能力帶入實體世界。透過此系統,機器人將具備更強大的環境感知、多步驟任務規劃、邏輯思考、工具使用以及實體行動能力。這項進展代表著「實體代理(Physical Agents)」時代的開啟,能更有效率地解決現實世界中複雜且多步驟的實體任務。
Hugging Face 宣布推出 LeRobotDataset:v3.0,這是其開源機器人庫 LeRobot 的重大更新。新版本重新設計了數據集格式,旨在解決大規模機器人數據(如影像、關節狀態、動作)的儲存與 I/O 瓶頸。v3.0 提供了更高效的串流載入、統一的機器人本體架構 Schema,並無縫整合至 Hugging Face Hub,為訓練下一代具身智能(Embodied AI)奠定基礎。
傳統機器人控制常受限於 AI 模型推論速度,導致動作不流暢。Hugging Face 提出「非同步機器人推論」架構,將「動作預測(AI 模型)」與「動作執行(硬體控制)」解耦。此方法允許硬體以高頻率(如 100Hz+)持續運行,而較慢的 AI 模型則在背景非同步更新動作指令,大幅提升了機器人在實時環境中的反應速度與操作流暢度。
Hugging Face 與 Pollen Robotics 合作推出全新開源機器人「Reachy Mini」,專為 AI 開發者與研究人員設計。該機器人主打高性價比、易於組裝,並深度整合 Hugging Face 的 LeRobot 開源機器人庫。開發者可輕鬆透過模仿學習(Imitation Learning)訓練 AI 模型,控制實體機器人完成各種操作任務,加速具身智能(Embodied AI)的普及。
Google DeepMind 宣布推出「Gemini Robotics On-Device」模型。這是一款專為本地(裝置端)運作設計的高效機器人 AI 模型,旨在賦予機器人通用的靈巧操作能力(general-purpose dexterity),並能針對新任務進行快速適應(fast task adaptation),大幅提升邊緣端機器人的自主與反應能力。
本指南介紹如何結合 NVIDIA 的 Isaac GR00T N1.5 機器人基礎模型與 Hugging Face 的開源機器人平台 LeRobot。 透過後訓練(Post-Training)與微調技術,開發者能讓強大的 GR00T 模型適配低成本、開源的 SO-101 五軸機械手臂。 此合作降低了具身智能(Embodied AI)的開發門檻,展示了從模擬到真實世界(Sim-to-Real)的高效轉移路徑。
Hugging Face 發表全新開源模型 SmolVLA,專為具身智能與機器人控制設計。該模型屬於「Smol」輕量化系列,結合視覺、語言與動作(VLA)能力,並完全採用 LeRobot 社群的真實機器人操作數據進行訓練。SmolVLA 的高效能與小體積,讓開發者能在邊緣設備上實現低延遲的機器人視覺決策與控制。
Hugging Face 旗下的開源機器人專案 LeRobot 致力於解決機器人領域缺乏標準化、大規模資料集的問題。本文探討如何透過社群協作,建立類似於電腦視覺界「ImageNet」的機器人資料集。文章介紹了 LeRobot 的資料格式標準、社群貢獻機制,以及如何克服硬體多樣性帶來的數據整合挑戰。
Hugging Face 正式收購法國機器人公司 Pollen Robotics,將其硬體技術與 Hugging Face 的 LeRobot 開源機器人平台深度整合。此舉標誌著 Hugging Face 正式進軍實體機器人硬體領域,未來將致力於降低機器人開發門檻,並直接向開發者與研究人員銷售開源機器人硬體,加速具身智能(Embodied AI)的普及。
NVIDIA 在 GTC 2025 針對實體 AI(Physical AI)領域發表重大更新,與 Hugging Face 合作釋出全新開源模型與資料集。這些資源旨在降低具身智慧與機器人開發門檻,涵蓋世界模型、VLA 模型及高質量訓練資料。開發者可直接在 Hugging Face 平台獲取,加速實體世界 AI 應用的落地。
Hugging Face 的開源機器人平台 LeRobot 宣布進軍自動駕駛領域,發布了目前全球最大的開源自動駕駛資料集。此舉旨在打破科技巨頭對自動駕駛數據的壟斷,為研究人員與開發者提供豐富的真實駕駛場景數據。透過 LeRobot 的工具鏈,開發者可以更輕鬆地訓練與評估端到端的自動駕駛模型,推動具身智能在交通載具上的應用。
機器人 AI 新創公司 Physical Intelligence 在 Hugging Face 上開源了其通用機器人基礎模型 π0 及其加速版本 π0-FAST。這款視覺-語言-動作(VLA)模型能透過文字與視覺指令控制多種不同硬體的機器人,執行摺衣服、收拾雜物等複雜任務。π0-FAST 則大幅提升了推理速度,滿足高頻率實時控制的需求,為開源實體 AI 領域帶來重大突破。
Hugging Face 發表通用型代理人 JAT(Jack of All Trades),採用統一的 Transformer 架構,在 Atari、BabyAI、Meta-World 等多種強化學習環境與文字任務上進行聯合訓練。此研究展示了單一模型如何同時掌握多種不同領域的技能,並開源了數據集與模型權重,推動具身智能發展。
Pollen-Vision 是一個專為機器人設計的開源視覺庫,旨在簡化 Zero-Shot(零樣本)視覺模型(如 OWL-ViT、SAM 等)的整合。它提供統一的 API,讓機器人無需重新訓練即可透過自然語言或點擊來識別與定位物體。此工具能顯著降低機器人視覺開發的門檻,加速具身智能(Embodied AI)的應用落地。