本指南介紹 Hugging Face 與 NXP 的合作成果,展示如何將視覺-語言-動作(VLA)模型應用於嵌入式機器人平台。內容涵蓋使用 LeRobot 進行資料集錄製、對 VLA 模型進行客製化微調,以及利用 NXP eIQ 工具包在 i.MX 晶片上進行量化與硬體加速優化,實現低延遲、低功耗的邊緣端機器人控制。
Hugging Face 發表全新開源模型 SmolVLA,專為具身智能與機器人控制設計。該模型屬於「Smol」輕量化系列,結合視覺、語言與動作(VLA)能力,並完全採用 LeRobot 社群的真實機器人操作數據進行訓練。SmolVLA 的高效能與小體積,讓開發者能在邊緣設備上實現低延遲的機器人視覺決策與控制。
機器人 AI 新創公司 Physical Intelligence 在 Hugging Face 上開源了其通用機器人基礎模型 π0 及其加速版本 π0-FAST。這款視覺-語言-動作(VLA)模型能透過文字與視覺指令控制多種不同硬體的機器人,執行摺衣服、收拾雜物等複雜任務。π0-FAST 則大幅提升了推理速度,滿足高頻率實時控制的需求,為開源實體 AI 領域帶來重大突破。