Hugging Face 發表 Smol2Operator,這是一套針對「電腦操作(Computer Use)」設計的後訓練 GUI 代理方案。基於輕量級視覺語言模型(如 SmolVLM),透過特定的監督微調(SFT)與強化學習,使其能精準識別螢幕元素並執行點擊、輸入等操作。此項目開源了模型權重與訓練方法,讓開發者能在消費級硬體上部署隱私安全、低延遲的本地 GUI 代理。
Hugging Face 發表了 SmolVLM 家族的最新成員:256M 和 500M 參數的超小型視覺語言模型(VLM)。這兩款模型體積極小,旨在讓多模態 AI 能在手機、物聯網設備或瀏覽器中流暢運行。儘管尺寸迷你,它們在基礎圖像描述與問答任務上仍展現出實用的性能,為邊緣端多模態應用開闢新路徑。