Hugging Face BlogNov 26, 2024, 12:00 AM重要 80
SmolVLM - small yet mighty Vision Language Model
Hugging Face 推出 2.2B 輕量級視覺語言模型 SmolVLM,支援多圖與影片輸入,適合本機與行動裝置部署。
Hugging Face 發表全新輕量級視覺語言模型 SmolVLM(約 2.2B 參數),專為本機與邊緣設備設計。該模型結合了 SigLIP 視覺編碼器與 SmolLM2 語言模型,不僅支援多圖輸入與影片分析,在多項基準測試中更展現出媲美更大尺寸模型的性能。SmolVLM 採 Apache 2.0 開源授權,極低記憶體佔用使其成為開發者在終端裝置部署 VLM 的理想選擇。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。