Hugging Face BlogJun 24, 2024, 12:00 AM重要 80
Fine-tuning Florence-2 - Microsoft's Cutting-edge Vision Language Models
本文介紹如何微調微軟開源的輕量級視覺語言模型 Florence-2,涵蓋資料準備、LoRA 微調與推論步驟。
微軟推出的 Florence-2 是一款強大且輕量的視覺語言模型(VLM),僅有 232M 與 770M 兩種參數版本,卻能高效處理 OCR、目標檢測、圖像描述等多種任務。Hugging Face 官方部落格發布了這篇實用指南,詳細教學如何使用 Hugging Face 的 transformers 與 peft 函式庫,在自訂資料集上對 Florence-2 進行微調(Fine-tuning),並利用 LoRA 技術降低顯示記憶體需求,非常適合想在邊緣裝置或有限資源下部署視覺 AI 的開發者。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。