Fine-tuning Florence-2 - Microsoft's Cutting-edge Vision Language Models★ 80
Hugging Face Blog·709d ago·Tutorial
微軟推出的 Florence-2 是一款強大且輕量的視覺語言模型(VLM),僅有 232M 與 770M 兩種參數版本,卻能高效處理 OCR、目標檢測、圖像描述等多種任務。Hugging Face 官方部落格發布了這篇實用指南,詳細教學如何使用 Hugging Face 的 transformers 與 peft 函式庫,在自訂資料集上對 Florence-2 進行微調(Fine-tuning),並利用 LoRA 技術降低顯示記憶體需求,非常適合想在邊緣裝置或有限資源下部署視覺 AI 的開發者。