韓國科技巨頭 Kakao 旗下的 AI 研究部門 Kakao Brain,在 Hugging Face 上釋出了全新的 ViT 與 ALIGN 模型。這些模型基於其先前開源的 COYO-700M 超大規模圖文對數據集進行訓練。本次開源不僅補足了 ALIGN 模型缺乏開源權重的遺憾,也為多模態表徵、圖像檢索與零樣本分類等任務提供了強大的新選擇。
Hugging Face 宣布正式支援 Salesforce 開源的 BLIP-2 視覺語言模型。BLIP-2 透過輕量化的 Q-Former 橋接現成且凍結的圖像編碼器與大型語言模型(LLM),大幅降低訓練成本。此模型在零樣本圖像描述、視覺問答(VQA)等任務上表現優異,開發者現在可直接透過 Transformers 庫輕鬆調用。