Hugging Face BlogJul 18, 2024, 12:00 AM重要 75
Docmatix - a huge dataset for Document Visual Question Answering
Hugging Face 推出比以往大百倍的 Docmatix 數據集,含 240 萬張圖片與 950 萬個問答對,大幅提升 VLM 文件解析力。
Hugging Face 發表了專為文件視覺問答(DocVQA)設計的超大型開源數據集 Docmatix。該數據集規模比現有同類數據集大上百倍,包含 240 萬張文件圖片及 950 萬個高質量的問答對。Docmatix 的推出解決了多模態模型在處理複雜 PDF、報表等視覺文件時微調數據不足的痛點,將顯著提升開源視覺語言模型(VLM)的文件解析與問答能力。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。