Replicate 平台上架了來自 Datalab 的兩款全新文件解析模型:Marker 與 OCR。Marker 專為將整份複雜文件(如 PDF)轉換為乾淨的 Markdown 格式而設計,非常適合 RAG 應用;OCR 模型則能精確提取圖片或文件中的文字,並提供行級(line-level)的多邊形定位座標,為開發者提供高效的文件預處理方案。
Hugging Face 發表了專為文件視覺問答(DocVQA)設計的超大型開源數據集 Docmatix。該數據集規模比現有同類數據集大上百倍,包含 240 萬張文件圖片及 950 萬個高質量的問答對。Docmatix 的推出解決了多模態模型在處理複雜 PDF、報表等視覺文件時微調數據不足的痛點,將顯著提升開源視覺語言模型(VLM)的文件解析與問答能力。