本文探討如何利用開源模型(如 Florence-2、Qwen2-VL 與 Llama-3.2-Vision)替代傳統 OCR 系統。開源 VLM 不僅能精準辨識文字,還能直接輸出 JSON 或 Markdown 等結構化格式,解決複雜排版與表格解析的痛點。透過 Hugging Face 生態系,開發者可以輕鬆部署並微調這些模型,打造高效、低成本且隱私安全的文檔處理 Pipeline。
Replicate 平台上架了來自 Datalab 的兩款全新文件解析模型:Marker 與 OCR。Marker 專為將整份複雜文件(如 PDF)轉換為乾淨的 Markdown 格式而設計,非常適合 RAG 應用;OCR 模型則能精確提取圖片或文件中的文字,並提供行級(line-level)的多邊形定位座標,為開發者提供高效的文件預處理方案。