Replicate BlogOct 21, 2025, 12:00 AM重要 75

Extract text from documents and images with Datalab Marker and OCR

Replicate 推出 Datalab 兩款新模型,可將整份 PDF 轉換為 Markdown,或精確抓取行級文字與多邊形座標。

Replicate 平台上架了來自 Datalab 的兩款全新文件解析模型:Marker 與 OCR。Marker 專為將整份複雜文件(如 PDF)轉換為乾淨的 Markdown 格式而設計,非常適合 RAG 應用;OCR 模型則能精確提取圖片或文件中的文字,並提供行級(line-level)的多邊形定位座標,為開發者提供高效的文件預處理方案。

想看英文原文 / 完整內容?

前往 Replicate Blog 原文 →

摘要由 AI 整理,以原文為準。