Allen AI 推出的 olmOCR 是基於視覺語言模型(VLM)的強大 PDF 轉 Markdown 工具,但在面對嚴謹業務時仍有幻覺或漏字風險。TNG Technology Consulting 分享了他們如何透過精心設計的資料集與微調技術,顯著提升 olmOCR 的「忠實度(Faithfulness)」。微調後的模型能更精準地辨識複雜排版、表格與公式,並大幅降低文字篡改與遺漏,為企業級 OCR 應用提供可靠的開源解決方案。
Hugging Face 宣布與知名圖像增強庫 Albumentations 合作,推出專為文件圖像(如收據、合約、掃描檔)設計的 TextImage 數據增強技術。此技術能模擬真實世界中的折痕、陰影、污漬及掃描噪點,解決 Document AI 模型在面對低質量現實圖像時識別率下降的問題。開發者可直接將其整合至 Hugging Face 的數據處理與訓練流程中。
本文探討 Hugging Face 在文件 AI(Document AI)領域的加速方案。針對 LayoutLMv3 與免 OCR 的 Donut 等多模態模型,Hugging Face 介紹了如何利用 Optimum 庫、ONNX Runtime 及量化技術,克服多模態模型在生產環境中的高延遲與高成本挑戰,實現高效能的文件自動化處理。