Hugging Face BlogMar 5, 2024, 12:00 AM重要 75

Introducing ConTextual: How well can your Multimodal model jointly reason over text and image in text-rich scenes?

Hugging Face 推出 ConTextual 排行榜,專門評估多模態模型在「富含文本場景」中的圖文聯合推理能力。

Hugging Face 發表全新基準測試「ConTextual」並上線排行榜。該基準專注於評估多模態大模型(MLLM)在處理「富含文本的圖像」(如圖表、資訊圖表、街景招牌等)時的圖文聯合推理能力。這項測試超越了單純的 OCR 文字識別,更考驗模型結合視覺上下文與文本進行深度推理的實力,為評估當前頂尖多模態模型提供了更貼近真實應用場景的標準。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。