当前位置：首页 » AI工具集合

MinerU2.5-Pro 发布：1.2B 参数开源文档解析模型，OmniDocBench 得分 95.69 超越 Gemini 3 Pro

1月前 AI工具集合 533 0

近期，OpenDataLab 团队发布了最新的文档解析模型（PDF-to-Markdown）——MinerU2.5-Pro。该模型实现了"小尺寸，高精度"。模型参数量仅有 1.2B，但在权威 OmniDocBench V1.6 文档解析榜单中，以 95.69 分取得 SOTA。它全面超越了多款顶级 OCR 模型（GLM-OCR, PaddleOCR-VL-1.5）和 VLM 视觉模型（Gemini 3 Pro, Qwen3-VL-235B）。

MinerU2.5-Pro 核心特点

开源易用：配备完善的 CLI 和工具链，开箱即用
多场景支持：支持扫描版 PDF、手写识别、复杂公式、跨页表格合并和图表识别
多后端兼容：支持 transformers、mlx-engine 和 vllm-engine 等多种 backend

本地部署教程

要在本地部署 MinerU2.5-Pro 模型，需要用到 OpenDataLab 团队开源的 mineru-vl-utils 工具包。它支持 http-client、transformers、mlx-engine、lmdeploy-engine、vllm-engine 和 vllm-async-engine 等 6 种不同的 backend。

下面，我们将使用 transformers backend 来运行 MinerU2.5-Pro 模型。

步骤 1：配置虚拟环境

python3 -m venv .venv
source .venv/bin/activate

步骤 2：安装 mineru-vl-utils

pip install "mineru-vl-utils[transformers]"

步骤 3：下载模型

使用 hf download 命令，把 Hugging Face 线上的模型下载到本地指定目录：

hf download opendatalab/MinerU2.5-Pro-2604-1.2B --local-dir model/MinerU2.5-Pro-2604-1.2B

步骤 4：运行 MinerU2.5-Pro 模型

from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
from PIL import Image
from mineru_vl_utils import MinerUClient
from mineru_vl_utils.post_process import json2md

output_path = "output.md"

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "model/MinerU2.5-Pro-2604-1.2B", dtype="auto", device_map="auto"
)

processor = AutoProcessor.from_pretrained(
    "model/MinerU2.5-Pro-2604-1.2B", use_fast=True
)

client = MinerUClient(
    backend="transformers", model=model, processor=processor,
    enable_table_formula_eq_wrap=True,
    image_analysis=False  # default False, set True to enable image/chart analysis
)

content_list = client.two_step_extract(Image.open("complex-table.webp"))
md_res = json2md(content_list)

with open(output_path, "w", encoding="utf-8") as f:
    f.write(md_res)

在以上代码中，调用 client.two_step_extract 方法后，会返回 ContentBlock 列表对象。每个 ContentBlock 对象有一个 type 属性，用于表示内容块的类型。它的值可能是 'text', 'image', 'table' 或 'equation'。除了 type 属性外，还包含 hbox、angle 和 content 属性。

以下是公式识别返回的 ContentBlock 示例：

[
  {
    "type": "equation",
    "bbox": [0.013, 0.038, 0.335, 0.152],
    "angle": 0,
    "content": "\\[\\n\\mathfrak {p} [ v ] (e) = \\sum f _ {x} ^ {p, e} (v (x))\\n\\]"
  }
]

功能实测

公式识别

表格识别

手写识别

图表识别

当需要图片分析或图表分析功能时，你需要把 image_analysis 参数值设置为 True。

总结

经过对 MinerU2.5-Pro 的能力进行多方面测试，发现 MinerU2.5-Pro 的综合能力还是挺强的，本地的推理速度也挺快。如果你测试完发现 MinerU2.5-Pro 不能满足你的需求，你可以试一下 Mineru CLI 提供的 pipeline 模式，该 CLI 除了支持解析 PDF 文档，还支持解析 DOCX、PPTX 和 XLSX 文档。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：MinerU2.5-Pro 发布：1.2B 参数开源文档解析模型，OmniDocBench 得分 95.69 超越 Gemini 3 Pro

请登录后发表评论