10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI工具集合

MinerU2.5-Pro 发布:1.2B 参数开源文档解析模型,OmniDocBench 得分 95.69 超越 Gemini 3 Pro

10小时前 AI工具集合 59 0

近期,OpenDataLab 团队发布了最新的文档解析模型(PDF-to-Markdown)——MinerU2.5-Pro。该模型实现了"小尺寸,高精度"。模型参数量仅有 1.2B,但在权威 OmniDocBench V1.6 文档解析榜单中,以 95.69 分取得 SOTA。它全面超越了多款顶级 OCR 模型(GLM-OCR, PaddleOCR-VL-1.5)和 VLM 视觉模型(Gemini 3 Pro, Qwen3-VL-235B)。

图片 1

MinerU2.5-Pro 核心特点

  • 开源易用:配备完善的 CLI 和工具链,开箱即用
  • 多场景支持:支持扫描版 PDF、手写识别、复杂公式、跨页表格合并和图表识别
  • 多后端兼容:支持 transformers、mlx-engine 和 vllm-engine 等多种 backend

本地部署教程

要在本地部署 MinerU2.5-Pro 模型,需要用到 OpenDataLab 团队开源的 mineru-vl-utils 工具包。它支持 http-client、transformers、mlx-engine、lmdeploy-engine、vllm-engine 和 vllm-async-engine 等 6 种不同的 backend。

下面,我们将使用 transformers backend 来运行 MinerU2.5-Pro 模型。

步骤 1:配置虚拟环境

python3 -m venv .venv
source .venv/bin/activate

步骤 2:安装 mineru-vl-utils

pip install "mineru-vl-utils[transformers]"

步骤 3:下载模型

使用 hf download 命令,把 Hugging Face 线上的模型下载到本地指定目录:

hf download opendatalab/MinerU2.5-Pro-2604-1.2B --local-dir model/MinerU2.5-Pro-2604-1.2B

步骤 4:运行 MinerU2.5-Pro 模型

from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
from PIL import Image
from mineru_vl_utils import MinerUClient
from mineru_vl_utils.post_process import json2md

output_path = "output.md"

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "model/MinerU2.5-Pro-2604-1.2B", dtype="auto", device_map="auto"
)

processor = AutoProcessor.from_pretrained(
    "model/MinerU2.5-Pro-2604-1.2B", use_fast=True
)

client = MinerUClient(
    backend="transformers", model=model, processor=processor,
    enable_table_formula_eq_wrap=True,
    image_analysis=False  # default False, set True to enable image/chart analysis
)

content_list = client.two_step_extract(Image.open("complex-table.webp"))
md_res = json2md(content_list)

with open(output_path, "w", encoding="utf-8") as f:
    f.write(md_res)

在以上代码中,调用 client.two_step_extract 方法后,会返回 ContentBlock 列表对象。每个 ContentBlock 对象有一个 type 属性,用于表示内容块的类型。它的值可能是 'text', 'image', 'table' 或 'equation'。除了 type 属性外,还包含 hbox、angle 和 content 属性。

以下是公式识别返回的 ContentBlock 示例:

[
  {
    "type": "equation",
    "bbox": [0.013, 0.038, 0.335, 0.152],
    "angle": 0,
    "content": "\\[\\n\\mathfrak {p} [ v ] (e) = \\sum f _ {x} ^ {p, e} (v (x))\\n\\]"
  }
]

功能实测

公式识别

图片 2

图片 3

表格识别

图片 4

图片 5

手写识别

图片 6

图片 7

图表识别

当需要图片分析或图表分析功能时,你需要把 image_analysis 参数值设置为 True。

图片 8

图片 9

总结

经过对 MinerU2.5-Pro 的能力进行多方面测试,发现 MinerU2.5-Pro 的综合能力还是挺强的,本地的推理速度也挺快。如果你测试完发现 MinerU2.5-Pro 不能满足你的需求,你可以试一下 Mineru CLI 提供的 pipeline 模式,该 CLI 除了支持解析 PDF 文档,还支持解析 DOCX、PPTX 和 XLSX 文档。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:MinerU2.5-Pro 发布:1.2B 参数开源文档解析模型,OmniDocBench 得分 95.69 超越 Gemini 3 Pro
#MinerU2.5-Pro #文档解析 #PDF #开源模型 #OmniDocBench 
收藏 1
Anthropic 发布 AI Agent Zero Trust 安全白皮书:六大能力域与八步部署指南
微软开源Webwright:让 LLM 直接写 Playwright 脚本,浏览器 Agent 性能达 SOTA
推荐阅读
  • 10 款 AI 语音输入工具对比指南,告别手冻,电脑语音输入法大合集
  • 5款开源AI Agent记忆框架横评,附落地架构选型指南
  • 5款免费视频去字幕、去水印AI工具合集,性能对比与选择指南
  • 10个 AI PPT 生成工具,ai轻松打造精美 PPT,2024 必备!
  • 8款AI对口型工具,口型同步开源工具合集推荐及应用场景,生成高质量语音 + 口型同步
评论 (0)
请登录后发表评论
分类精选
12款国内外最全AI绘画工具推荐,AI文生图工具深度测评与场景化对比
39262 1年前
2025开源AI数字人工具指南:8大免费开源神器带你免费解锁可商用的AI数字人
33254 1年前
15款国内免费好用的AI写作神器合集,2025超干货! Ai写作工具推荐,支持论文长文
29641 1年前
2025年普通人必须要知道的15个AI工具,可以让日常工作效率大幅度提升
23297 1年前
8 款 AI 翻译浏览器插件,沉浸式翻译助你轻松阅读网页
18730 1年前
谁会成为下一个Cursor的平替,盘点 8 款可用 Claude 4 的AI编程工具
13710 10月前
8 款热门 AI 图片+视频生成工具:文生图、文生视频、图生视频
13591 1年前
5款开源TTS,零样本声音克隆,克隆你想要的声音,快速本地部署(含一键包下载)
13218 1年前
2025年热门好用的 AI换脸工具大全,适合内容创作者、视频剪辑师、特效制作、AI 爱好者使用
12659 11月前
n8n进阶指南:精选10个n8n AI 工作流模板,效率翻了100%!附模板包下载
12354 11月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 MinerU2.5-Pro 发布:1.2B 参数开源文档解析模型,OmniDocBench 得分 95.69 超越 Gemini 3 Pro
2 MiniMax CLI(mmx):一个命令调用多模态 AI 全能力的终端工具
3 发AI图总被限流?这三个必备去水印开源工具,搞定隐形水印
4 notebooklm-py开源项目:4个月14K Star,代码自动化NotebookLM
5 Agent、CLI、GUI、IDE、终端:AI编程工具全景解读
6 OpenCode Go套餐:国产开源编程模型5美元包月,无需抢购
7 4款国产通用智能体深度横评:百度DuMate、WorkBuddy、QoderWork、QClaw六大维度实测对比
8 7款AI生成PPT工具横评:Gamma、NotebookLM、Codex、frontend-slides实测,出稿vs磨稿场景选择指南
9 Cursor Composer 2.5 发布:基于 Kimi K2.5,成本降 10 倍,马斯克亲自站台
10 一人公司注册全攻略:用WorkBuddy 5步搞定核名到税务登记
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联