上个月我写了一篇 OCR 选型实测的文章,测试了 18 个文档、6 类场景,核心观点其实很简单:OCR 没有一个模型能通吃所有场景。规整的打印文本、手写笔记、表格、双栏排版的论文、带公式的文档——这些背后是完全不同的技术需求。你需要的是逐字还原,还是对文档的整体理解?你的数据能不能传到云端?这些问题的答案,比单纯看"哪个模型分数最高"重要得多。
文章发出来后,不少朋友反馈说受限于硬件条件或因为各种原因不方便复现测试流程。所以我干脆把搭好的这套 OCR 项目开源了,今天用 10 分钟教大家怎么在本地跑起来,同时也分享了一轮新的实测结果。
为什么又聊 OCR?
上一篇写完没多久,PaddleOCR 团队就发布了 PP-OCRv6。真正引起我注意的是两个数字:Tiny 版本只有 1.5MB,可以直接跑在浏览器里;Medium 档只有 34.5M 参数,在 OCR 专项任务上官方称它超过了 Qwen3-VL-235B。
34.5M 参数的模型在特定任务上打赢了 235B 参数的大家伙——后者的规模是前者的将近 7000 倍。这就好比一辆自行车在胡同里比超跑跑得还快,因为比的场景不一样。
于是我把 PP-OCRv6 的 Tiny、Small、Medium 三档模型全部接进了本地 OCR Studio,用同一套测试标准逐档切换模型,一张一张跑了一遍。
快速背景科普
OCR(光学字符识别)就是把图片里的文字变成可以编辑的文本。PaddleOCR 是百度文心团队开源的 OCR 系统,在国内开发者社区里用的人很多。PP-OCRv6 是最新版本,今年 6 月 11 号发布。
现在主流 OCR 有两条路:一是传统的"检测+识别"流水线,轻量可以在手机和笔记本上本地跑;二是多模态大模型,精度高但模型很重,通常需要调用云端 API。PP-OCRv6 走的是第一条路。
测试环境和方法
我搭了一个本地 OCR 工作台,支持拖拽上传和截图直接粘贴,三档模型可以在设置页一键切换,识别完能看到框选可视化,所有历史记录保留并支持导出 CSV 或 Excel。
本次测试的四个选手:
| 模型 | 大小 | 运行环境 |
|---|---|---|
| PP-OCRv6 Tiny | 1.5MB | Chrome 浏览器 |
| PP-OCRv6 Small | 7.7MB | 本地运行 |
| PP-OCRv6 Medium | 34.5MB | 本地运行 |
| Apple Vision | 系统自带 | macOS 原生 |
部署方式简单到离谱:克隆代码 → 安装依赖 → 启动服务。从零开始到跑通第一张图,实测不到 10 分钟。苹果芯片的 Mac 会自动走硬件加速,开箱即用。
三档模型的技术差异
Tiny、Small、Medium 三档共用同一套骨干网络,区别主要在网络宽度和深度上。Tiny 跑在浏览器里,图片不出本地;Small 适合移动端或轻量应用;Medium 精度最高,适合对识别质量有要求的本地部署。
官方 OCR 专项数据:
| 模型 | 检测分 | 识别分 |
|---|---|---|
| Medium | 86.2 | 83.2 |
| Small | 84.1 | 81.3 |
| Tiny | 80.6 | 73.5 |
作为对比,Qwen3-VL-235B 的检测分是 38.3,识别准确率是 74.9。一个 34.5M 的模型能在 OCR 任务上打赢 235B 的大模型,答案在于专用 vs 通用。PP-OCRv6 的整个架构就是为 OCR 设计的,在 OCR 这件事上练到了极致。
实测结果
标准测试集整体结果(编辑距离,越低越好):
| 模型 | 编辑距离 |
|---|---|
| PP-OCRv6 Medium | 0.425 |
| PP-OCRv6 Small | 0.443 |
| PP-OCRv6 Tiny | 0.446 |
| Apple Vision | 0.448 |
整体均值差距很小,都在 5% 以内,但拆到具体场景差距就显出来了。最典型的是手写笔记:
| 模型 | 手写笔记编辑距离 |
|---|---|
| PP-OCRv6 Medium | 0.228 |
| PP-OCRv6 Small | 0.245 |
| PP-OCRv6 Tiny | 0.283 |
| Apple Vision | 0.570 |
Medium 比苹果系统自带的 OCR 好了 2.5 倍。
四张实战挑战图
斜拍名片:透视变形加彩色底,字小且有白字和彩色块混在一起。Medium 最完整,品牌、姓名、职位、电话、网址全部读出;Small 漏掉了职位行;Tiny 只读出了名字和品牌;Apple Vision 名字识别有错字。
点阵字体:用点阵拼出来的字,字形断裂。Small 最稳,两行完整识别;Medium 同样稳;Tiny 偶有字符缺失。
轮胎侧壁压印:低对比度、浮雕字。Medium 读出了完整信息;Apple Vision 只读出了"220";Tiny 读出了"TREADWEAR"但后续行不稳。
电梯数码屏:七段数码管字体,金属反光。三档 PP-OCRv6 都识别出了产品编号、品牌名和网址;Apple Vision 反光区域有漏检。
速度参考(苹果芯片加速下):Tiny 约 3-15 秒/张,Small 约 4-25 秒/张,Medium 约 10-52 秒/张,Apple Vision 约 0.16-0.54 秒/张。
大模型的一个隐蔽问题
大模型做 OCR 时有一个隐蔽问题——它会"好心办坏事"。图片里如果有错别字,大模型不是忠实地抄下来,而是自动帮你"纠正"成正确的写法。从理解语义的角度看好像挺聪明,但从逐字还原的角度看这是 bug。
PP-OCRv6 在"精确匹配率"指标上是 93.2%,而 Qwen3-VL-235B 是 80.6%,差了将近 13 个百分点。这 13 个百分点在一些场景里可能就是"能用"和"不能用"的区别。
该怎么选?
Tiny:适合浏览器或嵌入式场景,1.5MB,图片不出本地。
Small:甜点档位,7.7MB,速度和精度的平衡点,手写识别比 Tiny 有明显提升。
Medium:精度优先,手写、彩色教材、低对比度边缘场景提升明显。
三档共同的优点是:数据不出本地,不用 API key,不需要联网,随便一台笔记本就能跑。
不同场景的选择:
- 律师审合同:需要逐字还原,一个字都不能脑补。PP-OCRv6 三档都够用,数据不出本地
- 老师改手写作业:手写识别是 PP-OCRv6 的强项,Medium 比苹果原生好 2.5 倍
- 财务核发票:金额、税号、日期必须完全一致。专用轻量模型没有"脑补"风险
- 研究者读论文:需要理解文档结构,现阶段用多模态大模型更合适
OCR 的未来不是一条路吃掉另一条。逐字抄写和文档理解需要的是两种完全不同的能力。别急着为 OCR 花钱,先想清楚自己的场景,再选工具。