Python 自动识别图片文字—OCR实战教程

内容隐藏

1.准备

2.cnocr 识别图片的中文

3.pytesseract 识别图片的英文

OCR 是光学字符识别（英语：Optical Character Recognition，OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

很早之前就有同学在公众号后台回复希望出一篇 OCR 相关的文章，今天尝试了一下cnocr和tesseract，给大家分别讲讲两个模块的使用方法和效果。

1.准备

开始之前，你要确保Python和pip已经成功安装在电脑上，如果没有，请访问这篇文章：超详细Python安装指南进行安装。

(可选1) 如果你用Python的目的是数据分析，可以直接安装Anaconda：Python数据分析与挖掘好帮手—Anaconda，它内置了Python和pip.

(可选2) 此外，推荐大家用VSCode编辑器来编写小型Python项目：Python 编程的最好搭档—VSCode 详细指南

Windows环境下打开Cmd(开始—运行—CMD)，苹果系统环境下请打开Terminal(command+空格输入Terminal)，输入命令安装依赖：

（选择一）安装 cnocr：

pip install cnocr

看到 Successfully installed xxx 则说明安装成功。

如果你只想对图片中的中文进行识别，那么 cnocr 是一个不错的选择，你只需要安装 cnocr 包即可。

但如果你想试试其他语言的OCR识别，Tesseract 是更好的选择。

（选择二）安装 pytesseract：

首先，无论是Windows还是macOS，你都需要安装 pytesseract:

pip install pytesseract

其次，还需要安装Tesseract.

（macOS）Tesseract 在macOS下可以使用brew安装：

brew install tesseract

非常方便，一条命令即可完成安装。

（Windows）安装Tesseract

需要先下载安装tesseract的程序，然后下载中文简体字预训练好的模型包（尽管本教程不会用tesseract，但还是给大家提供了）。

你可以在Python实用宝典公众号后台回复：tesseract 打包下载。

下载完成后，将 tesseract-ocr-setup-4.00.00dev.exe 安装到 Tesseract-OCR 指定目录下，复制该目录路径增加到Path中：

并将训练好的模型文件chi_sim.traineddata放入该目录中，这样安装就完成了。

2.cnocr 识别图片的中文

cnocr 主要针对的是排版简单的印刷体文字图片，如截图图片，扫描件等。目前内置的文字检测和分行模块无法处理复杂的文字排版定位。

尽管它分别提供了单行识别函数和多行识别函数，但在本人实测下，单行识别函数的效果非常糟糕，或者说要求的条件十分苛刻，基本上连截图的文字都识别不出来。

不过多行识别函数还不错，使用该函数识别的代码如下：

from cnocr import CnOcr
ocr = CnOcr()
res = ocr.ocr('test.png')
print("Predicted Chars:", res)

用于识别这个图片里的文字：

效果如下：

如果不是很吹毛求疵，这样的效果已经很不错了。

3.pytesseract 识别图片的英文

如果你的OCR目的不是中文而是英文，是需要别的模型的。这里给大家分享Tesseract-OCR，它是一款由HP实验室开发，由Google维护的开源OCR引擎。

Tesseract-OCR 可扩展性很强，你可以基于它训练属于自己的OCR模型。

现在给大家看看它分类英文的效果，代码如下：

import pytesseract
from PIL import Image

image = Image.open('test2.png')
code = pytesseract.image_to_string(image, lang='eng')
print(code)

识别的图片：

效果如下：

英文效果真的很不错，当然官方预训练好的中文模型效果就比较一般了。

如果你想试试Tesseract识别中文，只需要将代码中的eng改为chi_sim即可。

我们的文章到此就结束啦，如果你喜欢我们今天的Python 实战教程，请持续关注我们，如果对你有帮助，麻烦在下面点一个赞/在看哦有任何问题都可以在下方留言区留言，我们都会耐心解答的！

Python实用宝典 (pythondict.com)
不只是一个宝典
欢迎关注公众号：Python实用宝典

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Python 自动识别图片文字—OCR实战教程

1.准备

2.cnocr 识别图片的中文

3.pytesseract 识别图片的英文

评论(0)

提示：请文明发言取消回复

排行榜展示

Python 情人节超强技能导出微信聊天记录生成词云

你不得不知道的python超级文献批量搜索下载工具

7行代码 Python热力图可视化分析缺失数据处理

Python 流程图 — 一键转化代码为流程图

Python 优化—算出每条语句执行时间

你的10W块放哪里能赚最多钱？

文章展示

_csv。错误：字段大于字段限制（131072）

查找两个字符串之间的相似性度量

如何将字符串数组转换为numpy中的浮点数组？

TensorFlow-Examples-TensorFlow初学者教程和示例(支持TF v1和v2)

如何在Windows中同时安装Python 2.x和Python 3.x

Python 8行代码模拟鼠标自动删除微信收藏

Python 自动识别图片文字—OCR实战教程

1.准备

2.cnocr 识别图片的中文

3.pytesseract 识别图片的英文

相关文章

评论(0)

提示：请文明发言 取消回复

排行榜展示

文章展示

提示：请文明发言取消回复