多语言展示
当前在线:693今日阅读:84今日分享:32

另一种用python识别图片文字的方法

在《怎么用python识别图片中的文字?》里面,我介绍了使用百度AI的文字识别功能识别图片文字的方法。今天,终于安装了Pillow模块,于是得到另一种识别图片的方法。下图是两种方法的识别结果。29怎么用python识别图片中的文字?
工具/原料
1

电脑

2

python3

准备工作
1

python3以上的版本,没有对应的PIL模块,需要你用pip安装pillow模块。

2

还需要安装pytesseract模块,看下面的图。

3

下载并安装tesseract-ocr:下载地址是: https://pan.baidu.com/s/1dGZDb4P 。压缩包大小是33.8MB。密码是fnxr。

4

解压之后,有三个文件夹,包括:源码、安装包、中文语言包。请点击tesseract-ocr-setup.exe进行安装,安装的时候,请记住安装目录。

5

安装完成之后,把中文语言包里面的文件,移动到Tesseract-OCR安装目录下的tessdata文件夹里面。

6

然后打开pytesseract扩展包里面的pytesseract.py文件,修改代码:把tesseract_cmd后面的参数,改为tesseract.exe的绝对路径。到此,准备工作就算是完成了。

试验
1

导入模块:from PIL import Imageimport pytesseract

2

加载图片:a = Image.open('C:……/b.png')

3

显示图片:a.show()

4

识别图片里面的文字:text=pytesseract.image_to_string(a,lang='chi_sim')指定语言为中文。

5

输出识别结果:print(text)

6

准确率如何?我只能说,结果不佳。对比一下原图。

7

再换一幅图片。

8

识别结果,让人抓狂。

注意事项

与《怎么用python识别图片中的文字?》里面的方法进行对比,可以发现,外国的中文文字识别能力,与本土的百度AI的识别能力,差的不是一丁半点。

推荐信息