多语言展示
当前在线:693今日阅读:84今日分享:32

python3实现获取图片中的文字含中文

python3中可以直接获取图片中的文字,这对现在信息时代来说是必不可少的,在这里给大家讲解一下获取的过程。
工具/原料
1

windows7

2

pycharm

3

python 3.5

方法/步骤
1

你安装了python3之后,在cmd中输入pip3   install pillow和pip3  install pytesseract分别安装

2

识别引擎tesseract-ocr ,下载之后解压安装,下载地址:http://download.csdn.net/download/huxiangen/10170075

3

运行代码# -*- coding: utf-8 -*-from PIL import Imageimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识别text=pytesseract.image_to_string(Image.open('show.jpg'),lang='chi_sim') #设置为中文文字的识别#text=pytesseract.image_to_string(Image.open('test.png'),lang='eng')   #设置为英文或阿拉伯字母的识别print(text)

注意事项
1

.FileNotFoundError:[WinError 2]系统找不到指定文件。 解决办法: 打开文件pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径,再次使用就不会报这个错了。tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

2

pytesseract.pytesseract.TesseractError:(1,'Error opening data file\\Progr 解决办法: 打开文件pytesseract.py,找到image_to_string,指定config的参数,如下: tessdata_dir_config = '--tessdata-dir 'C:\\Program Files (x86)\\Tesseract-OCR\\tessdata'' def image_to_string(image, lang=None, boxes=False, config=tessdata_dir_config):

推荐信息