汉王 PDF OCR
将纸质版文字拍摄成图片,如有扫描仪也可直接扫描成文字图片。(需转化的文字若本身为图片,此步骤省略)
打开“汉王 PDF OCR软件”。
点“打开图像”图标,将图片导入软件。
如图片过大,不方便观看,可点击菜单“显示”→缩放图像,适当调整图片显示比例(本文调整为25%),以方便操作。
图片为横幅时需按“Ctrl+R”或“Ctrl+L”键调整为竖幅,如文字倾斜时还要按“Ctrl+D”键适当进行倾斜校正,以便识别。(“Ctrl+R”:图像向右转90度;“Ctrl+L”:图像向左转90度;“Ctrl+D”:自动倾斜校正。)
图为调整为竖幅并校正倾斜后的图片。
点击“版面分析”工具(或按F5键),对图片进行识别分析。识别分析后,软件会为图片自动添加“识别框”,不同的颜色代表不同的识别类别。(有4种类别:红色代表横栏文字;棕色代表竖栏文字;蓝色代表表格;粉色代表图像。)
在识别过程中点“终止”键可随时停止识别。
识别结束,在图片窗口上方会自动显示所识别的文字内容。
文字中凡标为红色的文字或符号,一般为软件不能正确识别或误读的文字,需手工进行校正。修改时用鼠标选择文字上方所列正确的文字或符号即可,也可用键盘直接输入正确的文字或符号进行改正。(图中的右引号有误,文字栏上方已列出正确的右引符号,点击即可修正。)
按照1-10步骤方法逐页将图片文字进行识别。
输出窗口内的文字全部修改完毕后,全部选中已识别处理的图片文件。
点击菜单中的“输出”→“到指定格式文件”。
将文件格式设置为“txt”记事本文件格式,并指定输出路径→点“保存”输出文字。
在指定目录找到并打开刚输出的文件,复制全文→粘贴到Word软件或其它文本编辑软件进行应用。
汉字识别与转换方式方法很多,软件也有多种,本文属最普通的方法,主要便于大家掌握和使用,大家也可根据个人工作特点和需求选择更适合自己的方法和软件。
之所以还存在用较原始的传统方法录入文字,是少数人员不思创新、敷衍了事、得过且过,机械呆板从业所致。有些人玩游戏、微信一点也不落伍,但有时为了几千文字,深更半夜的加班加点,叫苦叫累,却找不出原因在哪。现在办公软件如此发达,录入几千字只是弹指一挥间的事,根本用不着加班。更关键的原因在于个别部门负责人责任意识差,不管不问所形成的不良作风。
制作图片时,尽量使用扫描仪,如没有扫描仪,用其它设备拍摄图片时,尽量将纸面摆正放平,避免使图片走样变形。条件许可时,尽可能在阳光下或光照度较强的环境下拍照,光照越强,字迹越清晰越好,以免图片变形、昏暗、模糊导致软件不能识别。
因图片质量低,所输出文字错误率大,修改文字比较多时,应果断重拍图片,以免费工费时。质量较高符合要求的图片从识别到输出瞬间就可完成。