多语言展示
当前在线:1293今日阅读:84今日分享:32

如何快速将纸质文件电子化?

工作中经常会碰到这样的问题,需要把一张图片或一个扫描纸质的PDF文件里的文字复制到word。这时候很多朋友可能会选择一个字一个字敲进电脑,太麻烦了。笔者尝试过很多方法后,得出的结论是:使用Abbyy FineReader软件来实现识别,无论是准确率还是速度都是最好的。下面就来介绍它的功能及使用方法。
工具/原料

Abbyy FineReader软件

方法/步骤
1

(1)打开PDF文件并设置参数进入Abbyy FineReader软件选择任务后会自动进入下一个界面,此时会自动弹出让你选择文件,如果没有选择文件,则可以在菜单栏中点击“打开”,然后选择你需要转换的文件,注意在文件类型中选择相应的类型,这里应该选择PDF,默认的是图形文件,不更改的话最后得到的是乱码。打开之后进行基本设置。在菜单栏中选择“工具”中的“选项”,弹出如图2的窗口。

2

(2)文字识别在所打开的PDF文件中,选择要转换的页面,当然也可以把全部页面或者是页面的部分内容进行转换。这里有两个窗口,一个是转换前的PDF图像页面,另一个是转换后的文本页面。单击PDF图像页面窗口的“读取”选项,进行OCR识别,就是让软件把图片中的文字读取出来(图片中文字越多,识别花费的时间越长,进行识别完成之后,就会在文本页面出现所转换的文本。其中的一些文字带有青色背景底色,这说明这些文字是有可能出现错误的,我们要对它们进行修正,如图3所示。

3

(3)文字修正一般来讲,图片越清晰、对比越鲜明的时候,该软件对文字的识别率就越高。识别率是与图片清晰度、文字大小、文字的端正程度、文字与底色的对比程度有关。Abbyy FineReader的识别率是在所有OCR软件中最好的,基本能在95%以上,当然不能保证100%。为保险起见,还是要人工核对一下识别的结果,尤其是格式特别复杂、有特殊文字和符号的地方是容易出错的。当然如果你用肉眼都看不清楚或者不能分辨的文字,该软件识别出来的可能性是不大的。该软件的原理是使用扫描的文本字符与系统内置的字符形状、语言辞典进行比较,从而识别文字,只能扫描指定的语言,其他语言不能识别。所以如果错误率太高,则要更改使用的扫描语言。单击文本页面窗口的“验证”选项,此时会弹出验证窗口,如图4所示。在这个窗口中会有一些带有青色背景底色的不确定文字或字符,如果错误的话我们可以直接修改,若是正确则可点击“忽略”跳过。

推荐信息