多语言展示
当前在线:1447今日阅读:19今日分享:20

如何识别PDF扫描件中的文字

通过扫描得到的PDF文档,其中的文字都是图片格式的。如图中文件,诗词,看起来 全是文字,但其实是图片,不能复制黏贴,也不可以编辑。需要通过文字识别工具,将其转换为可识别文档。
工具/原料

福昕高级PDF编辑器

方法/步骤
1

打开PDF文档,选择工具“转换->OCR->当前文件”

2

在弹出的属性设置中,选择要识别的页面范围,语言要选择当前文档中包含的语言中,默认是勾选“简体中文”和“英文”。

3

PDF文档文字识别有两种结果,一种是只可以搜索文本信息,保留当前排版;另一种是即可搜索文本信息,还可以编辑文本信息。

4

同时,在当前设置中,还可以勾选“查找所有疑似结果”。若有勾选,会在识别完成后,提示所有疑似结果。

5

文字识别完成后,程序会自动提示,“OCR识别疑似错误”,如果确实识别有错误,可以手动输入正确内容

6

确认完所有 “OCR识别疑似错误”后,即可得到可编辑的PDF文档

注意事项

如果文档中,包含其他的语言,一定要记得勾选相应的语言信息。

推荐信息