当文档被扫描 (PDF) 或基于图像 (JPEG/PNG) 时,计算机将以点和像素的形式读取内容。要使其内容被计算机识别为字符,您需要使用 OCR 工具将其转换为机器可读的文件。
1.上传你的文件
您可以放心,您的文件是通过加密连接安全上传的。处理完毕后,这些文件将被永久删除。
- 要从计算机上传文件,请单击“上传PDF文件”,然后选择要编辑的文件,或将文件拖放到页面上。
- 要从 Dropbox、Google 云端硬盘或文件所在的网站上传文件,请展开下拉列表并选择您的文件。
- 对于免费账户,您可以一次上传一个文件,同时已升级的账户有权上传10 个文件 一次。
2。PDF 文档语言选择
选择文档的语言,因为指定了 OCR 转换效果最佳。根据语言解决所有不清楚的单词也会更容易。
3.选择输出格式并保存
将提供转换文档的选项-可搜索的 PDF 或者是普通的文本文件 这将提取.txt文件上的数据。 A 可搜索的 PDF is still a PDF file that contains content that can be recognized as characters.
选择首选的选项,然后单击“识别所有页面上的文本” 开始这个过程。
该过程完成后,通过单击保存转换后的文件“下载” 或者,您也可以将文档上传到您的 Google 云端硬盘或 Dropbox 帐户中。
OCR 过程精度
建议在运行OCR进程之前不要压缩文档。分辨率较高的文档通常会产生更好的结果。
不幸的是,无法保证识别文本的100%准确性,但这是最好的方法。
注意:如果浏览器的缓存被清除,工具的效果最佳