OCR PDF解析选定区域


1

我有很多帐户余额文档,我需要从这些文档中的表创建一个Excel文件。 我可以进行正常的OCR识别,但主要的问题是这些PDF有页眉,页脚页表头等等,我想只为每个页面解析页面的选定区域(带x,y坐标) 。

是否有可能做到这一点?


之后总是可以使用Imagemagick来提取一个 子图像 。所以 scan - > extract subimage - > Ocr 在子图像上 - > txt数据。
Hastur

所以你的建议是只在桌子上提取一个裁剪的图像,然后再将其提取出来?
Tobia

如果你有pdf版本它会更好,你也可以想到不同:它可能直接提取数据。如果你也可以设置扫描仪或你的ocr(通常它取决于ocr,但可以定义区域 “OCR” )。如果没有,你可以随时摆脱所有这些并提取子图像,然后要求ocr做 “整个” 子图像。 :)
Hastur

最后,我裁剪文档以适应感兴趣的区域。我将它导出到每页一个图像,然后我合并并解析它们!
Tobia

可能是最快捷的方式之一。下面有一个更长的答案。
Hastur

Answers:


0

PDF文件可以彼此非常不同,包含链接,按钮,表单域,音频,视频,业务逻辑,或者它们可以是一个用于页面的简单扫描图像集合,即使它们是标准的。确实是可移植文档格式 PDF ,是由国际标准化组织(ISO)维护的开放标准 [ 1 ]

从PDF中提取数据的策略可能因此而有所不同 内容,并不总是最好的方法是使用OCR;如果数据直接在其中可用,则最好避免不完全没有错误的数据处理级别。

  • 如果PDF是从文字处理器文档(Word,Latex ...)创建的,那么您很有可能成功提取数据而无需重复 OCR 软件。使用某些查看器,您可以选择表格并至少导出/保存选择 txt 格式或在 csv 一;然后你可以在eXcel中导入它。快速搜索您首选的搜索引擎将为您提供更新的列表 "open source" or "freeware" pdf tools export,或者您可以查看有关pdf软件的维基百科页面 [ 1B ]
  • 有一些工具,甚至是开源或免费软件,为此目的而创建,可用于每个操作系统。使用Adobe程序,您可以选择表格并直接导出 [ 2 ] xls 要么 xlsx...再次快速搜索您首选的搜索引擎将为您提供更新的列表 "open source" or "freeware" pdf viewers export table

  • 有一些网站提供免费的这项服务,即使我不应该建议你的账单...包括 谷歌文档 [ 3 ]

  • 最后但并非最不重要的是,如果它们是图像或其他策略失败,您可以使用OCR,设置一个框来限制OCR选项。使用FreeOCR [ 4 ] 例如,您可以选择执行OCR的框...

    您可以使用鼠标在图像的一部分周围绘制一个框,然后OCR当前页面。如果您只想从页面的一个区域获取文本,这很方便。

  • 如果您的OCR不支持该功能,或者同时处理多个文件并不舒适,您可以随时重复使用Imagemagick [ ] 或任何其他工具并提取一个 子图像 有趣的地区。然后你可以只给你的OCR选择 子图像 ,没有标题或无用的区域。
    所以 scan - > extract subimage - > Ocr on the subimage - > txt 要么 csv 数据 - > eXcel

    使用Imagemagick转换,您可以执行类似的操作

    convert -size 2480X3508 -depth 8 -extract 640x480+1280+960 file.pdf img.png
    

    将PDF文件转换为PNG文件,A4页面尺寸为300 DPI,并提取带有几何参数的框 [ 6 ] 640x480 从这一点开始 1280+960
    请注意,如果手动扫描,您将看到您的不同位置 感兴趣的地区 对于每个页面。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.