我有很多帐户余额文档,我需要从这些文档中的表创建一个Excel文件。 我可以进行正常的OCR识别,但主要的问题是这些PDF有页眉,页脚页表头等等,我想只为每个页面解析页面的选定区域(带x,y坐标) 。
是否有可能做到这一点?
我有很多帐户余额文档,我需要从这些文档中的表创建一个Excel文件。 我可以进行正常的OCR识别,但主要的问题是这些PDF有页眉,页脚页表头等等,我想只为每个页面解析页面的选定区域(带x,y坐标) 。
是否有可能做到这一点?
Answers:
PDF文件可以彼此非常不同,包含链接,按钮,表单域,音频,视频,业务逻辑,或者它们可以是一个用于页面的简单扫描图像集合,即使它们是标准的。确实是可移植文档格式 PDF ,是由国际标准化组织(ISO)维护的开放标准 [ 1 ] 。
从PDF中提取数据的策略可能因此而有所不同 内容,并不总是最好的方法是使用OCR;如果数据直接在其中可用,则最好避免不完全没有错误的数据处理级别。
txt
格式或在 csv
一;然后你可以在eXcel中导入它。快速搜索您首选的搜索引擎将为您提供更新的列表 "open source" or "freeware" pdf tools export
,或者您可以查看有关pdf软件的维基百科页面 [ 1B ] 。 有一些工具,甚至是开源或免费软件,为此目的而创建,可用于每个操作系统。使用Adobe程序,您可以选择表格并直接导出 [ 2 ] 在 xls
要么 xlsx
...再次快速搜索您首选的搜索引擎将为您提供更新的列表 "open source" or "freeware" pdf viewers export table
。
有一些网站提供免费的这项服务,即使我不应该建议你的账单...包括 谷歌文档 一 [ 3 ] 。
您可以使用鼠标在图像的一部分周围绘制一个框,然后OCR当前页面。如果您只想从页面的一个区域获取文本,这很方便。
如果您的OCR不支持该功能,或者同时处理多个文件并不舒适,您可以随时重复使用Imagemagick [ 五 ] 或任何其他工具并提取一个 子图像 有趣的地区。然后你可以只给你的OCR选择 子图像 ,没有标题或无用的区域。
所以 scan
- > extract subimage
- > Ocr on the subimage
- > txt
要么 csv
数据 - > eXcel
。
使用Imagemagick转换,您可以执行类似的操作
convert -size 2480X3508 -depth 8 -extract 640x480+1280+960 file.pdf img.png
将PDF文件转换为PNG文件,A4页面尺寸为300 DPI,并提取带有几何参数的框 [ 6 ] 的 640x480
从这一点开始 1280+960
。
请注意,如果手动扫描,您将看到您的不同位置 感兴趣的地区 对于每个页面。
scan
- >extract subimage
- >Ocr
在子图像上 - > txt数据。