OCR PDF解析选定区域

我有很多帐户余额文档，我需要从这些文档中的表创建一个Excel文件。我可以进行正常的OCR识别，但主要的问题是这些PDF有页眉，页脚页表头等等，我想只为每个页面解析页面的选定区域（带x，y坐标）。

是否有可能做到这一点？

pdf ocr

— Tobia
source

之后总是可以使用Imagemagick来提取一个 子图像 。所以 scan - ＆GT; extract subimage - ＆GT; Ocr 在子图像上 - ＆gt; txt数据。

— Hastur

所以你的建议是只在桌子上提取一个裁剪的图像，然后再将其提取出来？

— Tobia

如果你有pdf版本它会更好，你也可以想到不同：它可能直接提取数据。如果你也可以设置扫描仪或你的ocr（通常它取决于ocr，但可以定义区域 “OCR” ）。如果没有，你可以随时摆脱所有这些并提取子图像，然后要求ocr做 “整个” 子图像。 :)

— Hastur

最后，我裁剪文档以适应感兴趣的区域。我将它导出到每页一个图像，然后我合并并解析它们！

— Tobia

可能是最快捷的方式之一。下面有一个更长的答案。

— Hastur

PDF文件可以彼此非常不同，包含链接，按钮，表单域，音频，视频，业务逻辑，或者它们可以是一个用于页面的简单扫描图像集合，即使它们是标准的。确实是可移植文档格式 PDF ，是由国际标准化组织（ISO）维护的开放标准 ^{[ 1 ]}。

从PDF中提取数据的策略可能因此而有所不同内容，并不总是最好的方法是使用OCR;如果数据直接在其中可用，则最好避免不完全没有错误的数据处理级别。

如果PDF是从文字处理器文档（Word，Latex ...）创建的，那么您很有可能成功提取数据而无需重复 OCR 软件。使用某些查看器，您可以选择表格并至少导出/保存选择 txt 格式或在 csv 一;然后你可以在eXcel中导入它。快速搜索您首选的搜索引擎将为您提供更新的列表 "open source" or "freeware" pdf tools export，或者您可以查看有关pdf软件的维基百科页面 ^{[ 1B ]}。
有一些工具，甚至是开源或免费软件，为此目的而创建，可用于每个操作系统。使用Adobe程序，您可以选择表格并直接导出 ^{[ 2 ]} 在 xls 要么 xlsx...再次快速搜索您首选的搜索引擎将为您提供更新的列表 "open source" or "freeware" pdf viewers export table。
有一些网站提供免费的这项服务，即使我不应该建议你的账单...包括 谷歌文档 一 ^{[ 3 ]}。
最后但并非最不重要的是，如果它们是图像或其他策略失败，您可以使用OCR，设置一个框来限制OCR选项。使用FreeOCR ^{[ 4 ]}例如，您可以选择执行OCR的框...

您可以使用鼠标在图像的一部分周围绘制一个框，然后OCR当前页面。如果您只想从页面的一个区域获取文本，这很方便。
如果您的OCR不支持该功能，或者同时处理多个文件并不舒适，您可以随时重复使用Imagemagick ^{[ 五 ]} 或任何其他工具并提取一个 子图像 有趣的地区。然后你可以只给你的OCR选择 子图像 ，没有标题或无用的区域。
所以 scan - ＆GT; extract subimage - ＆GT; Ocr on the subimage - ＆GT; txt 要么 csv 数据 - ＆GT; eXcel。

使用Imagemagick转换，您可以执行类似的操作
```
convert -size 2480X3508 -depth 8 -extract 640x480+1280+960 file.pdf img.png
```
将PDF文件转换为PNG文件，A4页面尺寸为300 DPI，并提取带有几何参数的框 ^{[ 6 ]} 的 640x480 从这一点开始 1280+960。
请注意，如果手动扫描，您将看到您的不同位置 感兴趣的地区 对于每个页面。

— Hastur
source