将PDF的所有突出显示的文本提取到单独的Excel单元格中


1

我在Excel中创建了很多电子表格。基本上由各种柱子组成。问题是其中一列包含大量文本(整个段落值得)。插入此列的文本来自一个巨大的PDF文件(此PDF文件包含许多我不需要的其他内容)。

到目前为止,我所做的是手动将我需要的东西从PDF复制并粘贴到excel中

复制»双击单元格»粘贴

这会导致文本丢失格式,当我将段落粘贴到特定单元格时,我需要手动删除大量空格。

单击单元格»退格空白空白,直到该段落在公式栏中的单数行»包裹文本以获得整洁

我的解决方案是

  1. 将多个段落复制到MS Word表中
  2. 合并行直到每个段落成一个单一行
  3. 通过删除分段符来修复格式,并用空格替换它们 查找/替换 方法随后
  4. 将其粘贴到excel中

现在我的这些电子表格会变得相当大,这种不断的复制粘贴变成了巨大的痛苦。有没有更简单的方法来解决这个问题?

我理想的是,PDF中的每个段落都应该落入一个单独的Excel单元格中,而没有恼人的空白间距。

我正在考虑从PDF中突出显示我需要的部分,并以某种方式将其从PDF中提取到Excel列中。不知何故神奇地将每个段落插入单个列中的不同单元格中,而没有大量的空白空间。

(要么)

将整个PDF插入excel(再次以某种方式神奇地将每个段落插入单个列中的不同单元格而没有大量空格)我可以删除我不需要的段落/内容。

我知道我不会得到完美的解决方案,但任何节省我时间的方法都会很棒!

我做的这项工作是为了学校,没有办法解决这个问题。

Answers:


0

简答:不。

答案很长:这在很大程度上取决于PDF的性质。与Adobe相信的相反,PDF规范是一个900页的意大利面条混乱,其中很多东西取决于PDF的创建方式和读取方式。

如果相关PDF具有某种有用格式的嵌入文本图层,例如 XML,你可以想象只提取该层并使用 XML 将“段落”映射到不同的Excel单元格。具体细节完全取决于PDF文件的创建方式,潜在层的外观以及编码技巧。

如果您决定尝试提取PDF图层,请参阅 这个帖子 了解所涉及的内容。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.