当我将文本从PDF文件中复制到文本编辑器中时,它最终会以各种方式被破坏。像粗体和斜体这样的格式会丢失;文本段落中的软换行符转换为硬换行符;即使在不应该用破折号将两行打断的情况下,破折号也会保留下来;单引号和双引号替换为?迹象。
理想情况下,我希望能够从PDF复制文本并将格式转换为HTML代码,将“智能引号”转换为“和”,并且换行符正确完成。有什么办法可以做到这一点?
当我将文本从PDF文件中复制到文本编辑器中时,它最终会以各种方式被破坏。像粗体和斜体这样的格式会丢失;文本段落中的软换行符转换为硬换行符;即使在不应该用破折号将两行打断的情况下,破折号也会保留下来;单引号和双引号替换为?迹象。
理想情况下,我希望能够从PDF复制文本并将格式转换为HTML代码,将“智能引号”转换为“和”,并且换行符正确完成。有什么办法可以做到这一点?
Answers:
首先,您必须了解什么是PDF。PDF文件被设计成模仿一个打印页,并且它们被设计只作为输出格式,而不是输入格式。PDF基本上是一张包含字符(各个字母或标点符号等)或图像的确切位置的地图。在大多数情况下,PDF甚至不存储有关一个单词的结尾和另一个单词的开头的信息,少了诸如段落结尾的软中断和硬中断等信息。
(最近的一些PDF确实存储了有关这些内容的一些信息,但这是一项新技术,您很幸运能够找到这样的PDF。即使您这样做,您的PDF查看器也可能不知道它。)
无论如何,要由软件来实现某种“人工智能”,以仅从单个字符的位置提取什么是单词,什么是段落等。不同的软件将比其他软件做得更好,而且还取决于PDF的制作方式。无论如何,您永远都不要期望完美的结果。具有输出PDF与具有源文档是不同的。如果可以的话,尝试获得更好的选择。
解决此类问题的标准方法是使用Adobe Acrobat Professional(价格昂贵,而不是免费的阅读器)将PDF转换为HTML。即使那样也无法获得完美的结果。
有一些免费软件可以用来从PDF中提取格式完整的文本,但是同样,不要指望完美的结果。参见例如口径(可以转换为RTF格式),pdftohtml / pdfreflow或AbiWord文字处理器(启用所有导入/导出插件)。还有一个用于OpenOffice的PDF导入插件。
但是,请不要期望这些结果中的任何一个都能达到完美。你在这里反对谷物。PDF并不意味着它是可编辑的输入格式。
有一个非常好的在线工具,称为Sej-da。它处理高级PDF操作。没有要下载的软件。由于它是一个新的在线工具,因此目前仍处于Beta版。它使您可以从PDF中提取文本,以及提供多种其他PDF功能。
修订版3于2012年11月14日对sejda函数进行了简短的视频回顾,可在此处找到:
使用浏览器打开PDF文件(已测试Google chrome和firefox),然后在此处复制文本。
您可以为此使用Adobe Acrobat Pro。
对于表:Acrobat 9/10具有一个选择表功能。使用Acrobat X,您只需单击另存为>电子表格> Excel。甚至可以将页面连接成一个较长的电子表格。很棒的功能。
对于文本:存在用于导出到MS Word的类似功能。另存为> Word> Word文档。
资料来源:
我试图保存表格中组织的pdf的文本和格式。在Acrobat Professional中,我意识到有一个“另存为”选项,可以另存为excel文档。这很好地满足了我的需求。我还注意到,还有一个“另存为Word”文档选项。我没有尝试过。