我需要从PDF到电子表格中获取成千上万的文本片段。它们很短,很少超过2-3行,但是每个换行符都会创建一个新的单元格,我必须手动修复它,这会花费很多时间。
因为我有很多人,所以使用“粘贴到Word中并进行查找和替换”的解决方法对我来说太浪费时间了。有没有办法使换行符在副本上消失?也许有一个为此提供特殊复制模式的查看器,或者有一个插件?
这些文件是科学文章。文字排列非常线性。您可以假定我要复制的文本不在表格或浮点数内,并且没有旋转或任何其他内容。(如果发生这种情况,我想我会手动处理)。文本通常设置在两列中,但是我不会从其列中仅标记需要的文本。我不需要保留任何特殊格式。我愿意尝试一种解决方案,例如,删除所有无法打印的字符。文本为英文,如果解决方案仅以ASCII /条带复制的文本的所有非字母数字ASCII格式工作,则可以。
对于可以在Linux上运行的解决方案(可能是某种Okular插件),我非常有偏好。但是,如果碰巧只有Windows解决方案,我也想听听。我在Windows计算机上拥有一个较新的Acrobat Pro的许可证。