8 如何从PDF中提取嵌入字体作为有效字体文件? 我知道该pdftk.exe实用程序可以指示PDF使用了哪些字体,以及是否嵌入了这些字体。 现在的问题是:假设我有带有嵌入字体的PDF文件-如何提取这些字体以使其可重新用作常规字体文件?是否有(最好是免费的)工具可以做到这一点?另外:可以使用iText以编程方式完成此操作吗? 161 pdf fonts ghostscript true-type-fonts embedded-fonts
15 如何从PDF中提取文本?[关闭] 关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow 的主题。 5年前关闭。 改善这个问题 谁能推荐一个库/ API来从PDF中提取文本和图像?我们需要能够获取文档的已知区域中包含的文本,因此API需要向我们提供页面上每个元素的位置信息。 我们希望将数据输出到 xml或json格式。我们目前正在看的PdfTextStream看起来不错,但是希望听到其他人的经验和建议。 是否可以通过编程方式从pdf提取文本的替代方法(商业方法或免费方法)? 152 pdf text ghostscript extraction text-extraction
12 将PDF转换为PNG 我正在尝试将PDF转换为PNG图像(至少是一个封面)。我已经用pdftk成功提取了PDF的第一页。我正在使用imagemagick进行转换: convert cover.pdf cover.png 这可以正常工作,但不幸的是cover.png是通过不正确呈现而来的(PDF中的某些alpha对象未正确呈现)。我知道ImageMagick使用GhostScript进行转换,如果我直接用gs进行转换,我可以得到所需的结果,但是我宁愿使用convert库,因为它具有我想利用的其他工具。 GhostScript中的此命令可完成所需的图像: gs -sDEVICE=pngalpha -sOutputFile=cover.png -r144 cover.pdf 我想知道是否有任何方法可以通过将参数传递给转换为GhostScript还是直接使用GhostScript进行调用? 83 image pdf png imagemagick ghostscript
3 合并PDF的Ghostscript压缩结果 我发现此整洁的命令可以使用Ghostscript将多个PDF合并为一个: gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile=out.pdf in1.pdf in2.pdf 生成的大小小于2个PDF的总大小。 使用单个文件作为输入运行命令仍然会导致输出文件的大小减小。 Ghostscript上是否可以选择仅复制合并时显示的页面而不进行任何压缩? 如果不是,那么Ghostscript压缩是否可能会如此好以致绝对不会导致质量损失? 69 pdf ghostscript