发现有关PDF的元数据


32

假设我有一个PDF,我想获取该PDF可用的任何元数据。我应该使用什么工具?

我发现我通常最想知道的信息是纸张大小,而PDF查看器通常不会报告这些信息。例如,PDF尺寸的字母,合法,A4还是其他?但是其他可用信息也可能引起您的兴趣。

编辑:是一个方便的纸张尺寸指南,这要感谢@terdon。


奇怪的。为什么有人会否决这个问题?介意解释吗?
Faheem Mitha 2014年

Answers:


39

pdfinfo我记得,xpdf附带了规范工具之一。输出示例:

[0 1017 17:10:17] ~/temp % pdfinfo test.pdf
Creator:        TeX
Producer:       pdfTeX-1.40.14
CreationDate:   Sun May 18 09:53:06 2014
ModDate:        Sun May 18 09:53:06 2014
Tagged:         no
Form:           none
Pages:          1
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
Page rot:       0
File size:      19700 bytes
Optimized:      no
PDF version:    1.5

1
至少在Debian中,这是poppler-utils的一部分。我在这里有一个文件,pdfinfo报告为595.2 x 841.44点。但这没有报告为A4。是什么决定将其标记为A4?
Faheem Mitha 2014年

2
名称采用硬编码:字母为612±0.1 x 792±0.1,DIN / ISO A的魔术尺寸为(均为±1 pt):3370.98、2383.64、1685.49、1191.82、842.74、595.91 ...您的页面太窄了,pdfinfo无法接收。
Ulrich Schwarz 2014年

我知道,一点点代码if ((fabs(w - 612) < 0.1 && fabs(h - 792) < 0.1) || (fabs(w - 792) < 0.1 && fabs(h - 612) < 0.1))
Faheem Mitha 2014年

就是这样,A格式与sqrt(2)s 循环。
Ulrich Schwarz 2014年

13

值得研究的另一个实用程序是exiftool。在特定情况下,它可能不是正确的工具,因为它不会报告有关文档几何图形的任何信息,但通常,它可能是检查PDF元数据的功能最齐全的工具。

这是一个命令示例,它将打印所有可用的元信息(-a),并按组(-G1)进行排序:

exiftool -a -G1 "$File"

官方文档概述了受支持的PDF相关标签:

您可以使用以下命令在Debian / Ubuntu上安装exiftool:

sudo apt-get install libimage-exiftool-perl

如果您更喜欢GUI方面的内容,可以尝试一下我的项目PDFMtEd。它是一组工具,用作exiftool的图形前端,并允许查看和编辑PDF元数据。

这是几个屏幕截图:

在此处输入图片说明

在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.