以编程方式访问PDF目录


1

许多PDF文档包含分层目录。我不是指页面上可见的ToC--我的意思是用于在使用类似预览的应用程序查看PDF时用于生成侧边栏链接的元数据。我该如何提取它?我不是在寻找GUI应用程序,因为我将使用脚本从许多文档中提取此信息。


你能否以一种听起来不像是要求软件推荐的方式问这个问题?superuser.com/help/on-topic
krowe 2015年

@krowe嗯,我认为我能做的最好就是删除“使用命令行工具或类似的东西”。我将对软件推荐感到满意,但我也对如何访问此元数据的更一般描述持开放态度。我觉得这是一个符合发布标准的具体,范围广泛的问题。恰好这个答案可能涉及软件推荐。
Sean Mackesey 2015年

Answers:


0

python包pdfminer能够提取此信息。使用程序包随附的dumppdf.py脚本。

dumppdf.py -T /path/to/my/PDF

生成目录的XML。

注意:@krowe用于在评论中链接此答案的来源

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.