搜索引擎是否对PDF进行爬网，如果是的话，是否有任何规则要遵循

22

我正在工作的网站上有几百个PDF。我认为我从未见过他们中的任何人在搜索中回来，但它们直接链接到外部站点。它们也充满了关键字，因为它们是产品文档。

为了让Google或其他搜索引擎抓取它们，我们需要做些特别的事情吗？

是否有严格的规则来制作PDF以帮助Google更喜欢它们？例如，是否应该通过ghostscript运行它们以清理Adobe在生成过程中创建的损坏的PDF标签？

seo pdf

— 本·霍夫曼
source

添加到您的xml站点地图以确保他们知道它们吗？

— artlung 2010年

17

Google 绝对将PDF文件编入索引，并且您可以通过添加filetype:pdf到搜索查询中来仅搜索PDF文件（示例）。

我想说，优化PDF以使其易于索引的主要工作是：

— 丹·迪普洛
source

链接labs.justsearching.co.uk/optimizing-pdf-documents-621.html不再起作用

@Christofian谢谢-我已经更新了链接。我将它留给读者，以感谢一家SEO公司在不进行任何301重定向的情况下重命名其链接的讽刺意味！

— Dan Diplo

@DanDiplo关于PDF文件的SEO我建议在适用时在内容中添加一个链接。

— Anagio

1

我不确定其他搜索引擎，但就Google而言，主要规则是不要通过robots.txt排除它们

这是他们最初支持PDF搜索的公告。

— 直言
source

1

就像使网站符合您的SEO一样，使您的PDF可访问也不会受到伤害。Adobe内置的辅助功能检查器远非完美，但是至少修复这些问题才能使您入门。

我可能每4到5分钟就花5分钟，而我们在线发布的大部分是文本PDF。时间平均增加，具体取决于页面的数量以及这些页面的复杂程度。

假设您具有Adobe Acrobat Pro进行编辑：

对于表格和真正的怪异Adobe错误等更高级的编辑，我们使用一个名为CommonLook的插件。CommonLook可以完成工作，但我讨厌它的程度与讨厌Adobe工具的程度差不多。

熟悉润色阅读顺序工具，标签工具栏，阅读顺序工具栏和内容工具栏。我的工作需要完全兼容的文档，然后才能上网，但是任何人都可以从一些简单的标记和文档属性中受益。

— 克里斯特先生
source

我们的网站有5,000多个PDF，我们必须回溯并完全符合508标准。学习花了一段时间，Adobe建议的培训师没有任何帮助，但是一旦您了解了它，便可以将它们真正拉开。

— MrChrister