搜索引擎是否对PDF进行爬网,如果是的话,是否有任何规则要遵循


22

我正在工作的网站上有几百个PDF。我认为我从未见过他们中的任何人在搜索中回来,但它们直接链接到外部站点。它们也充满了关键字,因为它们是产品文档。

为了让Google或其他搜索引擎抓取它们,我们需要做些特别的事情吗?

是否有严格的规则来制作PDF以帮助Google更喜欢它们?例如,是否应该通过ghostscript运行它们以清理Adobe在生成过程中创建的损坏的PDF标签?


添加到您的xml站点地图以确保他们知道它们吗?
artlung 2010年

Answers:


17

Google 绝对将PDF文件编入索引,并且您可以通过添加filetype:pdf到搜索查询中来仅搜索PDF文件(示例)。

我想说,优化PDF以使其易于索引的主要工作是:

  • 给它一个有意义的文件名
  • 完成所有文档元数据属性(标题,作者,关键字等)
  • 确保您的PDF由实际文本组成,而不是扫描的图像
  • 确保您拥有正确使用标题的良好内容,就像处理HTML文档一样

有关更多提示,请阅读优化PDF文档11个针对搜索引擎优化PDF的提示。



@Christofian谢谢-我已经更新了链接。我将它留给读者,以感谢一家SEO公司在不进行任何301重定向的情况下重命名其链接的讽刺意味!
Dan Diplo

@DanDiplo关于PDF文件的SEO我建议在适用时在内容中添加一个链接。
Anagio

1

我不确定其他搜索引擎,但就Google而言,主要规则是不要通过robots.txt排除它们

是他们最初支持PDF搜索的公告。


1

就像使网站符合您的SEO一样,使您的PDF可访问也不会受到伤害。Adobe内置的辅助功能检查器远非完美,但是至少修复这些问题才能使您入门。

我可能每4到5分钟就花5分钟,而我们在线发布的大部分是文本PDF。时间平均增加,具体取决于页面的数量以及这些页面的复杂程度。

假设您具有Adobe Acrobat Pro进行编辑:

  • 运行可访问性全面检查。(快速检查对我来说毫无意义)
  • 更新文档属性中的元信息(关键字,主题,语言等)
  • 确保添加了标签
  • 确保将文本标记为文本,将图像标记为图像,将背景材料标记为背景
  • 将无用的绒毛(例如装饰或设计)标记为背景
  • 向图像添加替代文字
  • 确保按阅读顺序正确排列文本
  • 在内容工具栏中,确保文本没有重复或翻译不当
  • 在扫描的页面上使用OCR扫描仪

对于表格和真正的怪异Adobe错误等更高级的编辑,我们使用一个名为CommonLook的插件。CommonLook可以完成工作,但我讨厌它的程度与讨厌Adobe工具的程度差不多。

熟悉润色阅读顺序工具,标签工具栏,阅读顺序工具栏和内容工具栏。我的工作需要完全兼容的文档,然后才能上网,但是任何人都可以从一些简单的标记和文档属性中受益。


我们的网站有5,000多个PDF,我们必须回溯并完全符合508标准。学习花了一段时间,Adobe建议的培训师没有任何帮助,但是一旦您了解了它,便可以将它们真正拉开。
MrChrister
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.