如何让Google为我的PDF文档建立索引?


14

我们很难让Google为我们站点中的PDF文件编制索引。大约有50个PDF,大小范围为20 KB,甚至不到2兆。它们不受保护,可以匿名读取,并且可以在PDF Reader中搜索文档。

它们在SiteMap.xml中列出。我什至可以查看IIS日志并看到Googlebot读取PDF文件,但是除了五个文件外,它们从未包含在搜索结果中。

如果我执行filetye:pdf,则仅显示五个PDF。如果搜索我知道在PDF内的文本,则这些PDF将永远不会显示(除了被索引的五个PDF)。

有谁知道为什么索引超过45个以上的PDF文档没有包含在索引中,即使它们已包含在站点地图中并且Googlebot正在读取它们呢?


您是否在指定Google的内容类型?
克里斯·巴伦斯

Answers:


4

所有pdf都位于同一位置吗?曾经有个问题,我的pdf位置之一在robots.txt排除的文件夹内。将您的站点地图直接提交到google-webmaster工具站点,您可能会获得有关未出现pdf的原因的有价值的信息。在我的情况下,谷歌告诉我“嘿,这54个pdf文档在您的站点地图上,但是由于robots.txt的限制,我们无法为它们编制索引”。所以这很有帮助。但请注意解说员所说的话,可能需要一段时间才能显示此信息。

Google网站管理员工具:https : //www.google.com/webmasters/tools


我要补充一点,就是Google网站站长工具不会实时提供所有信息。但是,它仍然是至关重要的资源。
利亚姆

不,PDF文件位于站点中的多个不同位置。我已经检查过,并且它们都没有被robots.txt阻止。我一直在使用网站站长工具并提交站点地图,并将继续这样做。感谢您的反馈。吉姆

1

Google最初读取您的内容与将其显示在索引之间可能会有很大的滞后。我们最近重新启动了一个网站,并在启动时向Google提交了站点地图,新页面花了大约3周的时间才开始出现在搜索结果中。

您是多久前通过站点地图提交这些PDF的?

(除已索引的五个外)

听起来您的PDF正在被索引,但这需要一些时间。假设非索引PDF的生成方式没有差异,那么我怀疑只是索引需要一段时间才能更新。

稍微切线,我建议注册一个有用的工具是Google网站管理员 -它向您显示抓取速度,您的网站问题,网站地图和在Googlebot登陆您的网站后一天之内建立索引。这样可以节省您浏览IIS日志的时间。


自我们首次提交站点地图以来,已经过去了大约四个星期。我只是注意到昨天晚上他们又索引了四个索引;所以也许我只需要一直等待:)

重新启动网站时,如果新页面开始显示搜索结果需要3周的时间,这是否意味着3周后搜索结果返回到您网站中已不存在的页面?这不是导致很多“找不到页面”的情况吗?

在我们的情况下,重新启动与新部分的启动同时进行,旧链接仍然有效-3周是新部分开始显示的时间。随机的等待时间可能会令人沮丧!
ConroyP

0

您的PDF文件是否经过OCR扫描,以便可以选择和搜索文本?还是在没有OCR的情况下扫描PDF文件,在这种情况下,文本将被存储为大图像?如果PDF包含所有图像,我认为Google无法将其编入索引。还是Google现已找到您的页面?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.