Answers:
此帖已满4岁,希望状态不再待定。但这对我有所帮助。
经过14天的待处理状态后,我发现此链接与您的站点地图一起PING bing。这是我的站点地图的一种清醒电话。几个小时后,我的网站被索引了。
您收到的回复如下:感谢您提交站点地图。加入Bing网站管理员工具,查看您的站点地图状态以及有关您在Bing上的工作情况的更多报告。
我在本周与Bing打交道时,发现它可以工作,但是它的网站站长工具非常延迟。
提交站点地图后两天,它的状态为待定,上次爬网日期是过去的某个奇怪日期,但实际上bingbot
已经在搜索我的网站。
我可以访问我的服务器日志,Bing已经在那儿了两次,它也做了一些索引。
用于获取我的站点地图的Apache日志记录如下所示:
157.55.39.216 - - [05/Dec/2016:01:58:01 +0100] "GET /sitemap.txt HTTP/1.1" 200 63422 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
我看过两个主题,Bing也在搜寻 robots.txt
,大约有三分之一的页面都处于状态200,这表示“确定”,然后它停止了。
两天后,网站站长工具中仍然没有任何内容,提交站点地图的状态待定事件,但是我的搜索结果开始随机显示在Bing.com搜索中。他们出现后,我搜索site:mywebsitename.com,五分钟后,同一查询显示了0条结果。
我试图使用他们的Disavow工具拒绝链接,该链接神秘地出现在Bing搜索结果中,例如mywebsitename.com/ppc/click/123456一个不存在的页面,我什至使它扔了404个星期,两天后仍然链接显示在搜索结果中。
Bing网站管理员工具是为有耐心的人准备的,一切都需要花费时间,看起来他们不再需要维护。
在Google网站站长页面中找到了此内容。我可以想象它也适用于Bing。
什么是机器人故障?检索网站的robots.txt文件是错误的。在Googlebot抓取您的网站之前(大约每天之后),Googlebot会检索您的robots.txt文件,以查看它不应该抓取哪些页面。如果您的robots.txt文件存在但无法访问(换句话说,如果它没有返回200或404 HTTP状态代码),则我们将推迟抓取,而不是冒险抓取您不想抓取的URL。发生这种情况时,一旦我们成功访问您的robots.txt文件,Googlebot将返回您的网站并对其进行爬网。有关漫游器排除协议的更多信息。 https://support.google.com/webmasters/answer/35120?hl=zh_CN
这意味着仅提交sitemap.xml是不够的。确保您拥有robots.txt
404 Not Found
状态,该状态是他们对robots.txt期望的两个状态之一。该段适用于出现其他类型的错误时,例如500 Internal Server Error
在获取robots.txt时。虽然这种情况会导致站点地图的处理延迟,但这种情况很少见,对提出问题的人或有类似问题的任何人都不太可能引起问题。