如何使我的Github Wiki可被搜索引擎抓取?robots.txt似乎禁止使用它


9

在使用W3C链接检查器时,我发现我的Github Wiki无法被抓取:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
状态:(不适用)robots.txt禁止

这很不幸,因为我希望人们可以在搜索引擎上轻松找到此Wiki。

问题:如何使我的Github Wiki可被搜索引擎抓取?
还是我误会了Github的robots.txt实际上还可以吗?


1
我怀疑答案与这个类似的问题大致相同。
约翰C

Answers:


9

GitHub robots.txt确实明确禁止抓取Wiki页面,例如在Googlebot部分:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

由于这是站点范围的漫游器文件,因此没有任何解决方法。

这是一个有趣的选择,因为GitHub 将Wikis描述为“共享有关您的项目的长格式内容”的地方。由于默认情况下,公共Wiki可被任何用户编辑,因此,这可能是垃圾邮件发送者的强有力保护。


0

可以通过支持Wiki的引擎搜索GitHub Wiki。请参阅https://github.com/robots.txt的前两行:

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: https://developer.github.com/

这可能是用于解析各种Wiki格式等。

例如,在Google中搜索“ openrefine代理协议”,第一个匹配项是Github项目Wiki下的页面。


嗯,那Google为什么要索引Broker-Protocol Wiki,而不是OP的Wiki?
Vidar S. Ramdal
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.