如何停止Google为我的Github存储库建立索引


69

我使用Github来存储我的一个网站的文本,但是问题是Google也在Github中为文本建立索引。因此,相同的文字将同时显示在我的网站和Github上。例如,此搜索最热门的是我的网站。第二个命题是Github存储库。

我不介意人们是否看到了源,但是我不希望Google为它建立索引(并且可能会对重复的内容进行惩罚。)除了将存储库私有化之外,还有什么方法可以告诉Google停止对它进行索引吗?

如果使用Github Pages会发生什么?这些是源在Github存储库中的站点。他们有同样的重复问题吗?

进行此搜索后,访问量最高的线索指向了Marpa网站,但我没有在搜索结果中看到。怎么样?


7
查看Github的robots.txt,我看到master分支中的blob被允许,但其他所有分支均被禁用。这可能是未编入Marpa内容的原因。因此,如果我使用其他分支,并从存储库中删除master分支,则索引将停止。
szabgab

[robots.txt指令摘要] [1] 1
LAFK说恢复莫妮卡

Answers:


86

GitHub的https://github.com/robots.txt文件允许对“ master”分支中的blob进行索引,但限制所有其他分支。因此,如果您没有“ master”分支,则Google不应为您的页面编制索引。

如何删除“ master”分支:

在您的克隆中创建一个新分支-我们称其为“ main”并将其推送到GitHub

git checkout -b main
git push -u origin main

在GitHub上更改默认分支(请参阅存储库的“设置”部分),或在此处https://github.com/blog/421-pick-your-default-branch

然后从您的克隆和GitHub中删除master分支:

git branch -d master
git push origin :master

让可能已经分叉您的存储库的其他人也可以这样做。

另外,如果您想在财务上支持GitHub,则可以设为私有https://help.github.com/articles/making-a-public-repository-private


2
谢谢。我遵循了这些步骤,但是我直接从github.com上做到了
Gabriel

1
有趣。出于卫生原因,我在Github网站存储库上删除了master分支,但没有意识到它会产生这种副作用。
Jeffrey Kegler,2015年

如果没有master分支,如何保持github页面正确呈现?
Bevan

据我所知,@ Bevan从gh-pages分支(如果存在)提供github页面。help.github.com/articles/creating-project-pages-manually与master分支无关。
szabgab

2
@szabgabusername.github.io如果在master分支上,则为存储库提供服务。像这样的项目存储库username;github.io/project-one都基于gh-pages分支机构提供。参见help.github.com/articles/user-organization-and-project-pages
David Jacquel,2016年

0

如果想坚持使用master分支,似乎没有办法使用私有存储库(并向上销售您的GitHub帐户)或使用其他免费提供私有存储库的服务,例如Bitbucket


我已经(大约一个小时前)删除了“主”分支,现在我有一个“主”分支,但我想知道,这够吗?
szabgab


-5

短棚。是的,您可以使用robots.txt。

如果您想阻止Googlebot抓取您网站上的内容,则有多种选择,包括使用robots.txt阻止访问服务器上的文件和目录。

仅当您的网站包含不希望搜索引擎索引的内容时,才需要robots.txt文件。如果您希望搜索引擎为网站中的所有内容建立索引,则不需要robots.txt文件(甚至不需要一个空文件)。

虽然Google不会抓取或索引被robots.txt阻止的页面的内容,但如果我们在网络上的其他页面上找到了URL,我们仍然可以为这些URL编制索引。结果,页面的URL以及可能的其他公共可用信息(例如指向站点链接的锚文本)或Open Directory Project(www.dmoz.org)的标题可能会出现在Google搜索结果中。

资料来源:

http://support.google.com/webmasters/bin/answer.py?hl=zh_CN&answer=93708 http://support.google.com/webmasters/bin/answer.py?hl=zh_CN&answer=156449


9
robots.txt文件必须位于网站的根目录中,并且我没有对github.com/robots.txt的写访问权。也可以在HTML标头中限制爬网,但是我认为我不能更改Github为我的源代码生成的页面。
szabgab

如果有人希望在其已构建的GitHub Pages上禁止机器人:使用GitHub Pages的人可以将robots.txt文件添加到其User Page存储库中,并使用它来控制所有已构建的页面(username.github.io/*)上的机器人。但是,他们不能隐藏其用户页面的源,因为它必须位于中master。对于项目存储库,master可以删除,而另一个分支可以用于GitHub Pages。这些都不适用于OP,因为szabgab说他不使用Github Pages。
olavimmanuel
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.