我应该将所有内容都包含在站点地图中还是仅包含新内容?


13

对于具有动态内容的网站(不断添加新内容),我应该只在站点地图中包含最新内容还是应该包含所有内容(具有站点地图索引)?特别是Sitemaps的最佳做法是什么。对于大型网站?

另外,有没有办法使Google(和其他搜索引擎)仅对站点地图中的页面进行爬网?

谢谢

更新:
另外,您知道stackoverflow如何处理此问题吗?我想知道,但不幸的是(也理解地),他们已阻止访问其站点地图。


1
该网站有多大?robots.txt和站点地图都有大小限制。令人惊讶的是,很多都超过了两者,这就是为什么我要问。
Tim Post

@Tim,目前还不算大(所有内容都可以放在一个站点地图中),但我正在尝试提前计划。

Answers:


13

包括所有页面。XML网站地图的目的是告诉搜索引擎您所有的内容。不只是新的东西。

从sitemaps.org网站(重点是我的):

站点地图是网站站长通知搜索引擎有关其站点上可进行爬网的页面的一种简便方法。

如果您有很多内容,则可以使用多个XML网站地图

如果您有不想被检索或编入索引的内容,则需要明确告知搜索引擎不要对这些页面进行检索和编入索引。使用robots.txt文件阻止您不希望爬网的任何页面或目录。您也可以为此使用meta标签。但是您不能在XML站点地图中指定不对未列出的页面进行爬网。


感谢您的回答,我将在站点地图中包含所有内容。

您是否有一个可以处理50 + k页的库?

数据库中有超过50k页吗?
约翰·孔德

您无需将网站的每个页面都放置在站点地图中。站点地图对于通知搜索引擎有关可进行爬网的页面很有用。如果搜索引擎已经可以看到每个可抓取的页面,并且您没有添加有关“上次修改”的信息,则没有理由拥有一个。
Django Reinhardt 2014年

1
这个答案似乎与webmasters.stackexchange.com/a/5151/30596有冲突。引用@John Mueller(来自Google)Using a Sitemap file won't reduce our normal crawling of your site. It's additional information, not a replacement for crawling. Similarly, not having a URL in a Sitemap file doesn't mean that it won't be indexed.
用户
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.