如果数据不是每日更新的,Google是否会惩罚站点地图中每日更新的<lastmod>标签?


10

我有一个每天生成的站点地图,其中包含指向产品页面的大量链接。这些产品每天都是从另一个数据源导入的。因为更新包括丢弃所有当前产品信息,并用新的导入信息替换它,所以最后修改日期总是跳到一天。站点地图中也使用了此功能。即使对于没有变化的产品。所有产品页面都假装已更新。

Google会假冒网页每天都在变,而假装网页没有变,因此会对网站进行惩罚吗?

我的解决方案是仅在新导入的产品数据与以前的数据不同时才更改条目。我只想确保这是一个有用的升级,同时我也可以花时间进行其他改进。

Answers:


5

由于这个原因,我从未听说过有关罚款的消息。在最坏的情况下,您浪费了蜘蛛的时间,但这就是为什么我们首先拥有计算机的原因:做乏味的重复性工作。不过,理想情况下,您应该解决该问题。

这个...

我的解决方案是仅在新导入的产品数据与以前的数据不同时才更改条目。

...首先是您应该做的事情,而不考虑诸如站点地图之类的外部因素。如果您的内容没有不同(并且我将在该描述中包括删除和替换为相同的信息),那么您的lastmod日期不应该不会被修改。在这里,您正在浪费自己的资源。您没有说涉及多少产品,但是到了一定程度,该过程将变得缓慢且计算昂贵。


我完全同意。但是,我依赖于另一家提供数据的公司。他们总是在数据导出中发送每个产品(+200)。因此,更新批次似乎是几年前最好的解决方案。我的客户没有预算来正确解决此问题。这些进出口在夜间进行,因此目前多余的资源并不是什么大问题。
Elicit 2012年

@Elicit如果您仍然遇到此问题,只需将前一天的数据导出以其原始的可解析格式存储,然后进行git diff样式比较以查看哪些产品已更改。尽管很好,但是您不需要他们仅将更改后的产品发送给您。您应该能够自己弄清楚。
匿名企鹅

3

我从来不喜欢<lastmod>每天更新的想法,因为这不仅是错误的,而且还会误导搜索引擎。

SO的一篇帖子中,Google的Gary Illyes写道:

在情景地图中,lastmod标签是可选的,在大多数情况下,搜索引擎会忽略它,因为网站站长在保持其准确性方面做得很糟糕。

我通常提倡<lastmod>正确使用或完全不使用。保留它(以及<changefreq><priority>),甚至会使文件本身更小,更快,以使搜索引擎也能读取它。


2

不会。Google会lastmod用作提示(与所有站点地图值相同),但是如果它决定您的内容每天都不会更新,那么它将只是忽略它并按自己的时间表重新访问您的页面。


2

我不在Google工作,也无法确定他们实际上在做什么,但是让他们对待时间戳的明智方法<lastmod>是暗示不要浪费时间重新搜寻更改的页面。

因此,如果您报告所有页面每天都在变化,那么Googlebot只会按照感觉的顺序继续爬行所有页面,而不是只关注已更改的页面。实际上,就好像您根本没有报告任何最后的修改时间戳。

提供正确<lastmod>时间戳的主要原因是使对网站的更改更快地显示在Google的索引中。如果您的网站上有数百个页面,则Google可能需要一段时间才能全部抓取它们并找到任何更改。但是,如果您告诉Googlebot最近哪些页面已更改,它可以先对这些页面进行爬网,而避免在其余页面上浪费太多时间。

当然,您可以在网站站长工具中提高Googlebot的抓取速度,并希望取得最好的成绩。但实际上,让您的更新脚本保留时间戳并不难。例如,假设您当前正在执行以下操作:

for each product do:
    write new page content into product page file;
end do;

如果是这样,请将其更改为如下所示:

for each product do:
    read old page content from product page file into string A;
    write new page content into string B;
    if A is not equal to B then:
        write string B into product page file;
    end if;
end do;


1

Google不会为此惩罚您。为了获得罚款,您确实需要在Google的屁股上戴上黑帽子,所以不必担心。Google会尽快发现您的内容是否有更改(这是他们过去几年来一直在做的事情),并使用lastmod属性作为提示。


1

我建议您阅读XML站点地图和RSS / Atom提要的最佳做法

上次修改时间

为XML站点地图和RSS / Atom提要中的每个URL指定最后修改时间。最后修改时间应该是页面内容进行有意义更改的最后时间。如果要在搜索结果中看到更改,则最后修改时间应为更改时间。

XML sitemap uses  <lastmod>
RSS uses <pubDate>
Atom uses <updated>

确保正确设置或更新上次修改时间:

Specify the time in the correct format: W3C Datetime for XML sitemaps, RFC3339 for Atom and RFC822 for RSS.
Only update modification time when the content changed meaningfully.
Don’t set the last modification time to the current time whenever the sitemap or feed is served.

谢谢你的更新。希望下降投票者会看到它并推翻他们的投票。
约翰·孔德
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.