Answers:
由于这个原因,我从未听说过有关罚款的消息。在最坏的情况下,您浪费了蜘蛛的时间,但这就是为什么我们首先拥有计算机的原因:做乏味的重复性工作。不过,理想情况下,您应该解决该问题。
这个...
我的解决方案是仅在新导入的产品数据与以前的数据不同时才更改条目。
...首先是您应该做的事情,而不考虑诸如站点地图之类的外部因素。如果您的内容没有不同(并且我将在该描述中包括删除和替换为相同的信息),那么您的lastmod
日期不应该不会被修改。在这里,您正在浪费自己的资源。您没有说涉及多少产品,但是到了一定程度,该过程将变得缓慢且计算昂贵。
我不在Google工作,也无法确定他们实际上在做什么,但是让他们对待时间戳的明智方法<lastmod>
是暗示不要浪费时间重新搜寻未更改的页面。
因此,如果您报告所有页面每天都在变化,那么Googlebot只会按照感觉的顺序继续爬行所有页面,而不是只关注已更改的页面。实际上,就好像您根本没有报告任何最后的修改时间戳。
提供正确<lastmod>
时间戳的主要原因是使对网站的更改更快地显示在Google的索引中。如果您的网站上有数百个页面,则Google可能需要一段时间才能全部抓取它们并找到任何更改。但是,如果您告诉Googlebot最近哪些页面已更改,它可以先对这些页面进行爬网,而避免在其余页面上浪费太多时间。
当然,您可以在网站站长工具中提高Googlebot的抓取速度,并希望取得最好的成绩。但实际上,让您的更新脚本保留时间戳并不难。例如,假设您当前正在执行以下操作:
for each product do:
write new page content into product page file;
end do;
如果是这样,请将其更改为如下所示:
for each product do:
read old page content from product page file into string A;
write new page content into string B;
if A is not equal to B then:
write string B into product page file;
end if;
end do;
我建议您阅读XML站点地图和RSS / Atom提要的最佳做法
上次修改时间
为XML站点地图和RSS / Atom提要中的每个URL指定最后修改时间。最后修改时间应该是页面内容进行有意义更改的最后时间。如果要在搜索结果中看到更改,则最后修改时间应为更改时间。
XML sitemap uses <lastmod> RSS uses <pubDate> Atom uses <updated>
确保正确设置或更新上次修改时间:
Specify the time in the correct format: W3C Datetime for XML sitemaps, RFC3339 for Atom and RFC822 for RSS. Only update modification time when the content changed meaningfully. Don’t set the last modification time to the current time whenever the sitemap or feed is served.