我非常怀疑帖子或文章的发布日期是基于<lastmod>
XML站点地图中的条目(正如其他人所建议的那样)还是基于Last-Modified HTTP标头。XML Sitemap只是建议性的,不是权威性的。文档的最后修改日期可能与文章的(原始)发布日期不同。而且,正如我在页面顶部我的评论中提到,一个文件的最后修改日期可能是缓存和更重要的也许是确定抓取率。动态生成页面的Last-Modified HTTP标头通常非常接近实际日期/时间(对于WordPress博客而言)。
另一方面,RSS / Atom提要确实包含此特定信息。确实,在内容中不包含发布日期的Wordpress网站上,发布日期仍会出现在Google的搜索结果中。据我所知,这与RSS Feed中的日期匹配。
编辑#1:但是,RSS提要不一定包含所有页面。在大多数情况下,它应仅包含最新或最近更新的页面。但是,没有理由让Google忘记已经阅读的内容,并且只要该页面的内容没有改变,那么最后修改的日期也不会改变。
如果没有RSS供稿,我认为Google足够聪明来分析页面内容。特别是如果在微格式的帮助下“日期”标记了日期。Google将以下内容视为包含在其中的文章的权威发布日期是完全可行的:
<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>
Google当然可以读取微格式 -hCard,hReview等。
只是要补充一点,除非谷歌能够找到暗示这一点的权威性信息,否则我认为它不会说出发布日期。不会在推测性数据上推断出“发布日期”,因为不正确的“发布日期”对任何人都没有用,而Google会为此坚持到底!
仅作记录(如果@Tom表示其他建议:),我认为帖子/文章应具有可见的发布日期。许多人没有,这可能会使读者感到沮丧,尤其是在研究技术问题时,您会发现阅读本文的一半已经过时了!
编辑#2:此后,我经历了@mmdanziger在他的回答中详述的类似烦恼。在我的一个旧站点中,每页的顶部都有 “ Site Last Updated Sun 2012年6月17日”文本(未用任何特殊方式标记)(使用JavaScript写入该页面!)。这同一日期已被谷歌拿起和现在看来,出现在SERP中的几个一起(但不是全部)的页面-这肯定不是网页的发布日期。似乎Google只是在页面上抓取了“最后更新(datestring)” 形式的字符串(已经处理了JavaScript!)。该特定站点没有RSS feed。该站点确实有一个Sitemap.xml文件,但是日期不同。
我在其他网站上也注意到了类似的行为。