如何判断页面的年龄?


15

我认为Google在确定谁首先发布文本以及谁进行复制方面或多或少准确。但是,当我使用“搜索工具:自定义间隔”时,结果却很奇怪。我已经找到了一个网站,该页面可以追溯到2002年,而我已经拥有了几年时间。

因此,Google无法准确找出谁抄袭了谁以及谁撰写了原件。什么是?

在此处输入图片说明

如果stackexchange.com创建于2009年,那怎么可能?hermeneutics.se比堆栈溢出还旧!


有人在您之前拥有域名吗?您在Google中正在比较的页面是什么?
closetnoc

我用SE数据更新了问题。时间戳记不准确。
雷南2014年

2
哇。我不确定。我通常了解这种机制,但Google所做的仍然是个谜。网上关于Google如何确定日期的信息很少。我们有一个关于Google不久前如何确定修改日期的问题。我做了一些研究,几乎没有。不过,我会再看一次。但是可能要花几天时间。请记住,CMS软件和可能的SE代码不会像Apache的HTML页面那样返回创建和修改日期。这可能就是答案。
closetnoc

不必是Google,但我真的很想知道我的用户是在抄袭还是被抄袭。= /
雷南2014年

到目前为止,看起来Google尚不了解HTML中的日期格式,但这不是结论性的。第一个示例页面的源代码没有向Google提供明确的日期线索。Google(至少)按照以下顺序查找或日期:URL,标题,正文(内容),元标记,HTTP响应中的最后修改日期。HEAD请求返回创建日期和上次修改日期。同样,具有if-modified-since的GET会返回200 Ok的资源,或者返回304 Not Modified的资源。SE代码可能不会返回这些,并且仅URL,标题,内容和元标记可用。
closetnoc

Answers:


12

我以这种方式研究了这个问题的答案:使用Google(因为这是我的示例),Google如何获取创建日期和修改日期以及Google可以识别的日期格式。请理解,仅在几页上就不存在此信息,因此我不得不从很多来源中筛选出数据,其中一些似乎并不直接适用并将它们组合在一起。在某些情况下,信息来自多个来源,并不总是引用。

Google按此顺序查找页面日期;至少就Google Search Appliance而言,URL,标题标签,正文(内容),元标签,HTTP响应标头。在其他文档的其他段落中,没有记录任何命令,但是对该列表进行了讨论,似乎可以确认该列表。如果您考虑一下,这将反映搜索引擎的顺序。一个-发现您的页面(链接),第二-从上至下(标题,正文和元标记)阅读页面,但元标记(小细节)和HTTP响应标头除外。以下是有关该设备的列表:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

注意:开始日期是Google首次请求该页面的日期。在没有创建日期的情况下,使用开始日期。

1]任何搜索引擎都可以通过HTTP GET请求请求资源,并且Web服务器返回响应标头中的最后修改日期以及数据包中的资源。

2]任何搜索引擎都可以通过HTTP HEAD请求来请求资源的标头信息,并且Web服务器将在响应标头中返回修改后的日期,而数据包中没有该资源。

3]任何搜索引擎都可以通过使用HTTP GET请求资源(如果if-modified-since设置为日期)来请求自某个日期以来是否已修改资源。如果自设置日期以来已对资源进行了修改,则Web服务器将以200 Ok响应进行响应并返回资源,或者如果自设置日期以来尚未对资源进行修改,则Web服务器将以304未修改进行响应而不返回资源。 。

Google使用方法3发出许多请求以节省带宽。您将在Web服务器日志文件中看到这些。

注意:内容管理系统(CMS)或其他软件可能无法在响应标头中适当提供日期。

这些日期示例也来自Google设备文档,但在其他与常规搜索有关的地方也存在。我从设备文档中获取了这些详细信息,仅仅是因为可以将其剪切并粘贴为列表,而在其他地方它并不是那么整洁。

4] Google在URL中寻找日期。它寻找以下格式;YYYMMDDHH-YYYY-YYYYMM。

5] Google在标题标签中寻找日期。它寻找以下格式;YYYMMDDHH-YYYY-YYYYMM,尽管我怀疑可以识别其他格式。见下文。

6] Google在body标签(内容)中寻找日期。它寻找以下格式;YYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-YYMMMDD-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY,尽管我怀疑可以识别其他格式。见下文。

注意:众所周知,Google专门寻找第一个H1标签正下方的日期。这是因为博客经常在此位置放置日期。

7] Google寻找这样的中继标记。 <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

据说Google也可以识别以下日期格式。

YYYY-MD-YYYY.MD-YYYY / M / D-MD-YYYY-MDYYYY-M / D / YYYY-YY-MM-DD-YY.MM.DD-YY / MM / DD-WK,D MON,YR -WK,MON D,YR-D MON,YR-MON YYYY-MON D,YR-MON YY-YYYY-DM-YYYY.DM-YYYY / D / M-DM-YYYY-DMYYYY-D / M / YYYY- DD-MM-YY-MM-DD-YY-DD / MM / YY-MM / DD / YY-YYYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY

我发现的研究没有回答时间问题。

在引用的示例的情况下,这些页面不提供日期线索,除了可以忽略的span标记内。SE软件/ Web服务器可能无法在任何响应头中返回创建和修改的日期。

Google为什么以及如何得出这些日期是一个好问题,可能永远无法解决。我将继续寻找。


3
您是否对“ Google以此顺序查找页面日期; URL,标题标签,正文(内容),元标签,HTTP响应标头”有任何参考?您有这项研究的任何数字或统计信息吗?如果您可以发布您在此处发布的内容的参考文献,那么对我们所有人来说都会更好。
PatomaS 2014年

感谢您的询问。我发现的很多东西都是零零碎碎的。在多个位置找到了该列表,但在Google Search Appliance的文档中找到了该顺序,并且似乎在其他位置的段落中对此顺序进行了备份。我从字面上看了几十个文档,这些文档花了很多时间才能找到。我试图谨慎地说,我不得不将来自各种来源的数据汇总在一起,因为似乎没有任何直接的信息。我将编辑该语句以使其更清楚。
closetnoc

我还可以确认article.post > div.post-content > h2 > pGoogle近期在某种程度上包含了以下日期格式字符串,并用于显示日期:“最后更新时间:2018年10月7日”
Matt

-2

如果您想查看域的年代,请在Google上搜索Wayback machine。您正在寻找该网站:http : //archive.org/web/

如果您想检测窃,此链接将为您提供帮助:http : //copyscape.com/signup.php?pro=0&o=f

另外,在Google上搜索“抄袭检查器”。

希望我能帮上忙。


3
尊重您,您需要重新阅读该问题。
closetnoc

问题是“如何知道页面的年龄?” 请点击我的链接,您会看到答案很好。感谢您阅读本文。
Pascut 2014年

3
您没有阅读问题。您正在阅读标题。回程机器无法回答问题。
closetnoc

您是对的,我已经编辑了我的问题
。– Pascut

1
Wayback机器会跟踪域中的页面。比较特定页面之间的日期没有用。我正在寻找准确的方法来告诉谁首先发布。
雷南2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.