我认为Google在确定谁首先发布文本以及谁进行复制方面或多或少准确。但是,当我使用“搜索工具:自定义间隔”时,结果却很奇怪。我已经找到了一个网站,该页面可以追溯到2002年,而我已经拥有了几年时间。
因此,Google无法准确找出谁抄袭了谁以及谁撰写了原件。什么是?
如果stackexchange.com
创建于2009年,那怎么可能?hermeneutics.se
比堆栈溢出还旧!
我认为Google在确定谁首先发布文本以及谁进行复制方面或多或少准确。但是,当我使用“搜索工具:自定义间隔”时,结果却很奇怪。我已经找到了一个网站,该页面可以追溯到2002年,而我已经拥有了几年时间。
因此,Google无法准确找出谁抄袭了谁以及谁撰写了原件。什么是?
如果stackexchange.com
创建于2009年,那怎么可能?hermeneutics.se
比堆栈溢出还旧!
Answers:
我以这种方式研究了这个问题的答案:使用Google(因为这是我的示例),Google如何获取创建日期和修改日期以及Google可以识别的日期格式。请理解,仅在几页上就不存在此信息,因此我不得不从很多来源中筛选出数据,其中一些似乎并不直接适用并将它们组合在一起。在某些情况下,信息来自多个来源,并不总是引用。
Google按此顺序查找页面日期;至少就Google Search Appliance而言,URL,标题标签,正文(内容),元标签,HTTP响应标头。在其他文档的其他段落中,没有记录任何命令,但是对该列表进行了讨论,似乎可以确认该列表。如果您考虑一下,这将反映搜索引擎的顺序。一个-发现您的页面(链接),第二-从上至下(标题,正文和元标记)阅读页面,但元标记(小细节)和HTTP响应标头除外。以下是有关该设备的列表:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
注意:开始日期是Google首次请求该页面的日期。在没有创建日期的情况下,使用开始日期。
1]任何搜索引擎都可以通过HTTP GET请求请求资源,并且Web服务器返回响应标头中的最后修改日期以及数据包中的资源。
2]任何搜索引擎都可以通过HTTP HEAD请求来请求资源的标头信息,并且Web服务器将在响应标头中返回修改后的日期,而数据包中没有该资源。
3]任何搜索引擎都可以通过使用HTTP GET请求资源(如果if-modified-since设置为日期)来请求自某个日期以来是否已修改资源。如果自设置日期以来已对资源进行了修改,则Web服务器将以200 Ok响应进行响应并返回资源,或者如果自设置日期以来尚未对资源进行修改,则Web服务器将以304未修改进行响应而不返回资源。 。
Google使用方法3发出许多请求以节省带宽。您将在Web服务器日志文件中看到这些。
注意:内容管理系统(CMS)或其他软件可能无法在响应标头中适当提供日期。
这些日期示例也来自Google设备文档,但在其他与常规搜索有关的地方也存在。我从设备文档中获取了这些详细信息,仅仅是因为可以将其剪切并粘贴为列表,而在其他地方它并不是那么整洁。
4] Google在URL中寻找日期。它寻找以下格式;YYYMMDDHH-YYYY-YYYYMM。
5] Google在标题标签中寻找日期。它寻找以下格式;YYYMMDDHH-YYYY-YYYYMM,尽管我怀疑可以识别其他格式。见下文。
6] Google在body标签(内容)中寻找日期。它寻找以下格式;YYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-YYMMMDD-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY,尽管我怀疑可以识别其他格式。见下文。
注意:众所周知,Google专门寻找第一个H1
标签正下方的日期。这是因为博客经常在此位置放置日期。
7] Google寻找这样的中继标记。 <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
据说Google也可以识别以下日期格式。
YYYY-MD-YYYY.MD-YYYY / M / D-MD-YYYY-MDYYYY-M / D / YYYY-YY-MM-DD-YY.MM.DD-YY / MM / DD-WK,D MON,YR -WK,MON D,YR-D MON,YR-MON YYYY-MON D,YR-MON YY-YYYY-DM-YYYY.DM-YYYY / D / M-DM-YYYY-DMYYYY-D / M / YYYY- DD-MM-YY-MM-DD-YY-DD / MM / YY-MM / DD / YY-YYYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY
我发现的研究没有回答时间问题。
在引用的示例的情况下,这些页面不提供日期线索,除了可以忽略的span标记内。SE软件/ Web服务器可能无法在任何响应头中返回创建和修改的日期。
Google为什么以及如何得出这些日期是一个好问题,可能永远无法解决。我将继续寻找。
article.post > div.post-content > h2 > p
Google近期在某种程度上包含了以下日期格式字符串,并用于显示日期:“最后更新时间:2018年10月7日”
如果您想查看域的年代,请在Google上搜索Wayback machine。您正在寻找该网站:http : //archive.org/web/。
如果您想检测窃,此链接将为您提供帮助:http : //copyscape.com/signup.php?pro=0&o=f
另外,在Google上搜索“抄袭检查器”。
希望我能帮上忙。