好的。这将是我将逐步完成该过程以使其变得更加清晰的情况之一。它会有点长,但希望不会很痛苦。
让我们从头开始吧?
从我们对Google如何运作的最初了解基于Brin和Page于1997年发表的研究论文开始,我们了解了一些事情,这些事情很可能在今天仍在发挥作用。
Google在其索引和提取队列中包含一个URL,并提取页面。该页面的代码存储在其数据库中,用于各种形式的处理。流程之一是查找新链接。Google找到的任何链接(如果存在)将首先位于链接索引中。如果不是,则将链接添加到链接表并添加到获取队列。
链接表中的任何链接都至少具有以下元素:链接URL,源URL和链接文本。可能还有其他数据元素,但是这些没有推动讨论。添加到链接表的任何链接均具有已验证的源URL,但不一定是目标URL。以关系数据库为例,源URL和目标URL可以是URL表中的URL ID,而联接表将使用ID将链接表的源URL和目标URL元素联接回URL表。困惑?不用了
对于未提取目标页面的任何情况,链接表中的链接都称为悬挂链接。提取页面后,链接表中的链接就完成了。如果目标页面不存在,则链接表中的链接是断开的链接。简单?
只有完整的链接才能传递价值。PageRank算法需要完整的链接才能计算值。所有悬空和断开的链接都会停止使用该链接的任何计算。以前,PR是一个递归过程,它将反复使用链接表来计算链接值,直到可以调整为任何链接的值落入一个很小的数值以至于不会产生任何效果的数值。我敢肯定,这仍然是房屋整理过程。但是,今天的PR是使用类似于网络中跃点的另一种方法来计算的,该方法比较重要地测量了从一页到另一页的距离。它基于信任网络模型,这是原始PageRank模型被设计为模仿的方式。链接是从一个实体到另一个实体的信任投票。虽然比这更复杂,你明白了。它可以使用更实时的计算来有效地执行与递归过程相同的操作,尽管精度可能较低,但足够可靠。这需要完整的链接,因为如果未建立信任关系,则不能传递信任值(使用信任网络模型)。请记住,链接是信任投票或信任网络模型中的链接。PageRank在信任网络中表示为信任值。
现在您已经了解了链接及其重要性,让我们继续。
对于搜索引擎,删除任何URL没有任何意义。如果URL表中不存在URL,那么您将不知道有关该URL的任何信息,并且将一无所获。通常,除非有意义(例如,URL不再存在),否则可能不会删除URL。但是,当页面设置为NOINDEX时,则明确指示搜索引擎不要对该页面编制索引。由于索引中的网页由URL和HTML源代码两部分组成,因此NOINDEX此时将有效地删除该页面。到NOINDEX页面的链接至少是悬空的。
现在您知道索引页的外观,让我们继续。
搜索引擎可以用多种方式惩罚网页或网站。一种是退市。这是所有处罚中最严厉的,需要很长时间才能恢复。您可以证明这一惩罚类别,因为该页面不会也无法找到。同样,Google Search Console还将以某种方式告知您页面已被除名。在其余的罚款中,这些罚款适用于SERP过滤器。
当执行搜索查询时,实际上一次有几个针对索引的查询,然后根据一部分算法将其混合到结果集中。剩下的算法(我们通常称为单个实体)是一系列相对简单的SERP算法。其主要算法将根据更多实时指标(例如趋势)对结果集进行重新排序。在这些算法中,从结果集中删除条目或严重降低条目在结果集中的位置的算法称为过滤器。应用的是处理DMCA的过滤器,例如...we have removed 1 result(s) from this page...
因此,既然您知道如何应用罚款,是否已连接链接,PR和DMCA过滤器?
有了这个,我们知道已经应用了一个过滤器,但是,这与链接索引无关,后者是PageRank的计算方式。它已尽可能远离链接/ PR流程。链接和PR在索引过程的开始,而删除DMCA罚分页在查询过程的末尾。实际上,这是两个完全独立的引擎。因此,尽管某个页面可能由于DMCA投诉而被删除,但实际上并没有从索引中删除该页面,因此仍会计算出该页面的链接。
像泥一样清澈?我希望我能解释得很好。请让我知道是否可以为您澄清。
[更新]
不适用于OP的情况的例外。
@StephenOstermiller提出了一个不错的观点,但并不破坏上述观点,不过,我想补充一下以确保完整性。
众所周知,在搜索中为网站或页面评分需要很多因素。尽管这不像您想象的那么技术性或神秘性,但仍然需要权衡很多因素。我忘记了信任分数的影响,主要是因为它不适用于OP。所以我在这里添加它。
显然,有些网站是垃圾网站之类的,但没有任何根据。在网站的这种分类中,有一些网站是惯常滥用版权内容的网站。多年前,这是一个巨大的问题,内容刮板将通过您的辛勤工作来建立网站。长期以来,什么都没做。具有原始内容的网站会相当一致地输给抓取网站。我应该知道。我有两个PR 8站点,因为刮板站点根本没有任何资源,几乎失去了所有流量。
但是情况已经改变。自从发生重大变化以来,大约只有四年的时间。
对于这些特殊的网站分类,可以显着降低网站的信任度。这是众所周知的。重建信任分数需要花费数年,对于某些站点,这可能永远不会发生。例如,为什么您认为域获利者如此愿意彻底破坏一个站点,而成千上万的站点正等待同样的滥用呢?这是因为现实是,某个域可能会破坏其价值,而无法救赎。
建立信任有许多因素。我不会在这里讨论。但是,您一定要知道,信任是任何站点构建等级的主要组成部分。
也就是说,对于任何严重违反DMCA且拥有相当丰富记录的网站,其信任度都会受到严重影响。这不是OP所描述的方案。但是,这是我在这里假设的情况。
链接和建立PageRank具有多个组件。一种是页面本身的PageRank(权限)。对于高度权威的页面,有权限上限。PR 8页面在该页面上的链接之间不会共享8的值。这是旨在将更自然的曲线放入PR的原始PageRank算法的一部分。否则,即使经过很长时间,新页面也几乎不可能与具有较高权限的页面竞争。链接本身的值使用多种因素评分,包括链接文本的语义值,链接URL,链接的位置(突出),包含链接的内容块的语义值(如果适用)等。所有链接得分从0到0.9。权限和链接分数的计算是任何链接传递的值。
好,好。那么,这对严重违反DMCA的网站有何影响?
入站链接的值不一定受目标站点的信任度影响,因为链接值来自源站点。但是,任何出站链接都可以。任何严重滥用DMCA的网站的权限都将受到信任评分的影响。毕竟,权威来自信任。因此,以这种方式,入站链接的值将不会通过出站链接,而不会根据信任分数而降低。
这在某种程度上改变了答案。
尽管这不适用于OP的情况,但是在某些情况下,入站链接值没有完全违反DMCA的原则通过站点传递。但是,这是一个困难的情况,因此在此之前的阈值很重要。