另一个网站正在镜像并且在搜索结果中位于我的网站之上


55

有一个名叫“肮脏”的不良网站,该网站已完全反映了我的网站,现在使用我的内容在Google网站上的链接出现在排名第一的位置。我检查了我的日志文件,发现该站点已经爬行了一段时间,并且从它们的站点到我的站点都有10,000个链接。

我已经阻止了从此站点引来的用户访问,并已将其作为网络垃圾报告给Google。我也拒绝了该域。

他们如何获得谷歌(甚至超越我的)这种邪恶策略的热门链接?完全消除此类问题的步骤是什么?

2014年8月28日更新:

我想我会提供最新信息,因为我现在有更多信息。因此,肮脏使他们的子域指向我的IP,这使他们的子域看起来像我的网站。

几天以来,这没什么大不了,因为使用htaccess,我将所有非我主机的HOSTS重定向回了我的域,这基本上意味着我正在Google上获得其子域的流量链接。几天后,dirty更改了其子域,使其指向其网站,这样我就不再从中受益。

因此,总的来说,他们利用我的内容在Google上获得了最高的排名,现在将这些链接指向他们的网站,以吸引更多访问量。

这是一个肮脏的网站的肮脏策略。我希望Google惩罚这种行为。


3
我编辑掉了您质疑他们动机的部分,因为这是不合时宜的。但否则好问题。
约翰·孔德

1
网站克隆似乎是一个新技巧,目前许多网站被滥用。有消息在海泽(德国)这个话题。除了报告伪造站点之外,通常的解决方案似乎是向爬网程序的IP地址提供特殊内容,因此它们将例如显示指向您的真实站点的链接。
martinstoeckli 2014年

1
鉴于Google对垃圾邮件采取了如此严厉的立场,对未来的另一个担忧是,竞争对手会故意将我的内容发布在信誉不佳的网站上,从而损害我的声誉。或将在我不知情的情况下发布指向我网站的垃圾博客。
万宝路Goodluck 2014年

3
@Jarrod Roberson:并不是真的,有人知道诉讼,但是有多少技术解决方案呢?
machineaddict

1
@JarrodRoberson但这是网站管理员专门面对的一个问题,因此对于本网站来说是非常热门的话题,因为在这里进行询问会得到那些也必须对此进行处理的人的答复。人们似乎还提交了一些法律解决方案和技术解决方案。
2014年

Answers:


45

如果他们只是通过代理脚本提供网站内容或重新定义HTML verbatum镜像您的网站,则可以向页面添加规范的URL。这将使Google知道您的内容是原始来源,并在搜索结果中而不是其内容中显示您的URL。

向Google 提交数字千年版权法案(DMCA)请求。他们使用它们的速度有些慢,但是最终它们会从索引中删除这些页面。

拒绝链接是明智之举。

我不知道阻止用户是否有帮助。也许在他们的页面顶部放置一条消息,让他们知道您是原始网站,而另一个则是欺诈,这可能是一个更好的解决方案。


2
规范URL并不总是有用。反映我网站的脚本也将规范URL更改为也指向假网站。所以这毫无意义。
CaptainCodeman 2014年

28

您可以提出数字千年版权法案(DMCA)投诉,如果您在美国,则可以提起版权民事诉讼。

以下是简短答案的链接,该答案解释了DMCA投诉如何为任何人提供帮助:

您必须在美国提出DMCA投诉吗?

...另一个解释更多...

您必须先复制多少内容才能提出DMCA投诉?

如果您在美国,则可以聘请一位熟悉版权问题的律师,并请他们发送终止和终止函。给他们10天(虽然也可以,但不是工作日,而是实际工作日)以删除内容。您希望捕获有问题的站点的快照以作为证据,也希望捕获您站点的快照。如果检查页面是否已删除,请直接检查该站点而不是搜索结果。

如果未在该时间段内删除该页面,则可以提起联邦民事诉讼,至少需要10,000美元进行辩护,而您几乎不需要花任何钱。您将坐在驾驶员座位上。可能至少需要支付10,000美元甚至更多才能达成和解。您也可以收回成本。重要的是提供一种免费的方法来纠正问题,从而终止并终止信函。此后,您显然可以对被告不承担任何责任。

另一个要注意的是,如果您去法庭,则需要证明损失。搜索流量的损失就是损害。在这里,您将与您的律师合作,收集可说明流量损失的指标,并且您需要将流量的价值货币化。当然,即使转换率为100%,您也可以在此处假设较高的数字。为了以防万一,我将使用现在和将来使用Google Analytics(分析)和您的日志文件分析软件来收集有关流量损失的指标。

请注意,提起诉讼并不困难或非常昂贵,尤其是与您现在和将来遭受的损失相比。版权侵权行为最近一直在下降,但是如今很少有人侵犯版权。我们需要制止这些人,唯一真正的方法是在商业策略中增加成本因素​​,使版权侵权无利可图。


2
您要避开的整个问题是,几乎不可能发现站点背后的人。我的意思是,他们必须是白痴,才能轻松地将网站追溯到实际的个人。
大卫·穆尔德

1
@DavidMulder没有回避。律师可以传唤公司以获取他们所需的信息。即使是一封善意的信也足够。如果未提供信息,则律师可以要求法官出庭,如果没有出庭,则应判处监禁,或提供所要求的信息。在美国,无论是民事还是其他情况,都没有躲过法律的威胁。除某些例外,这在国际上仍然有效。
closetnoc

@closetnoc:公司可能不希望自由提供信息,甚至不愿自由提供信息。不能确定法院会发出传票,还是要追究其管辖权。您可能会发现自己与第三方(甚至可能不知道犯罪者的真实姓名)处于非常昂贵且漫长的法律斗争中。从您的详尽回答来看,您无疑会意识到这些障碍,但是我不得不支持David Mulder:我认为您低估了将站点追溯到个人的难度。
马克·托马斯

@closetnoc:是的,除了托管服务提供商没有正确的信息。付款可能是通过预付信用卡或其他预付卡,被盗信用卡,比特币或其他无法追踪的交易机制完成的。哦,托管服务提供商甚至可能根本不在美国。无论是否喜欢,它都被称为互联网。
David Mulder 2014年

@DavidMulder我很欣赏你在说什么。我从事安全业务,尤其是在研究如何找到坏人方面。您所谈论的主要是中文,俄语或波兰语。仍然存在通过模式等来确定这些人是谁的方法。他们放弃自己。这正是我要做的。你得试试。您不能只是翻身。一位出色的互联网律师了解像我这样的人以及如何获取信息。我只需要一个线程就可以了。但这可能是真正的努力。但这是最坏的情况。
closetnoc

27

您可以跟踪他们的IP,并返回完全不同的内容供他们镜像-随便您如何。这样一来,您就可以腾出空间来刊登广告,并可以利用它们在Google中的优势地位发挥自己的优势。

我曾经用它来简单地向镜像网站上的用户解释这是错误的域。您还可以发布一个简单的HTTP重定向标头。


8
出于某种原因,我实际上觉得这很有趣。+1
Mehrdad 2014年

1
它们可能不会克隆HTTP标头,但您可以向它们发送javascript动画和有趣的Marquee风格的横幅,大喊“这是一个骗局”和不错的旧gif动画:P
Florian Fida 2014年

还可以使用元标记和javascript重定向,这三者之一几乎肯定可以正常工作。在任何情况下,这都不是一个稳定的解决方案,只有在他们找到并开始反对该解决方案之前,它才会起作用。@Mehrdad,我想这很有趣,因为它很hacky :)
Igor R

在我看来,这很有趣,因为攻击者实际上是在通过允许受害者进入(攻击者)游乐场而向自己开放一个漏洞,即使他随时可以阻止它。这使攻击者看起来很愚蠢。
Igor R

他们在Google中的高位置正在取代原始网站的高位置,因此它并不是真正的“免费广告”。
CaptainCodeman 2014年

12

对您来说有点晚了,但最好的保护您(将来)网站的主意是:https : //www.youtube.com/watch?v= I3pNLB3Cq24(defcon 21,按数字防御)伪造返回码,因此用户将看到的内容,但机器人会

  • 扔掉内容
  • 爬行
  • 停止工作

其他可能的想法-确保您的用户看不到以下任何一个:

  • 让他们保存GB的信息(而服务器上只有几个kb)
  • 使机器人通过虚假链接充斥自己的记忆
  • 发送伪造的内容(100%boolsh * t-您需要写东西-例如“奥巴马怀孕”,“蜘蛛侠5-明年夏天”,以便您的盗贼可以托管...)
  • 发送伪造的文件(例如42.zip,如果他们不检查复制的内容,则他们的用户会很开心的-> AV工具将显示有问题->用户将是p * ss * d ...)
  • 让他们等待更多数据(文件大小= 1-10 MB,并以1 Byte / s或更小的速度发送随机cr * p)

其他想法:

  • 受Javascript保护的链接(旧的,不再使用了吗?但是如果它们保持不变,则会将用户发送给您(一段时间))
  • 动态垃圾(使用注释或不可见的项目使机器人下载用户看不到的东西-好的机器人不会为此而掉队)
  • 阻止下载太多/太快/错误方式的IP地址(机器人的行为不像人类1)每个页面上的每个链接2)选择下一个链接的方式存在某种模式或完全混乱)
  • 如果文件不是由服务器托管的,则使用Javascript重定向到服务器(无助于盗窃,但盗贼必须将其删除,否则他们的用户将不会留在他们的页面上-您可以将其编码为不同的例程(例如内容解密) ))

我有自己的代码,仍然需要调整一些阻止蜘蛛的代码。我将研究您的想法,因为我就是那种人!;-)很棒的提示!
closetnoc

4
阻止蜘蛛和机器人的问题是您可能不希望它们全部被阻止。Google的网站非常重要,例如,如果您希望人们能够找到您的网站。(而且,由于Google在缓存中保存了您的网站,因此网络爬虫实际上并不需要抓取您的网站来进行复制)。
2014年

如果您要故意给他们一些替代方法-我更喜欢Igor的回答,使它对您有利(重定向/说错了/托管广告),而不是进行反击。
OJFord 2014年

2

这就是所谓的Google Proxy Hack,它也发生在我身上。

首先要注意的是:

  • 向网络托管服务商提交DMCA投诉。使用此链接可以创建格式正确的投诉,并将其发送给主持人的支持或滥用电子邮件。如果主持人在美国,则必须关闭该站点。即使他们不在美国,他们仍然可以选择撤下该网站。(那件事发生在我身上。)
  • 使用Google DMCA工具请求从其搜索结果中删除镜像的URL。
  • 使用Google的“抓取工具报告”来报告Google的算法失败。

不过从根本上来说,这对Google来说是失败的。尽管他们所说的关于基于“高质量原始内容”进行排名的所有内容,但这都是一个荒谬的简单反例,坦率地说只是令人尴尬。

希望如果有足够的人对此进行投诉,最终Google会采取行动,并编写10行代码来检查网站是否与以前建立的网站完全相同。

另外,请注意,在这种情况下,使用规范的URL并不总是有效。这些代理脚本中的许多脚本都将规范的URL更改为指向镜像站点,从而使它们无用。

最后,请注意,他们可能还会通过垃圾链接向您的主站点发送垃圾邮件,以破坏您的排名。(这也发生在我身上。)

如果您进行一些搜索和创造性思考,则可以通过某些方法进行反击。我真的不认为在此处发布完整列表不是一个好主意,因为这只会使黑客的生活更轻松。


1

就像其他人提到的那样,提起DMCA投诉和版权民事诉讼可能是最好的选择。

对于您发布的新内容,您可以考虑在发布后立即在社交媒体(Twitter,Facebook等)上通知您的网站更新。记录的时间戳可能是您首先编写的一个公平的指示,以防万一您必须证明它。通过Google网站站长工具,您可以强制执行一项设置,以使Googlebot经常抓取您的网站。假设,流行的搜索引擎会定期将您的网页编入索引(使用网站运营商site:example.com来查找),缓存副本中的日期可以用作内容发布时间的粗略指标。

同样,对于发布的新内容,您可以在图像中嵌入水印,并在JS文件中放置注释,以表明您是这些文件的原始所有者。


如果有一个机器人在复制内容,他可以在页面中简单地包含作者信息,因此复制的内容将包含诸如“这是由Foo创建,保留所有权利”之类的内容,这使得情况非常清楚(例如,您可以隐藏(以acrostic语言编写,但作为一个漫游器,它将以纯文本格式运行,并使您的案例更加强大)。
2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.