如何从Google缓存中删除数千个URL?


13

Google已从我的网站缓存了数千个不应公开的PDF。我已经更新了标题,但是需要删除现有的快速查看缓存。

Google网站管理员工具允许我一个一个地删除它们-但是,鉴于要删除的文件数量,这显然不切实际。

有谁知道我如何从Google缓存中批量删除PDF?理想情况下,我希望有一种方法删除与“ site:mysite.com * .pdf”匹配的所有内容


3
快速的Google搜索表明,无法使用Google API批量删除,您必须将自己的脚本拼凑在一起,以逐个删除链接

Answers:


9

似乎您已经想出了如何请求删除单个URL的方法,但这显然是不可能的。如果文件URL以这种特定方式是可预测的,则该过程的第二步还允许您请求删除整个目录。(如果您有成千上万个PDF,我希望它们至少有一定的组织性。)不幸的是,如果没有,则您几乎没有选择的余地。


2

最近,我有一个黑客,将几千个虚假页面添加到我的网站。

我向Google搜索控制台(以前称为网站站长工具)提交了更正后的站点地图,并将所有链接都转到了410,但是Google仍然对其中的大多数进行了索引。

我使用了WebMaster工具-批量删除网址Chrome扩展程序自动提交了要删除的网址。它基本上是一个脚本,它获取URL列表,然后一次为您提交。全部提交都需要几个小时,但至少您不必自己做。这是有关如何使用它的文章

您可以通过直接从Search Console下载数据来获取google正在建立索引的URL的列表。转到状态>索引覆盖率,然后选择有效结果,然后向下滚动。您会看到Google已为您站点地图中没有的大量URL编制了索引。您可以下载前1000个结果。很显然,有一种round回的方式来获取所有这些信息,不仅是前几千种,而且还涉及来自excel的API调用。我只是在每千个之间等待了几天,因为它们逐渐从索引中消失了。

Google索引覆盖率快照

另一种方法是让WP插件创建站点地图,然后过滤掉PDF或您要定位的任何内容。您可能需要在此处进行一些手动复制/粘贴/删除操作。为了安全起见,我慢慢浏览了大约2700个垃圾邮件URL列表,并删除了合法URL。只花了大约20分钟。

如果您不想永久性地破坏垃圾邮件之类的东西,而是试图混淆高级资源,则应使用其他方法来防止对这些资源建立索引,例如漫游器文件。但是,如果事实证明Google不听话或者您丢了球,至少现在您可以解决问题,并在几天之内将其从索引中删除。

在我的特殊情况下,我想知道为什么Google没有时间机器按钮,撤消或重置。我的想法是,我可以告诉Google该网站是在几天前被黑客入侵的,但我们已经对其进行了修复,因此请撤消过去x天的爬网和索引编制工作。但这太容易了。


1

如果文件“不应该公开”,那么它们应该在公共互联网上。您可以从Google列表中删除文件(通过robots.txt和其他方法),但是如果文件仍然存在,那么任何人都仍然可以下载它们。

您应该使它们保持某种身份验证。例如,将文件移出公共Web目录,并从一个脚本检查它们的服务,该脚本首先检查用户是否有效。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.