如何获得所有索引链接的列表?


8

我正在寻找一种方法来获取我已被Google编制索引的每个链接并将其导出到CSV文件。最近,我已经拥有了更多的Google索引页面,而不是我现在拥有的索引。我想查找所有这些页面的来源,而不必查看每个搜索结果页面。


您从哪里获得索引页的数量?
MrWhite 2012年

Google网站管理员和搜索网站:domain.com-

2
我唯一要说的是,网站管理员工具(“运行状况”>“索引状态”>“总索引”)中报告的数据将比site:domain.com搜索报告的数据更为准确。一个站点:根据我的经验,搜索总是返回更高的数字,但是如果您逐步执行SERP,实际结果数将少于“关于NNNN结果”数。
MrWhite 2012年

那页就是我首先对此感兴趣的原因。在3个月内,索引页面的数量已从27,000增加到567,000,我想知道为什么。

Answers:


6

不幸的是,无法获取Google中每个索引页面的完整列表。甚至milo5b的解决方案也最多只能为您提供1000个URL。

听起来您有一些重复的内容问题。在网站站长工具中,检查“运行状况”>“索引状态”,它将显示您随时间而被索引的页面总数。如果图表在某一点上取得了巨大的飞跃,那么您可能可以算出,如果您网站上的特定变化触发了这一飞跃。

您也可以尝试使用Bing的网站站长工具。他们有一个索引浏览器,可以帮助您找到URL。搜索引擎蜘蛛非常相似,因此如果Google找到了这些链接,Bing可能也会这样做。

我以为Bing可以导出大部分数据,但我一眼便找不到。虽然有一个API,所以您可以使用它来提取所有内容。


感谢您对Bing的建议,但他们只有9000页的索引,而且我很确定他们不是我需要的链接。

8

我最终通过搜索site:domain.com/foo/bar/深入研究了有问题的子文件夹,但是在搜索过程中,我确实遇到了一种将搜索结果转换为excel文件的方法。

打开一个Google Docs电子表格,并使用以下公式:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

它只会得到前100个结果,但是您可以再次使用它来获得下一个100。只需更改start变量:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

如DisgruntledGoat先前所述,这最多只能提供1000个结果,但是可以更改公式以提供来自特定子目录的链接:

= importXml(“ www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1”;“ // cite”)


Google文档的绝佳提示。只是想知道与额外索引页面有关的实际问题是-重复的内容吗?
MrWhite 2012年

1
我将其追溯到我们正在使用的论坛软件vBulletin。他们添加了一项称为活动流的新功能,并将其添加到用户部分。因此,每个用户不仅在个人资料上拥有自己活动的页面,而且还拥有他们每个朋友的所有活动。在Google之上,由于vBulletin不会返回404,因此为空白活动页面编制了索引。我最终没有对整个部分进行索引。

importXML仅适用于可通过以下链接激活的旧表格:g.co/oldsheets
i.amniels 2015年

2

您可以编写一个脚本来解析Google的SERP(例如PHP + Curl)并将每个链接存储在CSV文件中。请注意,让脚本表现得像人一样,因为如果您滥用它,Google可能会在几个小时内将其IP禁止显示在搜索结果中。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.