如何获得所有索引链接的列表？

8

我正在寻找一种方法来获取我已被Google编制索引的每个链接并将其导出到CSV文件。最近，我已经拥有了更多的Google索引页面，而不是我现在拥有的索引。我想查找所有这些页面的来源，而不必查看每个搜索结果页面。

seo google search-results

— 背风处
source

您从哪里获得索引页的数量？

— MrWhite 2012年

Google网站管理员和搜索网站：domain.com-

— 李

2

我唯一要说的是，网站管理员工具（“运行状况”>“索引状态”>“总索引”）中报告的数据将比site：domain.com搜索报告的数据更为准确。一个站点：根据我的经验，搜索总是返回更高的数字，但是如果您逐步执行SERP，实际结果数将少于“关于NNNN结果”数。

— MrWhite 2012年

那页就是我首先对此感兴趣的原因。在3个月内，索引页面的数量已从27,000增加到567,000，我想知道为什么。

— 李

6

不幸的是，无法获取Google中每个索引页面的完整列表。甚至milo5b的解决方案也最多只能为您提供1000个URL。

听起来您有一些重复的内容问题。在网站站长工具中，检查“运行状况”>“索引状态”，它将显示您随时间而被索引的页面总数。如果图表在某一点上取得了巨大的飞跃，那么您可能可以算出，如果您网站上的特定变化触发了这一飞跃。

您也可以尝试使用Bing的网站站长工具。他们有一个索引浏览器，可以帮助您找到URL。搜索引擎蜘蛛非常相似，因此如果Google找到了这些链接，Bing可能也会这样做。

我以为Bing可以导出大部分数据，但我一眼便找不到。虽然有一个API，所以您可以使用它来提取所有内容。

— 心怀不满的山羊
source

感谢您对Bing的建议，但他们只有9000页的索引，而且我很确定他们不是我需要的链接。

— 李

8

我最终通过搜索site：domain.com/foo/bar/深入研究了有问题的子文件夹，但是在搜索过程中，我确实遇到了一种将搜索结果转换为excel文件的方法。

打开一个Google Docs电子表格，并使用以下公式：

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

它只会得到前100个结果，但是您可以再次使用它来获得下一个100。只需更改start变量：

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

如DisgruntledGoat先前所述，这最多只能提供1000个结果，但是可以更改公式以提供来自特定子目录的链接：

= importXml（“ www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1”;“ // cite”）

— 背风处
source

Google文档的绝佳提示。只是想知道与额外索引页面有关的实际问题是-重复的内容吗？

— MrWhite 2012年

1

我将其追溯到我们正在使用的论坛软件vBulletin。他们添加了一项称为活动流的新功能，并将其添加到用户部分。因此，每个用户不仅在个人资料上拥有自己活动的页面，而且还拥有他们每个朋友的所有活动。在Google之上，由于vBulletin不会返回404，因此为空白活动页面编制了索引。我最终没有对整个部分进行索引。

— 李

importXML仅适用于可通过以下链接激活的旧表格：g.co/oldsheets

— i.amniels 2015年

2

您可以编写一个脚本来解析Google的SERP（例如PHP + Curl）并将每个链接存储在CSV文件中。请注意，让脚本表现得像人一样，因为如果您滥用它，Google可能会在几个小时内将其IP禁止显示在搜索结果中。

— milo5b
source