我正在寻找一种方法来获取我已被Google编制索引的每个链接并将其导出到CSV文件。最近,我已经拥有了更多的Google索引页面,而不是我现在拥有的索引。我想查找所有这些页面的来源,而不必查看每个搜索结果页面。
我正在寻找一种方法来获取我已被Google编制索引的每个链接并将其导出到CSV文件。最近,我已经拥有了更多的Google索引页面,而不是我现在拥有的索引。我想查找所有这些页面的来源,而不必查看每个搜索结果页面。
Answers:
不幸的是,无法获取Google中每个索引页面的完整列表。甚至milo5b的解决方案也最多只能为您提供1000个URL。
听起来您有一些重复的内容问题。在网站站长工具中,检查“运行状况”>“索引状态”,它将显示您随时间而被索引的页面总数。如果图表在某一点上取得了巨大的飞跃,那么您可能可以算出,如果您网站上的特定变化触发了这一飞跃。
您也可以尝试使用Bing的网站站长工具。他们有一个索引浏览器,可以帮助您找到URL。搜索引擎蜘蛛非常相似,因此如果Google找到了这些链接,Bing可能也会这样做。
我以为Bing可以导出大部分数据,但我一眼便找不到。虽然有一个API,所以您可以使用它来提取所有内容。
我最终通过搜索site:domain.com/foo/bar/深入研究了有问题的子文件夹,但是在搜索过程中,我确实遇到了一种将搜索结果转换为excel文件的方法。
打开一个Google Docs电子表格,并使用以下公式:
=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")
它只会得到前100个结果,但是您可以再次使用它来获得下一个100。只需更改start变量:
=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")
如DisgruntledGoat先前所述,这最多只能提供1000个结果,但是可以更改公式以提供来自特定子目录的链接:
= importXml(“ www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1”;“ // cite”)