Questions tagged «web-crawlers»

一种出于各种目的访问网页的计算机程序(以抓取内容,向搜索引擎提供有关您的站点的信息等)。

1
百度为何疯狂抓取我的网站
当我查看apache日志时,可以看到百度在过去2周中每天爬行10次。 我并不是很在乎它,但我真的很好奇他为什么要这么做。这是一个非常小的单页网站,没有太多的传入链接。 这背后有什么原因吗? 220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 180.76.5.197 [10/Mar/2012:11:02:02 +0100] "GET / ...robots.txt +(+http://www.baidu.com/search/spider.htm)" 123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 220.181.108.167 [10/Mar/2012:11:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 123.125.71.116 [10/Mar/2012:12:24:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 220.181.108.172 [10/Mar/2012:12:25:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 123.125.71.111 [10/Mar/2012:13:33:22 +0100] "GET / …

4
可抓取的Ajax的状态?
我看到Google通过#提出了一个使Ajax应用程序可爬网的好建议/标准!(哈希爆炸)。 http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html 我的问题是: 他们目前是否已在现实世界中使用此“建议”? 是否还有其他搜索引擎-特别是Bing,也正在使用或计划使用它?

4
Google不会抓取CDN文件
我注意到Google网站站长工具报告了我网站上很多被阻止的资源。现在,所有“被阻止的资源”都是我从Cloudfront CDN提供的.css,.js和图像(.jpg,.png)。 我花了很多时间进行测试,并试图找出Google为什么不抓取这些文件并报告“资源阻止”状态的原因。 目前,我从多个主机名提供这些文件,例如:cdn1.example.com,cdn2.example.com,... cdn1,cdn2和其他名称是CCloud的Cloudfront发行名称。 测试:我尝试直接使用cloudfront发行版(无CNAME),但问题仍然存在。 目前,我的robots.txt如下所示: # Google AdSense User-agent: Mediapartners-Google Disallow: #Google images User-agent: Googlebot-Image Disallow: / User-agent: * Disallow: /homepage Disallow: /index.php* Disallow: /uncategorized* Disallow: /tag/* Disallow: *feed Disallow: */page/* Disallow: *author* Disallow: *archive* Disallow: */category* Disallow: *tag=* Disallow: /test* Allow: / 以及在一个示例页面中阻止的文件示例: cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/response .css cdn5.example.com/wp-content/themes/magazine/images/nobg.png …

2
哪些机器人真正值得进入网站?
编写了许多机器人程序,并看到大量随机机器人程序在爬网时,我想知道作为网站管理员,究竟有什么机器人程序值得让您进入网站? 我首先想到的是,允许漫游器进入该网站可能会带来实际流量。有什么理由允许未知的机器人将真实流量发送到站点,您如何发现这些“好”机器人?

2
Google网站管理员工具告诉我,机器人阻止了对站点地图的访问
这是我的robots.txt: User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz 但是Google网站站长工具告诉我,机器人阻止了对站点地图的访问: 尝试访问您的站点地图时遇到错误。请确保您的站点地图符合我们的指南,并且可以在您提供的位置进行访问,然后重新提交:URL受robots.txt限制。 我了解到Google网站站长工具会缓存robots.txt,但该文件已更新36个小时以上。 更新: 点击“测试”站点地图不会导致Google获取新的站点地图。只有SUBMIT网站地图可以做到这一点。(顺便说一句,除非您将当前站点地图粘贴到其中,否则我看不出“测试站点地图”的意义是什么-它不会从测试前要求您输入的地址中提取站点地图的新副本-但这是换个问题。) 提交(而非测试)新的站点地图后,情况发生了变化。现在,我得到“ URL被robots.txt阻止。站点地图包含被robots.txt阻止的URL 。” 适用于44个网址。该站点地图中恰好有44个URL。这意味着Google使用的是新的站点地图,但仍旧沿用旧的机器人规则(这使所有内容都无法进入)。44个URL都不在/wp-admin/或/wp-includes/(这是不可能的,因为robots.txt是基于由创建站点地图的相同插件即时获取)。 更新2: 情况变得更糟:在Google搜索结果页上,首页的描述为:“由于该网站的robots.txt –了解更多,因此无法提供此结果的描述”。所有其他页面都有详细的说明。没有robots.txt或首页的robots元拦截索引。 我被卡住了。

4
Adsense Click机器人正在点击轰炸我的网站
我有一个网站,目前每天可获得大约7,000-10,000次页面浏览。从12年7月1日凌晨1点开始,我注意到点击率急剧上升。这些点击将被记入贷方,然后不久被撤消。因此,它们显然是欺诈性点击。第二天,我获得了大约200次点击,其中大约100次被欺诈。每天24小时,三个广告中的每个广告平均每小时分散3-8次点击。这使我相信这是一种Adsense Click机器人。另外,我昨晚删除了广告,然后将其放到凌晨3点左右,无效点击在10分钟内开始。 我注册了statcounter.com来分析Adsense上的退出链接。然后,我有条件地屏蔽了我怀疑这样做的人员/机器人的IP地址的广告。但是,我认为该机器人可以选择几个代理,并且可以刷新IP地址。 在过去两天中,我已经通过无效点击表单 /电子邮件通知Google 4次,以便让他们知道我已经知道这种情况,并且正在研究解决方案。我也暂时删除了该网站上的所有广告。 如何阻止这样的机器人?谢谢。

6
从观看次数中排除漫游器的最佳方法是什么?
我的网站在某些页面上统计访问者的浏览量。我注意到Google和其他Bot疯狂地“点击”了我的网站,并且某些页面的观看次数不切实际(与人工制作的相比)。 我正在寻求最佳做法,以将这些漫游器排除在我的视野之外。显然,包含“机器人”的简单“用户代理”是不会做的。 我认为没有解决方案,也不需要。 注意:我使用的是PHP + MySQL。

1
在robots.txt中合并用户代理
可以将用户代理一起列出,然后在robots.txt中列出其通用规则吗? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

1
Googlebot向我们的地图定位器提交了数千个请求,并用尽了API配额
我们在客户的站点上有一个商店定位器页面。最终用户输入他们的邮政编码和搜索半径,然后我们将结果显示在Google地图上。 最近,我们开始注意到该网站已达到免费地图搜索的上限(每24小时大约25,000个),而总体流量却没有明显增加。我打开了一些其他日志记录以尝试查找问题所在。 事实证明,Googlebot正在此地图上进行数千次搜索。这是一个小样本: 2017-07-09 23:56:22,719 [7] INFO ShopLanding-[Thread 41] Google Maps:搜索到的G23收到来自66.249.66.221的确定 2017-07-09 23:56:35,469 [7]信息ShopLanding-[线程10] Google地图:搜索到的CA6从66.249.66.221接收到确定 2017-07-09 23:57:24,563 [7]信息ShopLanding-[线程48]谷歌地图:搜索到的BN14收到来自66.249.66.223的确定 2017-07-09 23:58:00,970 [7]信息ShopLanding-[Thread 42] Google Maps:搜索到的CB4收到来自66.249.66.221的确定 2017-07-09 23:58:13,064 [7]信息ShopLanding-[Thread 54] Google Maps:搜索的DY9从66.249.66.221接收到确定 2017-07-09 23:59:18,722 [7]信息ShopLanding-[线程59]谷歌地图:搜索到的TS3从66.249.66.223收到确定 2017-07-09 23:59:53,223 [7]信息ShopLanding-[Thread 49] Google Maps:搜索到的S45从66.249.66.221接收到确定 有什么办法可以阻止Google推送这么多请求?这吞噬了免费津贴的很大一部分。每天的合法搜索量似乎不足200。 编辑 该站点基于C#ASP.NET构建。商店搜索使用的是POST,提交后该URL不会更改。我可以在明天早上发布IIS日志样本,以确认此行为。

1
robots.txt中的“ Noindex:”如何工作?
我今天在我的SEO新闻中浏览了这篇文章。似乎暗示您Noindex:除了robots.txt中的标准Disallow:指令外,还可以使用指令。 Disallow: /page-one.html Noindex: /page-two.html 似乎这样做会阻止搜索引擎抓取第一页,并阻止它们索引第二页。 这是robots.txt的谷歌和其他搜索引擎所支持的指令?它行得通吗?有文件记录吗?

2
仅允许Google和Bing机器人抓取网站
我正在为网站使用以下robots.txt文件:目标是允许googlebot和bingbot访问除页面之外的网站,/bedven/bedrijf/*并阻止所有其他bot爬行该网站。 User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * Disallow: / 最后一条规则是否User-agent: * Disallow: /禁止所有漫游器抓取网站上的每个页面?

2
用户代理中URL前面的加号
我运行了一个小型Web搜寻器,必须决定要使用哪个用户代理。 搜寻器代理以及Wikipedia的列表建议采用以下格式: examplebot/1.2 (+http://www.example.com/bot.html) 但是,某些漫游器会省略URL前面的加号。我首先想知道这是什么意思,但找不到任何解释。 RFC 2616认为括号中的所有内容均为注释,并且不限制其格式。但是,对于浏览器来说,在注释中使用分号分隔的标记列表是很常见的,这些标记可以宣传浏览器的版本和功能。除了大多数浏览器以类似的方式格式化外,我认为这没有任何标准化的方法。而且我在评论中找不到任何有关URL的信息。 我的问题是:为什么加号?我需要吗?

1
Google如何抓取我的403页?
我的学校文件夹中的目录中有几个私人文件。您可以通过转到myschool.edu/myusername/myfolder来查看文件是否存在,但是尝试通过myschool.edu/myusername/myfolder/myfile.html访问文件本身会返回403错误。 但是Google以某种方式设法获取了这些私有文件的内容,并将其存储在其缓存中!这怎么可能?[此后我已经删除了这些文件,所以我很好奇Google如何做到这一点。]

6
如何正确(禁止)使用archive.org机器人?事情变了吗?
我有一个网站,我通常不希望被搜索引擎索引,但我希望将其永久保存在archive.org上。所以我robots.txt从这里开始: User-agent: * Disallow: / 今天,根据archive.org,我必须在其中添加以下内容robots.txt以允许其漫游器: User-agent: ia_archiver Disallow: 但是,至少在几年前,我已经完成了他们的指示,至少添加了以下内容: User-agent: archive.org_bot Disallow: 然后还有另一个消息来源声称您必须在Disallows上加上两个,再加上一个: User-agent: ia_archiver-web.archive.org Disallow: 请注意,Disallow: /如果您不希望漫游器存档您的网站,则需要输入。 IA bot发生了变化吗?如果是这样,什么时候? 推荐的方法是什么?我现在是否应该允许所有这三个名称,并希望IA将来不再更改其机器人名称?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.