Questions tagged «web-crawler»

Web爬网程序(也称为Web爬虫)是一种计算机程序,可以有条不紊,自动地或有序地浏览万维网。Web爬网程序的其他术语是蚂蚁,自动索引器,机器人,Web蜘蛛,Web机器人,或者(尤其是在FOAF社区中)Web Scutter。

4
PyPi下载数量似乎不现实
我在大约2个月前第一次在PyPi上放了一个程序包,此后进行了一些版本更新。我在本周注意到下载计数记录,很惊讶地看到它已被下载了数百次。在接下来的几天里,即使这是一个利基统计测试工具箱,我也惊讶地发现每天下载量有时会增加数百。特别是,较旧版本的软件包将继续被下载,有时其下载速率高于最新版本。 这里发生了什么? PyPi的下载计数中是否有错误,还是有大量的抓取抓取开源代码的爬虫(就像我的一样)?

4
使用GOOGLE搜索HTML源代码?
我有几个网站,我不记得我在哪里写了一些代码行。当我的页面被Google索引时,我想知道Google是否提供了一种在HTML源代码/标记本身中进行搜索的功能,而不仅仅是允许在页面的可视化,呈现部分中进行搜索? 谢谢

8
有谁知道我可以使用的基于Python的网络爬虫?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我很想写自己的书,但是现在我真的没有足够的时间。我已经看过开源爬虫的维基百科列表,但是我更喜欢用Python编写的东西。我意识到我可以只使用Wikipedia页面上的一种工具,然后将其包装在Python中。我可能最终会这样做-如果有人对这些工具有任何建议,我很乐意听到它们的信息。我已经通过其Web界面使用过Heritrix,但发现它很麻烦。我绝对不会为即将到来的项目使用浏览器API。 提前致谢。另外,这是我的第一个SO问题!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.