程序设计 web-crawler

4

我在大约2个月前第一次在PyPi上放了一个程序包，此后进行了一些版本更新。我在本周注意到下载计数记录，很惊讶地看到它已被下载了数百次。在接下来的几天里，即使这是一个利基统计测试工具箱，我也惊讶地发现每天下载量有时会增加数百。特别是，较旧版本的软件包将继续被下载，有时其下载速率高于最新版本。这里发生了什么？ PyPi的下载计数中是否有错误，还是有大量的抓取抓取开源代码的爬虫（就像我的一样）？

69 python web-crawler pypi

4

使用GOOGLE搜索HTML源代码？

我有几个网站，我不记得我在哪里写了一些代码行。当我的页面被Google索引时，我想知道Google是否提供了一种在HTML源代码/标记本身中进行搜索的功能，而不仅仅是允许在页面的可视化，呈现部分中进行搜索？谢谢

68 search web-crawler search-engine keyword

8

有谁知道我可以使用的基于Python的网络爬虫？

已锁定。该问题及其答案被锁定，因为该问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我很想写自己的书，但是现在我真的没有足够的时间。我已经看过开源爬虫的维基百科列表，但是我更喜欢用Python编写的东西。我意识到我可以只使用Wikipedia页面上的一种工具，然后将其包装在Python中。我可能最终会这样做-如果有人对这些工具有任何建议，我很乐意听到它们的信息。我已经通过其Web界面使用过Heritrix，但发现它很麻烦。我绝对不会为即将到来的项目使用浏览器API。提前致谢。另外，这是我的第一个SO问题！

67 python web-crawler

Questions tagged «web-crawler»