Questions tagged «web-scraping»

7
爬网时如何成为好公民?
我将要开发一些功能,这些功能将爬网各种公共网站并处理/聚合它们上的数据。没有什么比寻找电子邮件地址更危险的了-实际上,这实际上可能会为他们的网站带来更多流量。但是我离题了。 除了兑现外robots.txt,我是否应该遵循任何书面或不成文的规则或准则,以便(a)避免表现为恶意并可能被禁止,以及(b)对网站所有者/网站管理员没有任何问题? 我可以想到的一些示例可能无关紧要: 并行请求数 两次请求之间的时间 两次爬网之间的时间 避免潜在的破坏性联系(不想成为“ 末日蜘蛛” -但谁知道这是否实际) 但是,那实际上只是吐痰。有没有经过实践检验的智慧,可以广泛地适用于打算编写或利用蜘蛛的任何人?

4
.NET(C#)中Web爬网的模式和实践
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 4年前关闭。 我将整理一个应用程序以自动化外部网站/应用程序。在某些情况下,我需要像用户那样浏览网站(我需要关注的某些链接无法预测,因此必须从响应中进行解析) 我已经在使用Html Agility Pack了,如果需要的话,我也知道Tidy。 还有其他我应该注意的技术吗? 是否有建议的模式可以在外部Web应用程序发生更改时快速进行调整?我设想将响应的验证封装为某种类型的策略或类似的模式,可以根据需要轻松地将其分离/插入,但是任何特定的建议都很好。
9 c#  .net  html  web-scraping 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.