Questions tagged «crawling»

7
公开可用的社交网络数据集/ API
作为我们的大量公共可用数据集的扩展,我想知道是否有任何公共可用社交网络数据集/爬网API列表。如果在链接到数据集/ API的同时添加可用数据的特征,那将非常好。此类信息应为但不限于: 社交网络的名称; 它提供什么样的用户信息(帖子,个人资料,友谊网络等); 是否允许通过API对其内容进行爬网(速率:10 / min,1k / month,...); 是否仅提供整个数据集的快照。 非常欢迎您提出任何建议和其他特征。

7
LinkedIn网络抓取
我最近发现了一个新的R包,用于连接到LinkedIn API。不幸的是,LinkedIn API似乎很受限制。例如,您只能获取有关公司的基本数据,而这与有关个人的数据是分离的。我想获取有关给定公司的所有员工的数据,您可以在网站上手动进行操作,但无法通过API进行操作。 如果import.io能够识别LinkedIn分页,则将是完美的选择(请参阅页面末尾)。 有谁知道适用于LinkedIn网站当前格式的任何Web抓取工具或技术,或者如何弯曲API进行更灵活的分析?最好是在R或基于Web的环境中,但当然可以接受其他方法。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.