数据科学 crawling

公开可用的社交网络数据集/ API

作为我们的大量公共可用数据集的扩展，我想知道是否有任何公共可用社交网络数据集/爬网API列表。如果在链接到数据集/ API的同时添加可用数据的特征，那将非常好。此类信息应为但不限于：社交网络的名称；它提供什么样的用户信息（帖子，个人资料，友谊网络等）；是否允许通过API对其内容进行爬网（速率：10 / min，1k / month，...）；是否仅提供整个数据集的快照。非常欢迎您提出任何建议和其他特征。

26 open-source dataset crawling

LinkedIn网络抓取

我最近发现了一个新的R包，用于连接到LinkedIn API。不幸的是，LinkedIn API似乎很受限制。例如，您只能获取有关公司的基本数据，而这与有关个人的数据是分离的。我想获取有关给定公司的所有员工的数据，您可以在网站上手动进行操作，但无法通过API进行操作。如果import.io能够识别LinkedIn分页，则将是完美的选择（请参阅页面末尾）。有谁知道适用于LinkedIn网站当前格式的任何Web抓取工具或技术，或者如何弯曲API进行更灵活的分析？最好是在R或基于Web的环境中，但当然可以接受其他方法。

11 data-mining social-network-analysis crawling scraping

Questions tagged «crawling»