公开可用的社交网络数据集/ API


26

作为我们的大量公共可用数据集的扩展,我想知道是否有任何公共可用社交网络数据集/爬网API列表。如果在链接到数据集/ API的同时添加可用数据的特征,那将非常好。此类信息应为但不限于:

  • 社交网络的名称;
  • 它提供什么样的用户信息(帖子,个人资料,友谊网络等);
  • 是否允许通过API对其内容进行爬网(速率:10 / min,1k / month,...);
  • 是否仅提供整个数据集的快照。

非常欢迎您提出任何建议和其他特征。

Answers:


20

关于社交网络API的几句话。大约一年前,我为研究人员撰写了流行的社交网络API的评论。不幸的是,它是俄语的。总结如下:

推特https://dev.twitter.com/docs/api/1.1

  • 关于推文/文本和用户的几乎所有数据都可用;
  • 缺乏社会人口统计学数据;
  • 出色的流API:用于实时文本处理;
  • 很多用于编程语言的包装器;
  • 获取网络结构(连接)是可能的,但是很费时间(每1分钟1个请求)。

脸书https://developers.facebook.com/docs/reference/api/

  • 速率限制:每秒约1个请求;
  • 有据可查,存在沙箱;
  • FQL(类似SQL)和“常规休息”图谱API;
  • 友情数据和社会人口统计学特征;
  • 许多数据超出了事件范围:只有朋友的和朋友的朋友的数据或多或少是完整的,关于随机用户几乎无法进行任何调查。
  • 一些奇怪的API错误,而且似乎没人在乎(例如,某些功能可以通过FQL使用,但不能通过Graph API同义词使用)。

Instagramhttp://instagram.com/developer/

  • 速率限制:每小时5000个请求;
  • 实时API(类似于Twitter的Streaming API,但带有照片)-与它的连接有些棘手:使用了回调;
  • 缺乏社会人口统计学数据;
  • 照片,过滤可用数据;
  • 出乎意料的缺陷(例如,可能仅收集150条评论以发布/照片)。

Foursquarehttps://developer.foursquare.com/overview/

  • 速率限制:每小时5000个请求;
  • 地理社会数据王国:)
  • 由于隐私问题,研究尚未完成。为了收集签到数据,需要一次构建使用4sq,bit.ly和twitter API的复合解析器。
  • 再次:缺乏社会人口统计学数据。

Google+https://developers.google.com/+/api/latest/

  • 每秒大约5个请求(尝试进行验证);
  • 主要方法:活动与人;
  • 就像在Facebook上一样,很多随机用户的个人数据被隐藏了;
  • 缺少用户连接数据。

竞争激烈:我查看了面向俄罗斯读者的社交网络,排名第一的网络是vk.com。它已翻译成多种语言,但仅在俄罗斯和其他独联体国家/地区流行。API文档链接:http : //vk.com/dev/。从我的角度来看,这是自制社交媒体研究的最佳选择。至少在俄罗斯。这就是为什么:

  • 速率限制:每秒3个请求;
  • 提供公开文本和媒体数据;
  • 可用的社会人口统计数据:随机用户的可用水平约为60-70%;
  • 用户之间的联系也是可用的:随机用户的几乎所有友谊数据都可用;
  • 一些特殊的方法:例如,有一种方法可以实时为确切的用户获取联机/脱机状态,并且可以为其受众建立时间表。

1
太棒了!我实际上期望这样的事情可以分解成许多答案,而您却携带了整个:D,谢谢您的回答。不错的工作!:)
鲁本斯2014年

1
我抛弃了LinkedIn,YouTube,Secret的范围。也许其他区域网络(QQ?)。并很高兴获得有关它们的任何信息。
sobach 2014年


6

可以在斯坦福大学网络分析项目的网站上找到大量可公开获得的社交网络数据集:

SNAP数据集

该站点包含互联网社交网络数据(Facebook,Twitter,Google Plus),学术期刊的引文网络,来自亚马逊的共同购买网络以及其他几种网络。它们具有有向图,无向图和二部图,并且所有数据集都是快照,可以以压缩形式下载。


5

来自德国的一个示例:在一个类似于“ linkedin”的站点上加星号,但仅限于德语国家。

链接到其开发人员中心:https : //dev.xing.com/overview

提供对以下内容的访问:用户配置文件,用户之间的会话(仅限于用户本身),招聘广告,联系人和联系人联系人,来自网络的新闻以及某些地理位置api。

是的,它具有一个api,但是我没有找到有关费率的信息。但是在我看来,某些信息仅限于用户同意。


4

网络存储库(http://networkrepository.com)拥有大量的社交网络,网络图,生物和大脑网络等。最重要的是,它们还具有用于比较/探索各种社交网络的交互式视觉分析工具。


2

可以在此处找到此类链接的一小部分。其中许多是社交图。


非常感谢您发布此参考资料,但我希望这里的答案指向社交网络的公开可用数据集/ API,并且还要描述此类来源提供的内容(帖子的下载率或什么样的信息)关于用户)。就像您的回答一样,我想非常欢迎您进入我们拥有的公开可用数据集的列表。
鲁本斯2014年

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.