网络分析经典数据集


10

有一些用于机器学习分类/回归任务的经典数据集。最受欢迎的是:

但是,有人知道类似的数据集用于网络分析/图论吗?更具体-我正在寻找用于比较/评估/学习的Gold标准数据集:

  1. 集中度措施;
  2. 网络聚类算法。

我不需要大量可公开获得的网络/图表,但是需要几个实际上必须知道的数据集。

编辑:

为“黄金标准数据集”提供确切的功能非常困难,但是这里有一些想法。我认为,真正的经典数据集应满足以下条件:

  • 文章和教科书中有多个参考文献;
  • 包含在著名的网络分析软件包中;
  • 足够的生存时间;
  • 在许多有关图形分析的课程中的用法。

关于我的兴趣领域,我还需要标记顶点的类和/或预先计算(或预定义)的“权限分数”(即中心度估计值)。问完这个问题后,我继续搜索,下面是一些合适的示例:

  • Zachary的空手道俱乐部:成立于1977年,被引用超过1.5k次(根据Google Scholar),顶点具有Faction属性(可用于聚类)。
  • 鄂尔多斯协作网络:不幸的是,我还没有以数据文件的形式找到这个网络,但是它很有名,如果有人用数学家的专业数据丰富网络,它也可以用于测试聚类算法。

1
我认为您可以通过更客观地定义“黄金标准数据集”来改善此问题。是什么使它成为“必须知道”的?是否应该在许多教科书中引用它?用于许多已发布的模型吗?等等,否则答案将是主观的,并且会随着时间的流逝而改变。这里的组合不好。
航空

Answers:


5

您正在寻找的内容可以在KONECT中找到(在我撰写本文时,该网站已关闭,但应该尽快修复!)。它几乎是用于网络分析的最全面的数据收集。但是问题是,使用哪个更标准

好吧,除了扎卡里的空手道俱乐部,没有明确的答案!

如果您对“社区检测”算法进行文献回顾,您会发现几乎所有出色的论文都使用不同的网络。我的建议是研究Andrea Lancichinetti和Santo Fortunato对基准图所做的工作。他们提出了一些基准图生成算法,例如这一算法。

希望能帮助到你 :)


您可以通过Wayback机器找到它,它是您最好的朋友web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/…–
albert,


1

我唯一了解的是Graph数据库的基准数据,例如Neo4j。

您可能会发现与此链接相似的链接:http : //istc-bigdata.org/index.php/benchmarking-graph-databases/

您可以在其中找到数据以测试网络分析和图论。

此外,您可以使用Twitter / Facebook的API来收集自己的数据。如果您找不到所需的数据,这也是一个建议。


谢谢,但这并不是我想要的。请参阅更新以获取更多详细信息。
sobach 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.