有一些用于机器学习分类/回归任务的经典数据集。最受欢迎的是:
但是,有人知道类似的数据集用于网络分析/图论吗?更具体-我正在寻找用于比较/评估/学习的Gold标准数据集:
- 集中度措施;
- 网络聚类算法。
我不需要大量可公开获得的网络/图表,但是需要几个实际上必须知道的数据集。
编辑:
为“黄金标准数据集”提供确切的功能非常困难,但是这里有一些想法。我认为,真正的经典数据集应满足以下条件:
- 文章和教科书中有多个参考文献;
- 包含在著名的网络分析软件包中;
- 足够的生存时间;
- 在许多有关图形分析的课程中的用法。
关于我的兴趣领域,我还需要标记顶点的类和/或预先计算(或预定义)的“权限分数”(即中心度估计值)。问完这个问题后,我继续搜索,下面是一些合适的示例:
- Zachary的空手道俱乐部:成立于1977年,被引用超过1.5k次(根据Google Scholar),顶点具有Faction属性(可用于聚类)。
- 鄂尔多斯协作网络:不幸的是,我还没有以数据文件的形式找到这个网络,但是它很有名,如果有人用数学家的专业数据丰富网络,它也可以用于测试聚类算法。
1
我认为您可以通过更客观地定义“黄金标准数据集”来改善此问题。是什么使它成为“必须知道”的?是否应该在许多教科书中引用它?用于许多已发布的模型吗?等等,否则答案将是主观的,并且会随着时间的流逝而改变。这里的组合不好。
—
航空