免费的数据集,用于非常高的尺寸分类[关闭]


35

超过1000个要素(或样本点(如果包含曲线))可免费用于分类的数据集是什么?

已经有一个关于免费数据集的社区Wiki: 查找免费可用的数据样本

但是在这里,最好有一个更集中的列表,可以更方便地使用它,我还建议以下规则:

  1. 每个数据集一个帖子
  2. 没有链接到数据集
  3. 每个数据集必须

    • 一个名称(弄清楚它的含义)和一个指向数据集的链接(可以使用包名称来命名R数据集)

    • 特征数(假设为p),数据集的大小(假设为n)和标签/类的数量(假设为k

    • 根据您的经验(将使用的算法写成文字)或文献(在最后一种情况下,链接本文)得出典型的错误率


+1,但NIPS2003中的仅具有train.labels - NIPS2003论文清楚地指出“保留验证和测试集标签”。
denis

谢谢。关于NIPS的评论是@mbq的答案。
罗宾吉拉德2011年

这里有人有一个带有两个以上类标签的高维数据集吗?
hlin117

Answers:


3

多萝西娅
n = 1950
p = 100000(0.1M,一半是人为添加的噪声)
k = 2(〜10x不平衡)
来自NIPS2003


您能解释一下这是100000个功能吗?我看一下训练数据,每行可能有2500个整数。
JeremyKun

它是一种稀疏数组,整数N表示属性N值是1


3

德克斯特
n = 2600
p = 20000(10k + 53是人工噪声)
K = 2(平衡)
NIPS2003


我不明白...每人一套吗?

@robin&@mbq我建议每个帖子保留一个数据集。这使人们可以用选票表明该建议的人也有提示/支持
彼得·斯密特

@Peter,好的,我遵循您的想法,我相应地更改了问题。
罗宾吉拉德


2

前列腺(基因表达阵列)

  • k = 2
  • n = 48 + 52
  • p = 6033

通过R包提供 SPL 数据集名称:前列腺

错误率= 3/102(请参阅此处),我也认为有些文件显示的错误率为1/102。我会说这是一个简单的测试案例。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.