免费的数据集，用于非常高的尺寸分类[关闭]

35

有超过1000个要素（或样本点（如果包含曲线））可免费用于分类的数据集是什么？

已经有一个关于免费数据集的社区Wiki：查找免费可用的数据样本

但是在这里，最好有一个更集中的列表，可以更方便地使用它，我还建议以下规则：

每个数据集一个帖子
没有链接到数据集
每个数据集必须与
- 一个名称（弄清楚它的含义）和一个指向数据集的链接（可以使用包名称来命名R数据集）
- 特征数（假设为p），数据集的大小（假设为n）和标签/类的数量（假设为k）
- 根据您的经验（将使用的算法写成文字）或文献（在最后一种情况下，链接本文）得出典型的错误率

machine-learning classification dataset large-data

— 罗宾吉拉德
source

+1，但NIPS2003中的仅具有train.labels － NIPS2003论文清楚地指出“保留验证和测试集标签”。

— denis

谢谢。关于NIPS的评论是@mbq的答案。

— 罗宾吉拉德2011年

这里有人有一个带有两个以上类标签的高维数据集吗？

— hlin117

3

多萝西娅
n = 1950
p = 100000（0.1M，一半是人为添加的噪声）
k = 2（〜10x不平衡）
来自NIPS2003。

— 88
source

您能解释一下这是100000个功能吗？我看一下训练数据，每行可能有2500个整数。

— JeremyKun

它是一种稀疏数组，整数N表示属性N值是1

3

Gisette
n = 13500
p = 5000（一半是人为增加的噪声）
k = 2（平衡）
来自 NIPS2003。

— 用户88
source

3

德克斯特
n = 2600
p = 20000（10k + 53是人工噪声）
K = 2（平衡）
从NIPS2003。

— 88
source

我不明白...每人一套吗？

@robin＆@mbq我建议每个帖子保留一个数据集。这使人们可以用选票表明该建议的人也有提示/支持

— 彼得·斯密特

@Peter，好的，我遵循您的想法，我相应地更改了问题。

— 罗宾吉拉德

3

阿尔切内
N = 900
，P = 10000（3K人工添加噪声）
K = 2（〜平衡）
从 NIPS2003开始。

— 88
source

2

前列腺（基因表达阵列）

通过R包提供 SPL 数据集名称：前列腺

错误率= 3/102（请参阅此处），我也认为有些文件显示的错误率为1/102。我会说这是一个简单的测试案例。

— 罗宾吉拉德
source