我们什么时候说数据集不可分类?


11

我已经多次分析过一个数据集,在该数据集上我实际上无法进行任何分类。为了查看是否可以得到分类器,我通常使用以下步骤:

  1. 根据数值生成标签的箱形图。
  2. 将维数减少到2或3,以查看类是否可分离,有时也尝试使用LDA。
  3. 强制尝试适合SVM和随机森林,并查看特征的重要性,以查看特征是否有意义。
  4. 尝试更改类和欠采样和过采样等技术的平衡,以检查类不平衡是否可能成为问题。

我可以想到很多其他方法,但是还没有尝试过。有时我知道这些功能不好,并且与我们试图预测的标签完全无关。然后,我根据业务直觉结束练习,得出结论,我们需要更好的功能或完全不同的标签。

我的问题是数据科学家如何报告无法使用这些功能进行分类。是否有任何统计方法可以报告此问题或首先将数据拟合为不同算法,然后查看验证指标是最佳选择?


我觉得如果这个问题有一个明确而客观的答案,那么所有的科学努力都将变得毫无意义。科学就是艺术。
Mephy

哈哈,是的。我只是想知道更多找到可分离性的方法。更像是如何向客户统计地表明,花更多时间进行一些练习可能是徒劳的。
vc_dim

1
我建议删除最后两段,因为这会使问题变得过于开放/广泛。第一部分-如何专业地处理和报告非结果-应该是负责任的,而且我个人认为我们在网站上需要更多此类数据科学专业礼节问题。
尼尔·斯莱特

尼尔很有道理。编辑它变得清晰。
vc_dim

Answers:


4

这取决于您的数据。有一种所谓的人为错误。假设像阅读印刷书籍这样的任务,人类不会费劲地阅读,并且除非由于印刷质量差而造成,否则可能不会犯错。在诸如阅读手写手稿的情况下,如果作者的字体对读者来说很奇怪,那么可能会发生很多情况,导致无法理解所有单词。在第一种情况下,人为水平误差太低,学习算法可以具有相同的性能,但是第二个示例说明了这样的事实,即在某些情况下,人为水平误差过高且以通常的方式出现(如果您使用相同的功能),您的学习算法将具有很高的错误率。

在统计学习中,有一种叫做的东西Bayes Error,每当类的分布重叠时,错误的比率就会很大。在不更改功能的情况下,当前分布的贝叶斯误差是最佳性能,根本无法降低。

我也建议你在这里读书。具有指定特征的大量贝叶斯错误的问题被认为无法在这些特征的空间中分类。再举一个例子,您可以假设要对开灯的汽车进行分类。如果您早上尝试这样做,您自己可能会有很多错误,并且如果您使用相同的图像来训练学习算法,那也可能会出错。

另外,我建议您不要更改类的分布。在这种情况下,边界附近的分类器结果将是完全随机的。用于训练您的机器学习算法的数据分布不应更改,并且应保持真实状态。


这是有帮助的,我不知道贝叶斯错误。在更改班级分配后,我确实发现难以提高准确性。我同意这不是一个好主意。尽管如此,我有时还是尝试更改类层次结构,希望该功能可以表示更细粒度或抽象的类(例如,将猴子,狗和其他动物更改为哺乳动物)。我认为如果存在贝叶斯错误,那么更改类层次结构也无济于事。
vc_dim

@SumitSinghChauhan实际上,在Bayes错误较大的情况下,尝试进行特征工程是最好的解决方案。因为深度学习本身会找到特征,所以在数据集不大的情况下无法使用。
媒体

5

从一个类中获取一个样本元素,从另一个类中获取一个样本元素。这两个元素是否可能具有完全相同的特征向量?如果能则发生了两节课不完全可分使用当前的特征向量(因为分类决策是在给定元素的特征向量完全基于)。

另一方面,如果一个类别中的“每个”元素在另一个类别中具有对应的元素,使得两个元素具有相同的特征向量,则使用您当前的特征向量无法将这两个类别区分开。

此外,如果该条件仅适用于您的某些元素而不适用于其他元素,则您介于两者之间,您可以以此为基础来衡量希望分类器使用当前功能集执行的效果。

所有这些评估都可以用来在不同程度上争论您需要提取更多特征的情况。


1
谢谢罗伯特。这是熟悉的,似乎是正确的。对于某些项目,我进行了相同的分析。我有一个具有相同特征向量的数据集,但该数据集被不同地标记,并以此为基础来确定我的准确性。有时,绘制箱形图也有帮助。到目前为止,我发现您刚才提到的说服客户的最佳方法。
vc_dim
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.