2
我们什么时候说数据集不可分类?
我已经多次分析过一个数据集,在该数据集上我实际上无法进行任何分类。为了查看是否可以得到分类器,我通常使用以下步骤: 根据数值生成标签的箱形图。 将维数减少到2或3,以查看类是否可分离,有时也尝试使用LDA。 强制尝试适合SVM和随机森林,并查看特征的重要性,以查看特征是否有意义。 尝试更改类和欠采样和过采样等技术的平衡,以检查类不平衡是否可能成为问题。 我可以想到很多其他方法,但是还没有尝试过。有时我知道这些功能不好,并且与我们试图预测的标签完全无关。然后,我根据业务直觉结束练习,得出结论,我们需要更好的功能或完全不同的标签。 我的问题是数据科学家如何报告无法使用这些功能进行分类。是否有任何统计方法可以报告此问题或首先将数据拟合为不同算法,然后查看验证指标是最佳选择?