预期的最佳性能数据集


9

说我有一个简单的机器学习问题,例如分类。作为视觉或听觉识别方面的一些基准,我作为人类是一个很好的分类器。因此,我对分类器的性能有一个直觉。

但是有大量数据,有一点是我不知道我训练的分类器有多好。这是我个人不是很好的分类器的数据(例如,从EEG数据分类一个人的情绪)。很难直觉我的问题有多难。

现在,如果遇到机器学习问题,我想知道我能得到什么。是否有任何原则性的方法?你会怎么做?

可视化数据?从简单的模型开始?从非常复杂的模型开始,看看我是否可以过拟合?如果您想回答这个问题,您正在寻找什么?您什么时候停止尝试?

Answers:


6

我不知道这是否可以作为答案...

这是一个让您彻夜难眠的问题。您可以建立更好的模型吗?博士漫画很好地总结了一下(我不知道是否可以上传漫画,所以我只链接了它们)

根据参加机器学习竞赛获得的个人经验,这是经验法则。

想象一下,您得到了分类任务。坐下来,头脑风暴一个小时或更短的时间,您将如何解决问题,并查看该领域的最新技术水平。基于此研究建立模型,最好是已知的稳定模型,而无需进行过多的参数调整。最终的性能将约为最大可实现性能的80%。

该规则基于所谓的帕累托原理,该原理也适用于优化。遇到问题后,您可以创建一个解决方案,该解决方案的运行速度会很快,但是从那时起,改进与时间投入的比率会迅速下降。

最后几句话:当我阅读有关新分类算法的论文时,我希望作者将他们的新品种与这种“经过pareto-optimized”的方法进行比较,即我希望他们花费合理的时间来使最新技术工作(有些需要或多或少的参数优化)。不幸的是,许多人没有这样做。


0

常规方法是考虑ROC及其下的面积(AUC)。这种方法的基本原理是,特定误报率的正确率越高,分类器越好。对所有可能的误报率进行积分可以为您提供总体评估。


3
就我所了解的OP而言,他的问题不是衡量分类器的性能(希望这是对未来预期性能的一个很好的估计),而是一个人能获得多好,即最大(不是绝对的)每个指标(AUC最大值为1或类似的值),但对于给定的问题)
steffen 2012年

是的,这就是我的意思。
bayerj

0

如果您有某种方式可视化数据,那是最好的情况,但是并非所有数据都可以以相同的方式可视化,因此您可能需要找到自己的方式来投影数据以帮助您理解数据更好。

但是,通常,我通常会抽取一小部分数据样本,将其转换为ARFF,然后尝试使用WEKA的其他聚类算法。然后,我只是看看哪种算法能给我带来更好的混淆矩阵。它为我提供了有关类分离程度的提示,并让我研究了为什么该特定算法对这些数据更好。我还更改了群集的数量(即,我不只是使用k = 2,我使用k = 3、4等)。它使我知道数据中是否存在碎片,或者一个类别是否比另一个类别更加分散。如果将训练点和测试点混合在一起以进行聚类,则还可以测量训练点代表的聚类。一些集群可能代表过多,而某些集群则代表不足,都可能导致学习分类器的问题。

经常检查您的训练准确性。如果您的训练准确性不佳,那么错误分类的训练点也很重要。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.