Answers:
我不知道这是否可以作为答案...
这是一个让您彻夜难眠的问题。您可以建立更好的模型吗?博士漫画很好地总结了一下(我不知道是否可以上传漫画,所以我只链接了它们)
根据参加机器学习竞赛获得的个人经验,这是经验法则。
想象一下,您得到了分类任务。坐下来,头脑风暴一个小时或更短的时间,您将如何解决问题,并查看该领域的最新技术水平。基于此研究建立模型,最好是已知的稳定模型,而无需进行过多的参数调整。最终的性能将约为最大可实现性能的80%。
该规则基于所谓的帕累托原理,该原理也适用于优化。遇到问题后,您可以创建一个解决方案,该解决方案的运行速度会很快,但是从那时起,改进与时间投入的比率会迅速下降。
最后几句话:当我阅读有关新分类算法的论文时,我希望作者将他们的新品种与这种“经过pareto-optimized”的方法进行比较,即我希望他们花费合理的时间来使最新技术工作(有些需要或多或少的参数优化)。不幸的是,许多人没有这样做。
如果您有某种方式可视化数据,那是最好的情况,但是并非所有数据都可以以相同的方式可视化,因此您可能需要找到自己的方式来投影数据以帮助您理解数据更好。
但是,通常,我通常会抽取一小部分数据样本,将其转换为ARFF,然后尝试使用WEKA的其他聚类算法。然后,我只是看看哪种算法能给我带来更好的混淆矩阵。它为我提供了有关类分离程度的提示,并让我研究了为什么该特定算法对这些数据更好。我还更改了群集的数量(即,我不只是使用k = 2,我使用k = 3、4等)。它使我知道数据中是否存在碎片,或者一个类别是否比另一个类别更加分散。如果将训练点和测试点混合在一起以进行聚类,则还可以测量训练点代表的聚类。一些集群可能代表过多,而某些集群则代表不足,都可能导致学习分类器的问题。
经常检查您的训练准确性。如果您的训练准确性不佳,那么错误分类的训练点也很重要。