首先尝试的五个分类器


25

除了明显的分类器特征,例如

  • 计算成本,
  • 功能/标签的预期数据类型和
  • 适用于某些大小和尺寸的数据集,

首先对一个尚不十分了解的新数据集(例如语义和各个特征的相关性)首先尝试的前五个(或10、20?)分类器是什么?通常,我尝试使用朴素贝叶斯,最近邻居,决策树和SVM-尽管我没有充分的理由选择此选项,但我了解它们并主要了解它们的工作原理。

我猜应该选择涵盖最重要的通用分类方法的分类器。根据该标准或其他任何原因,您会推荐哪种选择?


更新:针对该问题的另一种表述可能是:“存在哪些通用的分类方法,哪些特定方法涵盖了最重要/最受欢迎/有希望的方法?”


我认为这是(stats.stackexchange.com/questions/3458/…)的副本。该问题的唯一附加价值可能是“选择分类器的准则”(这将使问题成为非常通用的问题)。如果是重复的,请关闭,否则请投票;)
steffen

@steffen:您提到的问题很有帮助,但我认为这不是重复的。确实,我的问题很笼统。我不是在寻找特定问题的解决方案,而是出于一般原因,为什么要使用哪些学习者-我将相应地更新我的问题。
Oben Sonne

Answers:


21

随机森林

快速,稳定,良好的准确性,在大多数情况下无需调整,不需要归一化,不受共线性影响,生成非常好的误差近似值和有用的重要性等级,作为训练的副作用,几乎是平行的,眨眼间就可以预测到。

缺点:比普通的方法(如kNN或NB慢),在同等的类上效果最佳,对于急需内核技巧的问题,其准确性比SVM差,这是一个坚硬的黑匣子,不会煮咖啡。


1
@mbq(+1)关于班级失衡,我们仍然可以在装袋期间依靠分层抽样。
chl

3
@mbq,不煮咖啡吗?那是一个破坏交易的地方。
主教

感谢您对“ 随机森林”的提示。但是,您会只尝试它们吗?如果您对结果不满意怎么办?您会尝试使用哪个分类器?或者,如果有人问:“您为什么不尝试其他方法?”,您将回答什么?
Oben Sonne

@Oben好吧,我知道您正在建立一种每个答案一个分类器的池。

@mbq:并非如此,但事实证明真是这样一个游泳池。可能我在这个问题上不够清楚。实际上,我想知道应该首先尝试使用哪种分类器,以涵盖不同的常规分类方法(具有不同的优缺点)。我总是问自己是否不应该尝试更多的分类器。知道我尝试过的方法已经代表了最典型/最有希望的方法,这将对您有所帮助。但是为此,我需要知道对于哪一组分类器是正确的。(我远不是一名统计专家,所以让我知道我的想法是否有点扭曲)
Oben Sonne

7

高斯过程分类器(不使用Laplace近似),最好使用边际化而不是超参数优化。为什么?

  1. 因为他们给出了概率分类
  2. 您可以使用内核函数,该函数可以直接对非矢量数据进行操作和/或吸收专家知识
  3. 他们处理适当拟合模型中的不确定性,您可以将该不确定性传播到决策过程
  4. 通常具有很好的预测性能。

缺点

  1. 需要很多内存
  2. 对于大规模问题不切实际。

首选方法是正则逻辑回归或岭回归[无特征选择]-对于大多数问题,非常简单的算法效果很好,并且更容易出错(实际上,算法之间的性能差异小于性能的差异)在操作人员之间)。


1

当您使用新的数据集时,应该由我自己来关注整个问题。首先,获得分类特征的分布以及每个连续特征的均值和标准差。然后:

  • 删除缺失值超过X%的要素;
  • 当特定值超过相对频率的90-95%时,删除分类特征;
  • 删除CV = std / mean <0.1的连续特征;
  • 获取参数排名,例如ANOVA为连续,卡方为类别;
  • 获得重要的功能子集;

然后,我通常将分类技术分为两套:白盒技术和黑盒技术。如果您需要了解“分类器的工作原理”,则应在第一组中进行选择,例如,决策树或基于规则的分类器。

如果您需要在不建立模型的情况下对新记录进行分类,则应着眼于学习者,例如KNN。

之后,我认为在精度和速度之间设置一个阈值会更好:神经网络比SVM慢一点。

这是我最重要的五种分类技术:

  1. 决策树;
  2. 基于规则的分类器;
  3. SMO(SVM);
  4. 朴素贝叶斯;
  5. 神经网络。

4
-1对于大p小n绝对不正确的工作流程,可以保证FS过拟合。

1
kNN是不是一个懒惰的学习者,而不是一个渴望学习的人(因为您实际上并不需要做任何事情,直到真正需要一种分类模式时才这样做)?在应用分类器之前进行的任何预处理都可能对性能的影响大于分类器之间的差异。特征选择特别困难(很容易导致过度拟合),并且像带支持向量化的SVM这样的方法通常在没有特征选择的情况下表现更好。我当然不推荐神经网络,它有太多潜在的陷阱。
Dikran有袋动物2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.