什么是最适合您的应用程序的现成2类分类器?[关闭]


Answers:


14

随机森林

  • 轻松捕获复杂的结构/非线性关系
  • 变量规模不变
  • 无需为分类预测变量创建虚拟变量
  • 变量选择不是很需要
  • 相对难以适应

适体主动模式选择,林地湿度预测,数字OCR,多光谱卫星图像分析,音乐信息检索,化学计量学...

13

Logistic回归

  • 快速并且在大多数数据集上表现良好
  • 几乎没有参数需要调整
  • 处理离散/连续特征
  • 模型很容易解释
  • (并不仅限于二进制分类)

也许没有需要调整的参数,但是必须真正使用连续变量(变换,样条曲线等)来引起非线性。
B_Miner 2011年

12

支持向量机


有没有什么真正的特别之处SVM,除了它迫使用户去思考正规化。对于大多数实际问题,[岭]岭回归同样适用。
2011年

2
@dikran我认为SVM是一个很好的分类器,因为它稀疏且对异常值具有鲁棒性-Logistic回归并非如此!这就是为什么SVM是最新的分类器。唯一可能是问题的问题是-时间复杂度-但我认为可以。
suncoolsu 2011年

@suncoolsu如果需要稀疏性,与使用SVM相比,使用LASSO进行正则逻辑回归可以得到更多的稀疏性。SVM的稀疏性是损失函数的副产品,因此使用稀疏度作为设计目标的算法所获得的收益不如您得到的高。通常,在具有超参数的最佳值(例如通过交叉验证选择)的情况下,SVM的大部分稀疏性也会消失。SVM对异常值的鲁棒性不如正则化Logistic回归-它主要是正则化,而不是铰链损失。
2011年

@Dikran –确切地说,某种处罚很重要。您可以使用Priors加上罚金等方式获得
suncoolsu 2011年

1
@suncoolsu在这种情况下,SVM并不是一个很好的分类器,它只是众多正则化分类器中的一个,例如岭回归,正则对数回归,高斯过程。SVM的主要优点是它对计算学习理论的吸引力。在实践中,其他考虑因素更为重要,例如是否需要概率分类器,而其他损失函数可能更胜一筹。恕我直言,对SVM的关注太多了,而不是更广泛的内核方法系列。
2011年

7

带有噪声数据的监督问题的正则判别式

  1. 计算效率高
  2. 强大的抗噪声能力和数据异常值
  3. 线性判别式(LD)和二次判别式(QD)分类器都可以从同一实现中获得,将LD分类器的正则化参数'[lambda,r]'设置为[[1 0]',将正则化参数设置为'[0 0]' QD分类器-非常有用,仅供参考。
  4. 模型易于解释和导出
  5. 对于可能无法很好定义类协方差矩阵的稀疏和“宽”数据集,效果很好。
  6. 通过将softmax函数应用于每个类别的判别值,可以为每个样本估计后类可能性的估计。

链接到原来的1989年纸弗里德曼等人 在这里。另外,Kuncheva在她的书《组合模式分类器》中有很好的解释。


5

梯度助推树。

  • 在许多应用中至少与RF一样准确
  • 无缝整合缺失值
  • 变量的重要性(例如RF可能偏向于连续和多个级别的标称值)
  • 偏相关图
  • GBM与R中的randomForest:处理更大的数据集

4

高斯过程分类器 -它给出概率预测(当您的操作相对班级频率与您的训练集中的相异频率相同,或者等效地,您的错误肯定/错误否定成本未知或可变时,此选项将很有用)。由于从有限数据集“估计模型”中的不确定性,它也提供了模型预测中不确定性的指示。协方差函数等效于SVM中的内核函数,因此它也可以直接对非矢量数据(例如字符串或图形等)进行操作。数学框架也很简洁(但不要使用拉普拉斯近似)。通过最大化边缘可能性来自动选择模型。

本质上结合了逻辑回归和SVM的良好功能。


您是否建议使用R包来实现此目的?此方法的首选实现是什么?谢谢!
julieth 2012年

恐怕我是MATLAB用户(我使用的是GPML包gaussianprocess.org/gpml/code/matlab/doc),所以我不建议R的实现,但是您可能会在这里找到合适的gaussianprocess.org/#代码。如果R没有一个适合GP的软件包,那么有人需要写一个!
迪克兰有袋博物馆,2012年

好,谢谢。这种方法是否允许人们选择“重要变量,例如随机森林的变量重要性或使用SVM进行递归特征消除?”
julieth 2012年

是的,您可以使用“自动相关性确定”协方差函数,并通过最大化模型的贝叶斯证据来选择超参数(尽管这可能会遇到与SVMS相同的过度拟合问题,因此通常模型在没有特征选择的情况下表现更好)。
迪克兰有袋博物馆,2012年

4

L1正则逻辑回归。

  • 计算速度快。
  • 它具有直观的解释。
  • 它只有一个易于理解的超参数,可以通过交叉验证自动调整,这通常是一个好方法。
  • 它的系数是分段线性的,并且它们与超参数的关系可以在一个简单的图中立即轻松地看到。
  • 它是用于变量选择的不太可信的方法之一。
  • 它还有一个很酷的名字。

+1还可以通过分析将超参数集成到一起,因此对于许多应用程序并不需要交叉验证,请参见例如theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf生物信息学.oxfordjournals.org / content / 22/19 / 2348.full.pdf
迪克兰有袋博物馆,2012年

3

神经网络


3

朴素贝叶斯随机朴素湾


2
您能描述一下RNB给您带来良好结果的问题吗?
卢卡斯卢

否;-)这只是为了复兴游泳池。

1

K-均值聚类用于无监督学习。


该问题专门要求分类器。
Prometheus
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.