假设我正在处理一些分类问题。(欺诈检测和垃圾评论是我目前正在研究的两个问题,但我对总体上的任何分类任务感到好奇。)
我怎么知道应该使用哪个分类器?
- 决策树
- 支持向量机
- 贝叶斯
- 神经网络
- K近邻
- Q学习
- 遗传算法
- 马尔可夫决策过程
- 卷积神经网络
- 线性回归或逻辑回归
- 提振,装袋,诱人
- 随机爬山或模拟退火
- ...
在哪些情况下是“自然”的首选,选择该原则的原则是什么?
我正在寻找的答案类型的示例(摘自Manning等人的“信息检索简介”书):
一个。如果您的数据带有标签,但数量有限,则应使用偏差较大的分类器(例如,朴素贝叶斯)。
我猜这是因为偏高的分类器具有较低的方差,这很好,因为数据量少。
b。如果您有大量数据,则分类器实际上并不重要,因此您应该只选择具有良好可伸缩性的分类器。
还有哪些其他准则?即使是诸如“如果您必须向某个高级管理人员解释模型,那么您也应该使用决策树,因为决策规则是相当透明的”之类的答案是好的。不过,我不太关心实现/库问题。
此外,除了标准的贝叶斯分类器外,还有一个单独的问题,是否有“标准的最新技术”用于检测垃圾邮件(与电子邮件垃圾邮件相对)?