我正在寻找可输出示例属于两个类之一的概率的分类器。
我知道逻辑回归和朴素的贝叶斯,但是您能告诉我其他类似的工作方式吗?也就是说,分类器不是预测示例所属的类,而是预测示例适合特定类的概率吗?
您可以分享关于这些不同分类器(包括逻辑回归和朴素贝叶斯)的优缺点的任何想法的加分。例如,对于多类别分类是否有更好的选择?
我正在寻找可输出示例属于两个类之一的概率的分类器。
我知道逻辑回归和朴素的贝叶斯,但是您能告诉我其他类似的工作方式吗?也就是说,分类器不是预测示例所属的类,而是预测示例适合特定类的概率吗?
您可以分享关于这些不同分类器(包括逻辑回归和朴素贝叶斯)的优缺点的任何想法的加分。例如,对于多类别分类是否有更好的选择?
Answers:
SVM与逻辑回归密切相关,并且也可以基于距超平面的距离(每个点的得分)来预测概率。您可以通过以某种方式制作得分->概率映射来完成此操作,这相对容易,因为问题是一维的。一种方法是将S曲线(例如逻辑曲线或其斜率)拟合到数据。另一种方法是使用等渗回归将更一般的累积分布函数拟合到数据。
除SVM之外,您还可以对任何适合使用基于梯度的方法(例如深度网络)的方法使用合适的损失函数。
如今,在设计分类器时,没有考虑预测概率。这是一个额外的东西,会干扰分类性能,因此将其丢弃。但是,您可以使用任何二进制分类器来学习一组固定的分类概率(例如“ p in [0,1/4]或[1/4,1/2]或...”),探测”兰福德和扎德罗兹尼的减少。
如果使用交叉熵作为S型输出单位的成本函数,则另一种可能是神经网络。这将为您提供所需的估计。
神经网络以及逻辑回归是可区分的分类器,这意味着它们试图最大化训练数据上的条件分布。渐近地,在无限样本的极限中,两个估计都接近相同的极限。
您将在本文中找到对此问题的详细分析。一个重要的想法是,即使生成模型具有较高的渐近误差,它也可以比判别模型更快地解决该渐近误差。因此,采用哪种方法取决于您的问题,手头的数据和您的特定要求。
最后,将条件概率的估计值视为决策的绝对分数(如果您所追求的是绝对分数)通常没有多大意义。重要的是,在给定具体样本的情况下,考虑分类器输出的最佳候选类别,并比较相关的概率。如果最好的两个分数之间的差异很高,则表明分类器对他的答案非常有信心(不一定正确)。
有很多-哪种方法最有效取决于数据。作弊的方法也很多-例如,您可以对给出分数相似度的任何分类器的输出(即:权重向量与输入之间的点积)进行概率校准。最常见的示例称为普拉特缩放。
基础模型的形状也很重要。如果您的数据具有多项式相互作用,那么香草逻辑回归将无法很好地对其进行建模。但是,您可以使用逻辑回归的内核版本,以便该模型更好地拟合数据。这通常会提高概率输出的“优度”,因为您还将提高分类器的准确性。
通常,大多数给出概率的模型通常使用逻辑函数,因此可能难以比较。在实践中,它往往工作得很好,贝叶斯网络是另一种选择。朴素贝叶斯(Naive Bayes)对其概率进行任何假设都太简单了,并且在任何大小合理的数据集上都可以轻易观察到。
最后,通过选择可以更好地代表数据的模型,通常更容易提高概率估计的质量。从这个意义上说,获得概率并不重要。如果通过Logistic回归可以获得70%的准确性,而通过SVM可以获得98%的准确性-那么仅凭“完全自信”的概率就可以使您用大多数计分方法得到“更好”的结果,即使它们并不是真正的概率(和那么您可以进行我之前提到的校准,从而使它们实际上变得更好)。
在无法获得准确的分类器的情况下,同样的问题更有趣,但是我不确定有人在这种情况下进行过研究/比较。