校准多类增强分类器


19

我已阅读亚历山德鲁·尼古列斯库-米济尔和富卡鲁阿纳的论文“ 从推进获取校准概率,并在讨论” 这一主题。但是,我仍然难以理解和实现逻辑普拉特定标来校准我的多类提升分类器(带有决策树桩的温和提升)的输出。

我对广义线性模型有些熟悉,并且我想我了解logistic和Platt的校准方法在二进制情况下如何工作,但不确定如何将本文中描述的方法扩展到多类情况。

我正在使用的分类器输出以下内容:

  • =分类器针对要分类的样本 i为类 j投的票数F一世ĴĴ一世
  • =预估班级ÿ一世

在这一点上,我有以下问题:

问题1:我是否需要使用多项式logit来估计概率?还是我仍然可以通过逻辑回归来做到这一点(例如,以1-vs-all的方式)?

问题2:如何为多类情况定义中间目标变量(例如,按Platt的缩放比例)?

Q3:我知道这可能要问很多,但是有人愿意为这个问题草拟出伪代码吗?(在更实际的水平上,我对Matlab中的解决方案感兴趣)。


1
好问题。我也想知道即使您确实使用1与其他类型的方案,如何构造校准。如果您使用1相对于其余模型(有k个类)创建k个模型,您是否必须/应该以某种方式对其进行归一化,以使它们求和为1(例如,将每个校准概率除以所有k的和)?
B_Miner

Answers:


9

这也是我实际感兴趣的话题,因此我做了一些研究。这是作者的两篇论文,在这些问题上经常被列为参考。

  1. 将分类器分数转换为准确的多类概率估计
  2. 通过耦合概率估计将多类转换为二元

这里提倡的技术要点是将多类问题简化为二进制问题(例如,一个问题与其他问题,AKA问题与全部问题),使用像Platt这样的技术(最好使用测试集)来证明二进制分数/概率,以及然后使用论文中讨论的技术将它们组合起来(其中之一是Hastie等人的“耦合”过程的扩展)。在第一个链接中,通过简单地将二进制概率归一化为总和为1即可找到最佳结果。

我很想听听其他建议,并且如果这些技术中的任何一项都已包含在R中。


答案中提到的链接已过时。最新链接:citeseerx.ist.psu.edu/viewdoc/... citeseerx.ist.psu.edu/viewdoc/...
钱德拉


呼应这个答案。这让我感到困扰了一段时间,但Zadrozny和Elkan的论文被证明是有用的。
songololo
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.