为什么要使用普拉特的缩放比例?


17

为了将置信度水平校准为监督学习中的概率(例如使用过采样的数据从SVM或决策树映射置信度),一种方法是使用Platt的定标(例如,从Boosting获取校准的概率)。

基本上,人们使用逻辑回归将映射到。因变量是真实标签,预测变量是未校准模型的置信度。我不理解的是使用目标变量而不是1或0。该方法需要创建一个新的“标签”:[;][0;1]

为了避免过度拟合S型火车,使用了样本外模型。如果训练集中有正例和负例,则对于每个训练例,普拉特校准将使用目标值和y _-(分别为1和0),其中 y _ + = \ frac {N_ + +1} {N _ ++ 2}; \ quad \ quad y _- = \ frac {1} {N _- + 2} N+Ny+y

y+=N++1N++2;y=1N+2

我不明白的是这个新目标是如何有用的。逻辑回归不只是将因变量视为二进制标签(与给出的标签无关)吗?

更新:

我发现,在SAS中,将依赖项从更改为其他值会还原为同一模型(使用)。也许是我的错误,或者是SAS缺乏通用性。我能够在R中更改模型。例如:1/0PROC GENMOD

data(ToothGrowth) 
attach(ToothGrowth) 

  # 1/0 coding 
dep          <- ifelse(supp == "VC", 1, 0) 
OneZeroModel <- glm(dep~len, family=binomial) 
OneZeroModel 
predict(OneZeroModel) 

  # Platt coding 
dep2           <- ifelse(supp == "VC", 31/32, 1/32) 
plattCodeModel <- glm(dep2~len, family=binomial) 
plattCodeModel 
predict(plattCodeModel) 

compare        <- cbind(predict(OneZeroModel), predict(plattCodeModel)) 

plot(predict(OneZeroModel), predict(plattCodeModel))

Answers:


13

我建议查看Logistic回归Wikipedia页面。它指出,在二进制因变量的情况下,逻辑回归将预测变量映射到因变量发生的概率。没有任何变换,用于训练模型的概率为1(如果y在训练集中为正)或0(如果y为负)。

因此:拟合p i = 1时,不要使用绝对值1表示正类别,0表示负类别。pi=1(1+exp(Afi+B))fiy+y


感谢您的回复!我第一次使用SAS,无法获得其他响应变量。我将R中的以下内容作为示例,并看到发出有关不是整数响应变量的警告,但结果确实适合其他模型。
B_Miner 2010年

数据(ToothGrowth)附加(ToothGrowth)#1/0编码dep <-ifelse(supp ==“ VC”,1,0)OneZeroModel <-glm(dep〜len,family = binomial)OneZeroModel Forecast(OneZeroModel)#Platt编码dep2 <-ifelse(supp ==“ VC”,31/32,1/32)plattCodeModel <-glm(dep2〜len,family = binomial)plattCodeModel Forecast(plattCodeModel)compare <-cbind(predict(OneZeroModel),predict( plattCodeModel))plot(predict(OneZeroModel),predict(plattCodeModel))
B_Miner 2010年

@ user2040:1.是。有问题吗?或者这只是一句话:)?2.为什么不将代码添加到问题中?没有格式是可怕的。
steffen 2010年

2

我发现有用的另一种避免过度拟合的方法是,将单变量logistic回归模型拟合到SVM的省略交叉验证输出,可以使用Span界有效地对其进行近似估计。

但是,如果您想要一个分类器来生成类成员身份概率的估计值,那么最好使用旨在直接做到这一点的内核逻辑回归。SVM的输出是为离散分类而设计的,不一定包含准确估计远离p = 0.5轮廓的概率所需的信息。

如果您想要基于内核的概率分类器,高斯过程分类器是另一个不错的选择。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.