鲁棒线性模型中的加权


19

R使用rlm()MASS软件包中的MM权重估计了一个鲁棒的线性模型。“ ”没有为模型提供值,但是如果它是有意义的数量,我希望有一个。我也很想知道是否有一个值以稳健回归中的观测值加权的方式加权总和剩余方差是否有意义。我的一般想法是,如果出于回归的目的,我们实际上是在权重上给予某些估计值较少的影响,因为它们在某种程度上是离群值,那么也许出于计算的目的,我们也应该给出那些相同的估计影响较小?[R2[R2[R2

我为和加权编写了两个简单的函数,它们在下面。我还包括了为模型HI9运行这些功能的结果。编辑:我找到了UNSW的Adelle Coster的网页,该网页提供了一个公式,其中包括权重向量,这与我计算时一样,并要求她提供更正式的参考:http://web.maths。 unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html(仍在向Cross Valided寻求有关如何解释此加权。[R2[R2R2SSeSSt[R2

#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){  
+ SSe <- sum((x$resid)^2);  
+ observed <- x$resid+x$fitted;  
+ SSt <- sum((observed-mean(observed))^2);  
+ value <- 1-SSe/SSt;  
+ return(value);  
+ }  
r2(HI9)  
[1] 0.2061147

#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted      
+ value <- 1-SSe/SSt;
+ return(value);
+ }
 > r2ww(HI9)
[1] 0.7716264

感谢所有花时间回答这个问题的人。如果我已经错过了一些很好的参考,或者上面的代码难以阅读(我不是代码专家),请接受我的道歉。


将权重放入lm()并从那里取r平方(为什么要重新发明轮子?)
user603 2014年

1
感谢您提供技巧来更高效地完成工作。谁能评论我描述/提议的加权r平方的含义?
CraigMilligan 2014年

@ user603:实际上如何将权重放入lm()中?
histelheim

只是为了称赞,R中的加权最小二乘是通过使sum(w * e ^ 2)最小化来进行,其中e是残差。因此,对于您的计算代码,所有权重w应该取平方根。
黎元浩

我想强调的是,我们没有采取加权均值的方法,至少我认为由于我编写的程序的r平方值接近于:经典r平方加权r平方,但不加权r-均值也加权的平方,即使对我来说,我也认为-6是违反直觉的,但我相信经验
Pierre

Answers:


22

以下答案基于:(1)我对Willett和Singer的解释(1988)关于R平方的另一警告说明:它在加权最小二乘回归分析中使用。美国统计学家。42(3)。pp236-238,以及(2)假设稳健的线性回归本质上是加权最小二乘回归,其权重由迭代过程估算。

我在问题中给出的关于r2w的公式需要进行较小的校正,以对应于Willet and Singer(1988)中的r2wls的方程式4:SSt计算还应使用加权平均值:

the correction is SSt <- sum((x$w*observed-mean(x$w*observed))^2)].

这个(校正后的)加权r平方是什么意思?Willett和Singer将其解释为:“转换后的[加权]数据集中的确定系数。它是加权 X 可以解释的加权 Y 的变化比例的度量,并且是输出为在执行WLS回归时,由主要统计计算机软件包提供R2”。

衡量适合度是否有意义?这取决于它的表示和解释方式。Willett和Singer警告说,它通常比普通最小二乘回归中获得的r平方高很多,并且高值鼓励显着显示...但是如果以常规r的意义来解释,这种显示可能具有欺骗性。 -平方(未加权的比例由模型解释)。威利特和辛格提出,伪R2wls(其等式7)是一个不太“欺骗”的选择,它等效于我在原始问题中的函数r2。通常,Willett和Singer还警告说,依靠任何r2(甚至是他们的pseudor2wls)作为拟合优度的唯一度量也是不好的。尽管有这些注意事项,但鲁棒回归的整个前提是,某些案例被判断为“不那么好”,并且在模型拟合中不算多,因此最好在模型评估过程的一部分中反映出来。所描述的加权r平方可以作为拟合优度的一种很好的度量-只要在演示中清楚地给出了正确的解释,并且它不作为对拟合优度的唯一评估。


1
(+1)。感谢您抽出宝贵的时间回答问题。
user603 2014年

1

@CraigMilligan。不应该:

  • 权重不在平方括号内
  • 计算加权平均值,我们也可以使用sum(x$w*observed)/sum(x$w)weighted.mean(observed,x$w)

像这样:

r2ww <- function(x){
  SSe <- sum(x$w*(x$resid)^2)
  observed <- x$resid+x$fitted
  SSt <- sum(x$w*(observed-weighted.mean(observed,x$w))^2)
  value <- 1-SSe/SSt;
  return(value);
}
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.