直观上,“偏见”是什么?


21

我正在努力在线性回归分析的背景下掌握偏差的概念。

  • 偏见的数学定义是什么?

  • 到底有什么偏见,为什么/如何?

  • 说明性的例子?

Answers:


28

偏差是估算器的期望值与被估算的真实值之间的差。例如,简单随机样本(SRS)的样本均值是总体均值的无偏估计量,因为如果您采用所有可能的SRS求出它们的均值,然后采用这些均值的平均值,那么您将获得总体均值(对于有限人口,这只是显示此的代数)。但是,如果我们使用某种与价值相关的抽样机制,则均值可能会出现偏差,请考虑使用随机数字拨号样本询问有关收入的问题。

也是一些自然偏倚的估计量。修整后的均值将因偏向的人口/分布而有偏差。如果总体均值与分母或样本均值与分母一起使用,则SRS的标准方差是无偏的。 ññ-1个

这是一个使用R的简单示例,我们从平均值为0且标准差为1的法线生成一堆样本,然后从样本中计算平均均值,方差和标准差。请注意,均值和方差平均值与真实值的接近程度(抽样误差意味着它们将不精确),现在比较均值sd,这是一个有偏估计量(尽管没有很大的偏见)。

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

在回归中,我们可以通过逐步回归来获得斜率的偏差估计量。如果估计斜率距离0更远,则变量更可能保留在逐步回归中;如果变量的斜率更接近0,则更可能被丢弃,因此这是有偏差的采样,最终模型中的斜率将趋于进一步从0到真正的斜率。套索和山脊回归偏差之类的技术会向0倾斜,以抵消远离0的选择偏差。


SRS?  
主教

@cardinal简单随机样本。
ub

@whuber:哇。虽然缩写是有意义的,但我不记得在任何更正式的环境中都曾使用过该缩写。是否有特定的子领域或应用领域是“标准”缩写形式?
主教


(+1)@whuber的编辑有助于澄清此答案。
主教

7

偏差表示估算器的期望值不等于总体参数。

直观地在回归分析中,这意味着参数之一的估计值太高或太低。但是,普通的最小二乘回归估计是BLUE,它表示最佳线性无偏估计。在其他形式的回归中,参数估计可能会有偏差。这可能是一个好主意,因为在偏差和方差之间通常要进行权衡。例如,当存在共线性时,有时使用岭回归来减少估计的方差。

一个简单的示例可能会更好地说明这一点,尽管不在回归上下文中。假设您的体重为150磅(已通过天平秤进行验证,该天平将您放在一个篮子中,而另一堆则放在一堆砝码中)。现在,您有两个浴室秤。您每次都称体重5次。

比例1的权重为152、151、151.5、150.5和152。

比例2的权重为145、155、154、146和150。

量表1有偏差,但方差较低;平均重量不是您的真实体重。标度2是无偏的(平均值为150),但方差更大。

哪个比例更好?这取决于您想要秤做的事情。


1
尽管“偏见”的定义是正确的,但我担心这些示例会将其与不准确性混淆,这是完全不同的!偏差是统计过程(估计量)的属性,而准确性是测量过程的属性。(-1)。
ub

1
@whuber:是的,我同意。而且,我仍然认为,即使这样,还是有必要弄清楚数学期望值和样本平均值之间的差异,因为它们与偏差有关。
主教

1
不,我不是要说“不准确性”(这很难定义),而是要说“方差”。一个标度是无偏的,另一个标度具有低方差。我没有使用“准确”或“准确”一词。倾向于估计您的体重过高(或过低)的体重秤存在偏见。
彼得·弗洛姆

1
但是这种“偏见”只是不准确的代名词。它与您在第一行中给出的定义不同。此外,正如@cardinal所指出的,该示例还将预期与特定样本的平均值相混淆。
ub

3
我在这里同意@whuber。在OP所要求的(适当)偏向意义上,不是天平偏向或无偏,而是由其测量得出的体重估计值!
主教

0

在线性回归分析中,偏差是指通过逼近现实生活中的问题而引入的误差,该问题可能由于更简单的模型而变得复杂。简单来说,您假设一个简单的线性模型,例如y * =(a *)x + b *,其中在现实生活中,业务问题可能是y = ax ^ 3 + bx ^ 2 + c。

可以说,回归问题的期望测试MSE(均方误差)可以分解如下。E(y0-f *(x0))^ 2 = Var(f *(x0))+ [Bias(f *(x0))] ^ 2 + Var(e)

f *->线性回归模型y0假定的函数形式->测试数据中记录的原始响应值x0->测试数据中记录的原始预测值e->不可约误差因此,目标是选择一种最佳方法来建立模型实现低方差和低偏差。

注意:Trevor Hastie和Robert Tibshirani撰写的《统计学习入门》对这个主题有很好的见解


3
通常将其称为“模型错误指定错误”,以免将其与公认答案中给出的标准偏差定义相混淆。否则,将不可能理解(正确的)断言:OLS是回归系数的无偏估计量。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.