Answers:
偏差是估算器的期望值与被估算的真实值之间的差。例如,简单随机样本(SRS)的样本均值是总体均值的无偏估计量,因为如果您采用所有可能的SRS求出它们的均值,然后采用这些均值的平均值,那么您将获得总体均值(对于有限人口,这只是显示此的代数)。但是,如果我们使用某种与价值相关的抽样机制,则均值可能会出现偏差,请考虑使用随机数字拨号样本询问有关收入的问题。
也是一些自然偏倚的估计量。修整后的均值将因偏向的人口/分布而有偏差。如果总体均值与分母或样本均值与分母一起使用,则SRS的标准方差是无偏的。
这是一个使用R的简单示例,我们从平均值为0且标准差为1的法线生成一堆样本,然后从样本中计算平均均值,方差和标准差。请注意,均值和方差平均值与真实值的接近程度(抽样误差意味着它们将不精确),现在比较均值sd,这是一个有偏估计量(尽管没有很大的偏见)。
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
在回归中,我们可以通过逐步回归来获得斜率的偏差估计量。如果估计斜率距离0更远,则变量更可能保留在逐步回归中;如果变量的斜率更接近0,则更可能被丢弃,因此这是有偏差的采样,最终模型中的斜率将趋于进一步从0到真正的斜率。套索和山脊回归偏差之类的技术会向0倾斜,以抵消远离0的选择偏差。
偏差表示估算器的期望值不等于总体参数。
直观地在回归分析中,这意味着参数之一的估计值太高或太低。但是,普通的最小二乘回归估计是BLUE,它表示最佳线性无偏估计。在其他形式的回归中,参数估计可能会有偏差。这可能是一个好主意,因为在偏差和方差之间通常要进行权衡。例如,当存在共线性时,有时使用岭回归来减少估计的方差。
一个简单的示例可能会更好地说明这一点,尽管不在回归上下文中。假设您的体重为150磅(已通过天平秤进行验证,该天平将您放在一个篮子中,而另一堆则放在一堆砝码中)。现在,您有两个浴室秤。您每次都称体重5次。
比例1的权重为152、151、151.5、150.5和152。
比例2的权重为145、155、154、146和150。
量表1有偏差,但方差较低;平均重量不是您的真实体重。标度2是无偏的(平均值为150),但方差更大。
哪个比例更好?这取决于您想要秤做的事情。
在线性回归分析中,偏差是指通过逼近现实生活中的问题而引入的误差,该问题可能由于更简单的模型而变得复杂。简单来说,您假设一个简单的线性模型,例如y * =(a *)x + b *,其中在现实生活中,业务问题可能是y = ax ^ 3 + bx ^ 2 + c。
可以说,回归问题的期望测试MSE(均方误差)可以分解如下。E(y0-f *(x0))^ 2 = Var(f *(x0))+ [Bias(f *(x0))] ^ 2 + Var(e)
f *->线性回归模型y0假定的函数形式->测试数据中记录的原始响应值x0->测试数据中记录的原始预测值e->不可约误差因此,目标是选择一种最佳方法来建立模型实现低方差和低偏差。
注意:Trevor Hastie和Robert Tibshirani撰写的《统计学习入门》对这个主题有很好的见解