Questions tagged «bias-variance-tradeoff»

7
留一法与K折交叉验证的偏差和方差
在模型方差和偏差方面,不同的交叉验证方法如何比较? 我的问题部分源于此线程:折交叉验证中的最佳折叠数:留一法CV始终是最佳选择吗?ķKK ķ。那里的答案表明,通过留一法交叉验证学习的模型具有比通过常规倍交叉验证法学习的模型更高的方差,这使得留一法CV成为较差的选择。ķKK 但是,我的直觉告诉我,在留一式CV中,模型之间的方差应该比折CV 中的方差小,因为我们仅跨折移动一个数据点,因此折之间的训练集实质上重叠。ķKK 或朝另一个方向发展,如果折CV 中的较低,则训练集的折折将完全不同,并且所得的模型更有可能不同(因此方差更高)。 ķķKKķKK 如果上述论点是正确的,为什么用留一法CV学习的模型会有更高的方差?

2
折交叉验证中的最佳折叠数:留一法CV始终是最佳选择吗?
除了计算能力方面的考虑之外,是否有任何理由相信交叉验证中折叠数的增加会导致更好的模型选择/验证(即,折叠数越多越好)? 极端地讲,与折交叉验证相比,留一法交叉验证是否必然导致更好的模型?KKK 这个问题的一些背景:我正在处理一个很少有实例的问题(例如10个正值和10个负值),并且担心我的模型可能无法很好地归纳出很好的数据/如果数据太少,可能会过度拟合。

2
了解偏差方差折衷推导
我正在阅读《统计学习的要素》一书中的偏方差权衡一章,并对第29页的公式感到怀疑。让数据来自模型,使得Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilon,其中ϵϵ\epsilon是具有期望值ε = ë [ ε ] = 0和方差。让该模型的误差的期望值是 其中是预测ϵ^=E[ϵ]=0ϵ^=E[ϵ]=0\hat{\epsilon} = E[\epsilon]=0E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(\epsilon - \hat\epsilon)^2]=E[\epsilon^2]=\sigma^2E[(Y−fk(x))2]E[(Y−fk(x))2] E[(Y-f_k(x))^2] fk(x)fk(x)f_k(x)xxx我们的学习者。根据这本书,误差为 E[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)).E[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)). E[(Y-f_k(x))^2]=\sigma^2+Bias(f_k)^2+Var(f_k(x)). 我的问题是为什么偏项不是0?开发错误的公式,我看到 E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2 E[(Y-f_k(x))^2]=\\ E[(f(x)+\epsilon-f_k(x))^2]=\\ E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]=\\ Var(f_k(x))+2E[(f(x)-f_k(x))\epsilon]+\sigma^2 因为是一个独立的随机数ϵϵ\epsilon2E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=02E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=02E[(f(x)-f_k(x))\epsilon]=2E[(f(x)-f_k(x))]E[\epsilon]=0 我哪里错了?

2
关于偏差方差权衡的问题
我正在尝试了解偏差-方差折衷,估算器的偏差与模型的偏差之间的关系以及估算器的方差与模型的方差之间的关系。 我得出以下结论: 当我们忽略估计量的偏差时,即当我们仅旨在最小化模型偏差而不考虑模型的方差时,我们倾向于过度拟合数据(换句话说,我们仅旨在最小化估计量的方差而不考虑估计量的偏差) 反之亦然,当我们忽略估计量的方差时,即当我们仅旨在最小化模型方差而忽略模型的偏差时,我们倾向于使数据拟合不足(换句话说,我们仅旨在最小化模型的偏差)。估算器,也无需考虑估算器的方差)。 我的结论正确吗?

2
为什么与套索相比,最好的子集选择不受欢迎?
我正在阅读《统计学习的元素》一书中有关最佳子集选择的内容。如果我有3个预测变量,则创建个子集:2 3 = 8x1,x2,x3x1,x2,x3x_1,x_2,x_323=823=82^3=8 无预测子集 具有预测变量子集x1x1x_1 具有预测变量子集x2x2x_2 具有预测值子集x3x3x_3 具有预测变量子集x1,x2x1,x2x_1,x_2 具有预测变量子集x1,x3x1,x3x_1,x_3 具有预测变量子集X2,X3x2,x3x_2,x_3 具有预测变量子集X1个,X2,X3x1,x2,x3x_1,x_2,x_3 然后,我在测试数据上测试所有这些模型,以选择最佳模型。 现在我的问题是为什么与套索相比,最好的子集选择不受欢迎? 如果我比较最佳子集和套索的阈值函数,我会看到最佳子集将某些系数设置为零,例如套索。但是,其他系数(非零)仍将具有ols值,它们将是无偏的。而在套索中,一些系数将为零,而其他系数(非零)将具有一些偏差。下图更好地显示了它: 从图片中,最佳子集情况下的红线部分位于灰色部分。另一部分位于x轴上,其中某些系数为零。灰线定义了无偏解。在套索中,引入了一些偏差。从该图可以看出,最好的子集比套索更好!使用最佳子集的缺点是什么?λλ\lambda

4
拟合线性模型后,是否可以将拟合残差分解为偏差和方差?
我想将数据点分类为需要更复杂的模型,或者不需要更复杂的模型。我目前的想法是将所有数据拟合为简单的线性模型,并观察残差的大小以进行此分类。然后,我读了一些关于误差的偏差和方差贡献的信息,并意识到,如果我可以直接计算偏差,那么使用总误差(残差或标准残差)可能是更好的方法。 是否可以使用线性模型直接估算偏差?有无测试数据?交叉验证是否对您有帮助? 如果不是,是否可以使用线性模型的平均自举合奏(我认为它称为装袋)来近似偏差?

1
线性回归偏差方差分解中的方差项
在“统计学习的要素”中,线性模型的偏差方差分解的表达式为 其中是实际目标函数,是模型和是对线性估计。˚F (X 0)σ 2 ε ÿ = ˚F (X )+ εEr r (x0)=σ2ϵ+E[f(x0)- ËF^(x0)]2+ | | h (x0)| |2σ2ϵ,E[R[R(X0)=σϵ2+Ë[F(X0)-ËF^(X0)]2+||H(X0)||2σϵ2,Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,F(x0)F(X0)f(x_0)σ2ϵσϵ2 \sigma_\epsilon^2y=f(x)+ϵy=f(x)+ϵy=f(x)+\epsilonf^(x)f^(x)\hat f(x)f(x)f(x)f(x) 方差项在这里令我感到困扰,因为等式暗示如果目标无噪声,即,方差将为零但这对我来说没有意义,因为即使噪声为零,对于不同的训练集,我仍然可以获得不同的估计值,这意味着方差不为零。σ2ϵ=0.σϵ2=0.\sigma_\epsilon^2=0.f^(x0)f^(x0)\hat f(x_0) 例如,假设目标函数是二次方,并且训练数据包含从该二次方随机采样的两个点;显然,每次从二次目标中随机采样两个点时,我都会得到不同的线性拟合。那么方差如何为零?f(x0)f(x0)f(x_0) 谁能帮助我找出我对偏差方差分解的理解中存在的问题?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.