统计和大数据 variance

3

TL，DR：看来，与经常重复的建议相反，采用留一法交叉验证（LOO-CV），即KKK倍CV，其中KKK（折数）等于NNN（数训练观察值）-得出泛化误差的估计值，该估计值对于任何 K都是最小变量，而不是最大变量，假设模型/算法，数据集或两者都有一定的稳定性条件（我不确定哪个是正确的，因为我不太了解这种稳定性条件。KKK 有人可以清楚地说明这个稳定条件到底是什么吗？线性回归就是这样一种“稳定”算法，这是否真的意味着在这种情况下，就泛化误差估计的偏差和方差而言，LOO-CV严格来说是CV的最佳选择？传统观点认为，在K倍CV中选择KKK时要遵循偏差方差的折衷，这样较低的K值（逼近2）会导致对泛化误差的估计，这些偏差具有更悲观的偏差，但方差较小，而值较高（接近N）的K导致估计的偏差较小，但方差更大。关于这种随着K增大而增加的方差现象的常规解释可能在《统计学习的要素》（第7.10.1节）中最突出地给出：KKKKKKKKKNNNKKK 在K = N的情况下，交叉验证估计器对于真实的（预期）预测误差几乎是无偏的，但是由于N个“训练集”彼此非常相似，因此交叉验证估计器可能具有较高的方差。这意味着NNN验证错误之间的相关性更高，因此它们的总和更具可变性。在本网站（例如，这里，这里，这里，这里，这里，这里和这里）以及各种博客等上的许多答案中都重复了这种推理方法。但是实际上，从来没有给出详细的分析，而是只是分析的直觉或简要草图。但是，人们可以找到矛盾的陈述，通常是出于某种我不太了解的“稳定”条件。例如，这个矛盾的答案引用了2015年一篇论文的几段内容，其中包括：“对于不稳定性低的模型/建模程序，LOO通常具有最小的可变性”（强调后加）。本文（第5.2节）似乎同意，只要模型/算法“稳定” ，LOO就代表的最小变量选择。对此问题甚至采取另一种立场（推论2），该论文说：“ k倍交叉验证的方差不取决于kKKKkkkkkk”，再次引用了某种“稳定性”条件。关于为什么LOO可能是变化最大的折CV的解释很直观，但是有一个直觉。均方误差（MSE）的最终CV估算值是每一倍MSE估算值的平均值。因此，当K增加到N时，CV估计值是随机变量数量增加的平均值。而且我们知道，均值的方差会随着变量数量的平均化而减小。因此，为了使LOO成为变化最大的K倍CV，必须确实如此，由于MSE估计之间的相关性增加而导致的方差增加要大于因平均获得的折叠次数更多而导致的方差减少。KKKKKKNNNKKK。事实并非如此，这一点也不明显。考虑到所有这些问题后，我变得非常困惑，我决定对线性回归案例进行一些模拟。我用 = 50和3个不相关的预测变量模拟了10,000个数据集，每次使用K = 2、5、10 或50 = N的K倍CV 估计泛化误差。R代码在这里。以下是所有10,000个数据集（以MSE单位）的CV估计值的均值和方差：NNNKKKKKKNNN k = 2 k = 5 k = 10 k = n = 50 mean 1.187 1.108 1.094 1.087 variance 0.094 0.058 0.053 0.051 这些结果显示了预期的模式，即较高的值导致较小的悲观偏见，但似乎也证实了在LOO情况下CV估计的方差最低，而不是最高。KKK 因此，线性回归似乎是上述论文中提到的“稳定”情况之一，其中增加与CV估计中的减少而不是增加的方差有关。但是我仍然不明白的是：KKK “稳定”条件到底是什么？它在某种程度上适用于模型/算法，数据集，或两者都适用？有没有一种直观的方式来考虑这种稳定性？ …

37 regression machine-learning variance cross-validation predictive-models

3

简单线性回归中回归系数的导数方差

在简单的线性回归，我们有y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + u，其中u∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)。我导出的估计： β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , 其中x¯x¯\bar{x}和y¯y¯\bar{y}是的样本均值xxx和yyy。现在，我想找到的方差β 1。我衍生像下面这样：无功（^ β 1）= σ 2（1 - 1β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 推导如下： Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , …

37 regression mathematical-statistics variance linear-model regression-coefficients

6

为什么协方差估计量的分母不应该是n-2而不是n-1？

（无偏）方差估计量的分母为因为有观测值，并且仅估计了一个参数。n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 同样，我想知道为什么在估计两个参数时协方差的分母为何不为？n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

36 self-study variance covariance descriptive-statistics unbiased-estimator

4

分布如何具有无限的均值和方差？

如果能给出以下例子，将不胜感激：均值和方差无限的分布。具有无限均值和有限方差的分布。具有有限均值和无限方差的分布。具有有限均值和有限方差的分布。这是因为我看到了我正在阅读，在Google谷歌搜索和阅读Wilmott论坛/网站上的主题的文章中使用的这些陌生术语（无限均值，无限方差），却没有找到足够清晰的解释。我自己的教科书中也没有找到任何解释。

35 distributions variance mean

5

为什么增加样本大小会降低（抽样）方差？

大图：我试图了解增加样本数量如何增加实验的功效。我的讲师的幻灯片用2个正态分布的图片对此进行了解释，一个是零假设，一个是替代假设，它们之间的决策阈值c。他们认为，增加样本量将降低方差，从而导致较高的峰度，从而减少曲线下的共享区域，从而降低II型错误的可能性。小图：我不知道更大的样本量如何降低方差。我假设您只是计算样本方差并将其用作正态分布中的参数。我试过了：谷歌搜索，但大多数被接受的答案有0赞或仅仅是示例思考：根据大数定律，每个值最终应根据我们假设的正态分布稳定在其可能值附近。因此，方差应该收敛到我们假设的正态分布的方差。但是，该正态分布的方差是多少，它是一个最小值吗？也就是说，我们可以确定样本方差减小到那个值吗？

35 variance sampling power

3

手动计算逻辑回归95％置信区间与在R中使用confint（）函数之间为什么会有区别？

亲爱的大家-我注意到我无法解释的怪事，可以吗？总之：在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。我一直在研究Hosmer＆Lemeshow的Applied Logistic回归（第二版）。在第3章中，有一个计算比值比和95％置信区间的示例。使用R，我可以轻松地重现模型： Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

4

（为什么）过拟合模型的系数往往较大？

我认为变量的系数越大，模型在该维度上“摆动”的能力就越强，从而增加了拟合噪声的机会。尽管我认为我对模型中的方差与大系数之间的关系有一个合理的认识，但是我对为什么它们出现在过拟合模型中却没有很好的认识。说它们是过度拟合的症状是不正确的，系数收缩更是一种减少模型方差的技术吗？通过系数收缩进行正则化的原理似乎是：大系数是过度拟合模型的结果，但也许我误解了该技术背后的动机。我的直觉是大系数通常是过度拟合的症状，来自以下示例：假设我们要拟合全部位于x轴上的个点。我们可以很容易地构造一个多项式，其解为这些点：。假设我们的点位于。该技术给出所有大于等于10的系数（一个系数除外）。随着我们添加更多点（从而增加多项式的次数），这些系数的大小将迅速增加。f （x ）= （x − x 1）（x − x 2）。。。。（X - X ñ - 1）（X - X Ñ）X = 1 ，2 ，3 ，4ññnF（x ）= （x − x1个）（x − x2）。。。。（x − xn − 1）（x − xñ）F（X）=（X-X1个）（X-X2）。。。。（X-Xñ-1个）（X-Xñ）f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)X = 1 ，2 ，3 ，4X=1个，2，3，4x=1,2,3,4 这个示例是我当前如何将模型系数的大小与生成的模型的“复杂性”联系起来的方式，但是我担心这种情况对于实际显示行为是不正确的。我特意建立了一个过拟合模型（对二次抽样模型生成的数据进行了10次多项式OLS拟合），并惊讶地发现模型中的系数很小： set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) …

33 regression variance linear-model bias regularization

4

有限方差和无限方差有什么区别

有限方差和无限方差有什么区别？我的统计知识非常基础；维基百科/谷歌在这里没有太多帮助。

33 variance intuition partial-moments

2

一个随机变量的函数的方差

假设我们有随机变量XXX，其方差和均值已知。问题是：对于给定的函数f ，的方差是多少f(X)f(X)f(X)。我知道的唯一通用方法是增量方法，但它仅提供近似值。现在我对f （x ）= √感兴趣f(x)=x−−√f(x)=xf(x)=\sqrt{x}，但是了解一些通用方法也很高兴。编辑29.12.2010 我已经使用泰勒级数进行了一些计算，但是我不确定它们是否正确，因此如果有人可以确认它们，我将非常高兴。首先，我们需要近似E[f(X)]E[f(X)]E[f(X)] E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2]=f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot f''(\mu)\cdot Var[X] 现在我们可以近似D2[f(X)]D2[f(X)]D^2 [f(X)] E[(f(X)−E[f(X)])2]≈E[(f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2−E[f(X)])2]E[(f(X)−E[f(X)])2]≈E[(f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2−E[f(X)])2]E[(f(X)-E[f(X)])^2] \approx E[(f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2 -E[f(X)])^2] 使用的近似我们知道˚F （μ ）- ë ˚F （X ）≈ - 1E[f(X)]E[f(X)]E[f(X)]f(μ)−Ef(x)≈−12⋅f′′(μ)⋅Var[X]f(μ)−Ef(x)≈−12⋅f″(μ)⋅Var[X]f(\mu)-Ef(x) \approx -\frac{1}{2}\cdot f''(\mu)\cdot Var[X] 使用此，我们得到： D2[f(X)]≈14⋅f′′(μ)2⋅Var[X]2−12⋅f′′(μ)2⋅Var[X]2+f′(μ)2⋅Var[X]+14f′′(μ)2⋅E[(X−μ)4]+12f′(μ)f′′(μ)E[(X−μ)3]D2[f(X)]≈14⋅f″(μ)2⋅Var[X]2−12⋅f″(μ)2⋅Var[X]2+f′(μ)2⋅Var[X]+14f″(μ)2⋅E[(X−μ)4]+12f′(μ)f″(μ)E[(X−μ)3]D^2[f(X)] \approx \frac{1}{4}\cdot f''(\mu)^2\cdot Var[X]^2-\frac{1}{2}\cdot f''(\mu)^2\cdot Var[X]^2 + f'(\mu)^2\cdot Var[X]+\frac{1}{4}f''(\mu)^2\cdot E[(X-\mu)^4] +\frac{1}{2}f'(\mu)f''(\mu)E[(X-\mu)^3] D2[f(X)]≈14⋅f′′(μ)2⋅[D4X−(D2X)2]+f′(μ)⋅D2X+12f′(μ)f′′(μ)D3XD2[f(X)]≈14⋅f″(μ)2⋅[D4X−(D2X)2]+f′(μ)⋅D2X+12f′(μ)f″(μ)D3XD^2 [f(X)] \approx …

33 variance random-variable delta-method

3

给定已知的组方差，均值和样本量，如何计算两个或多个组的合并方差？

假设有元素分为两组（和）。第一组的方差为，第二组的方差为。元素本身被假定为未知，但我知道均值和。m + n米+ñm+n米米mññnσ2米σ米2\sigma_m^2σ2ñσñ2\sigma^2_nμ米μ米\mu_mμñμñ\mu_n 有一种方法来计算组合的方差σ2（m + n ）σ（米+ñ）2\sigma^2_{(m+n)}？方差不必是无偏的，因此分母是（m + n ）（米+ñ）(m+n)而不是（m + n − 1 ）（米+ñ-1个）(m+n-1)。

32 variance pooling

1

时间序列上混合效应模型的预测值总和的方差

我有一个混合效果模型（实际上是广义加性混合模型），可以为我提供时间序列的预测。考虑到我缺少数据，我使用corCAR1模型来抵消自相关。数据应该给我带来了总的负担，所以我需要对整个预测间隔求和。但我也应该估算出该总负载下的标准误差。如果所有预测都是独立的，则可以通过以下方式轻松解决： V a r （E [ X i ] ）= S E （E [ X i ] ）2V一个[R （Σñ我= 1Ë[ X一世] ）= ∑ñ我= 1V一个[R （ê[ X一世] ）V一种[R（∑一世=1个ñË[X一世]）=∑一世=1个ñV一种[R（Ë[X一世]）Var(\sum^{n}_{i=1}E[X_i]) = \sum^{n}_{i=1}Var(E[X_i]) withV一个[R （ê[ X一世] ）= SË（E[ X一世] ）2V一种[R（Ë[X一世]）=小号Ë（Ë[X一世]）2Var(E[X_i]) = SE(E[X_i])^2 问题是，预测值来自模型，原始数据具有自相关。整个问题导致以下问题：我是否可以假设将计算得出的预测的SE解释为该预测的期望值的方差根部，这是正确的吗？我倾向于将预测解释为“平均预测”，因此总结了一系列的均值。如何在这个问题中包含自相关，或者我可以安全地假设它不会对结果产生太大影响？这是R中的一个例子。我的真实数据集约有34.000个测量值，因此可伸缩性是一个问题。这就是为什么我在每个月内对自相关建模的原因，否则就无法进行计算了。这不是最正确的解决方案，但是最正确的解决方案却不可行。 set.seed(12) require(mgcv) Data <- data.frame( dates = …

32 mixed-model variance random-variable

2

因变量乘积的方差

因变量乘积方差的公式是什么？对于自变量，公式很简单： var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 但是相关变量的公式是什么？顺便问一下，如何根据统计数据找到相关性？

31 correlation variance

5

如何在机器学习中处理分层/嵌套数据

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

6

测试有限方差？

给定样本，是否可以测试随机变量方差的有限性（或存在性）？作为空值，可以接受{方差存在且为有限}或{方差不存在/为无限}。从哲学上（和在计算上），这似乎很奇怪，因为没有有限方差的总体与具有非常大方差（例如>）的总体之间应该没有区别，所以我不希望这个问题能够解决。解决了。104001040010^{400} 向我建议的一种方法是通过中央极限定理：假设样本为iid，并且总体具有有限的均值，则可以通过某种方式检查样本均值是否随着样本量的增加而具有正确的标准误。我不确定我是否相信这种方法会奏效。（特别是，我看不到如何进行适当的测试。）

29 hypothesis-testing variance central-limit-theorem

4

如何测量分布的不均匀性？

我正在尝试提出一个指标，用于衡量我正在运行的实验的分布不均匀性。我有一个随机变量，该变量在大多数情况下应均匀分布，并且我希望能够识别（并且可能测量）数据集示例，其中该变量在一定范围内不均匀分布。三个数据系列的示例每个都有10个测量值，它们代表我正在测量的事物的发生频率，可能是这样的： a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%] 我希望能够区分c之类的分布与a和b之类的分布，并测量c与均匀分布的偏差。同样，如果存在度量分布均匀性的标准（标准偏差接近零？），我也许可以用它来区分具有高方差的分布。但是，我的数据可能只有一个或两个异常值，例如上面的c示例，并且不确定是否可以通过这种方式轻松检测到。 …

28 distributions variance random-variable uniform

Questions tagged «variance»