Questions tagged «variance»

随机变量与其均值的期望平方偏差;或有关其均值的数据的平均平方偏差。

1
基尼系数和误差范围
我有一个时间序列的数据,每个时间点的N = 14个计数,我想在每个时间点计算此估计的基尼系数和标准误差。 由于我在每个时间点只有N = 14个计数,因此我通过计算折刀方差来进行计算,即从方程7汤臣Ogwang的标准误差”“计算基尼系数和它的一种方便的方法”。其中G ^(Ñ,ķ)是N个值的无元件的基尼系数ķ和 ˉ ģ(X)是平均的的G ^(Ñ,ķ)。变种(G )= n − 1ñ× ∑ñk = 1(G (n ,k )− G¯(n ))2变种⁡(G)=ñ-1个ñ×∑ķ=1个ñ(G(ñ,ķ)-G¯(ñ))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G (n ,k )G(ñ,ķ)G(n,k)ķķkG¯(x )G¯(X)\bar{G}(x)G (n ,k )G(ñ,ķ)G(n,k) 上面的方差公式的直接天真实现。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested by Tomson Ogwang …

2
引导的利弊
我刚刚了解了自举的概念,并且想到了一个幼稚的问题:如果我们总是可以生成大量的数据自举样本,为什么还要费心去获取更多的“真实”数据呢? 我确实有一个解释,请告诉我我是否正确:我认为引导过程会减少方差,但是如果我的原始数据集是BIASED,那么无论有多少副本,我都将保持低方差和高偏差我在拿。

2
为什么PCA最大化投影的总方差?
克里斯托弗·毕晓普(Christopher Bishop)在他的《模式识别和机器学习》一书中写道,在将数据投影到与先前选定的组件正交的空间之后,每个连续的主分量将投影在一个维度上的方差最大化。其他人显示类似的证明。 但是,这仅证明了就最大方差而言,每个连续分量都是对一个维度的最佳投影。为什么这意味着,首先选择这样的组件,投影到5个维度的方差最大化?

3
两个变量之和的方差公式的直觉
我从以前的研究中知道 V一个- [R (甲+ 乙)= V一个- [R (甲)+ Va r (B )+ 2 Co v (A ,B )V一个[R(一个+乙)=V一个[R(一个)+V一个[R(乙)+2CØv(一个,乙)Var(A+B) = Var(A) + Var(B) + 2 Cov (A,B) 但是,我不明白为什么。我可以看到,当A和B高度变化时,其效果将是“推高”方差。这是有道理的,当您从两个高度相关的变量创建一个合成时,您倾向于将A的高观测值与B的高观测值相加,A的低观测值与B的低观测值相加。在复合变量中创建极高和极低的值,从而增加复合变量的方差。 但为什么它的工作原理通过乘以协方差恰好 2?

5
如何测量词频数据中的离散度?
如何量化字数向量中的离散量?我正在寻找一种统计数据,该统计数据对于文档A而言会很高,因为它包含许多不经常出现的单词,而对于文档B而言却很低,因为它包含一个经常出现的单词(或几个单词)。 更一般而言,如何测量名义数据中的离散或“扩散”? 文本分析社区中是否有标准的方法?

1
如何获得非PCA特征向量的向量的“特征值”(解释方差的百分比)?
我想了解如何获取数据集的方差百分比,而不是在PCA提供的坐标空间中,而是在稍微不同的一组(旋转)向量上。 set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee <- eigen(cov(vecs))$values a1 <- vv[, 1] a2 <- vv[, 2] theta = pi/10 rotmat <- matrix(c(cos(theta), sin(theta), -sin(theta), …


3
统计测试,以验证两个相似的时间序列何时开始偏离
从标题开始,我想知道是否存在统计测试,可以帮助我确定两个相似时间序列之间的重大差异。具体来说,看下图,我想检测到序列在时间t1开始发散,即它们之间的差异开始显着。此外,我还将检测系列之间的差异何时不显着。 有任何有用的统计检验可以做到这一点吗?

1
该估计量的方差是多少
我想估计函数f的平均值,即 ,其中和是独立随机变量。我有f的样本,但没有iid:有iid样本,每个有来自样本:EX,Y[f(X,Y)]EX,Y[f(X,Y)]E_{X,Y}[f(X,Y)]XXXYYYY1,Y2,…YnY1,Y2,…YnY_1,Y_2,\dots Y_nYiYiY_ininin_iXXXXi,1,Xi,2,…,Xi,niXi,1,Xi,2,…,Xi,niX_{i,1},X_{i,2},\dots, X_{i,n_i} 所以总共我有样本f(X1,1,Y1)…f(X1,n1,Y1)…f(Xi,j,Yi)…f(Xn,nn,Yn)f(X1,1,Y1)…f(X1,n1,Y1)…f(Xi,j,Yi)…f(Xn,nn,Yn)f(X_{1,1},Y_1) \dots f(X_{1,n_1},Y_1 ) \dots f(X_{i,j},Y_i) \dots f(X_{n,n_n},Y_n) 为了估计平均值,我计算 显然,所以是一个无偏估计量。我现在想知道什么是,即估计量的方差是多少。μ=∑i=1n1/n∗∑j=1nif(Xi,j,Yi)niμ=∑i=1n1/n∗∑j=1nif(Xi,j,Yi)ni\mu=\sum_{i=1}^n 1/n * \sum_{j=1}^{n_i}\frac{ f(X_{i,j},Y_i)}{n_i}EX,Y[μ]=EX,Y[f(X,Y)]EX,Y[μ]=EX,Y[f(X,Y)]E_{X,Y}[\mu]=E_{X,Y}[f(X,Y)]μμ\muVar(μ)Var(μ)Var(\mu) 编辑2:这是正确的方差吗? 它似乎在极限中起作用,即,如果n = 1且所有则方差仅成为均值的方差。如果该公式成为估计量方差的标准公式。它是否正确?我如何证明它是? Var(μ)=VarY(μi)n+∑i=1nVarX(f(X,Yi)))ni∗n2Var(μ)=VarY(μi)n+∑i=1nVarX(f(X,Yi)))ni∗n2Var(\mu)=\frac{Var_Y(\mu_i)}{n}+\sum_{i=1}^n \frac{Var_X(f(X,Y_i)))}{n_i*n^2}ni=∞ni=∞n_i=\inftyni=1ni=1n_i=1 编辑(忽略此内容): 因此,我想我取得了一些进展:让我们首先定义,这是对。μi=∑nij=1f(Xi,j,Yi)niμi=∑j=1nif(Xi,j,Yi)ni\mu_i=\sum_{j=1}^{n_i}\frac{ f(X_{i,j},Y_i)}{n_i}EX[f(X,Yi)]EX[f(X,Yi)]E_X[f(X,Y_i)] 使用方差的标准公式,我们可以编写: Var(μ)=1/n2∑l=1n∑k=1nCov(μl,μk)Var(μ)=1/n2∑l=1n∑k=1nCov(μl,μk)Var(\mu)=1/n^2 \sum_{l=1}^n \sum_{k=1}^n Cov(\mu_l,\mu_k) 可以简化为 和因为是独立绘制的,所以我们可以进一步简化为 并且对于协方差: 1/n2(∑i=1nVar(μl)+1/n2∑l=1n∑k=l+1n2∗Cov(μl,μk))1/n2(∑i=1nVar(μl)+1/n2∑l=1n∑k=l+1n2∗Cov(μl,μk))1/n^2( \sum_{i=1}^n Var(\mu_l)+ 1/n^2\sum_{l=1}^n \sum_{k=l+1}^n 2*Cov(\mu_l,\mu_k))XijXijX_{ij}1/n2(∑i=1n1/niVar(f(Xi,j,Yi))+1/n2∑l=1n∑k=l+1n2∗Cov(μl,μk))1/n2(∑i=1n1/niVar(f(Xi,j,Yi))+1/n2∑l=1n∑k=l+1n2∗Cov(μl,μk))1/n^2( \sum_{i=1}^n 1/n_i Var(f(X_{i,j},Y_i))+1/n^2 \sum_{l=1}^n \sum_{k=l+1}^n 2*Cov(\mu_l,\mu_k))Cov(μl,μk)=Cov(∑j=1nlf(Xj,l,Yl)nl,∑j=1nkf(Xj,k,Yk)nk)=1(nk∗nl)∗Cov(∑j=1nlf(Xj,l,Yl),∑j=1nkf(Xj,k,Yk))=1(nk∗nl)∗∑j=1nl∑j=1nkCov(f(X,Yl),f(X,Yk))=nk∗nl(nk∗nl)Cov(f(Xi,l,Yl),f(Xi,k,Yk))=Cov(f(X,Yl),f(X,Yk))Cov(μl,μk)=Cov(∑j=1nlf(Xj,l,Yl)nl,∑j=1nkf(Xj,k,Yk)nk)=1(nk∗nl)∗Cov(∑j=1nlf(Xj,l,Yl),∑j=1nkf(Xj,k,Yk))=1(nk∗nl)∗∑j=1nl∑j=1nkCov(f(X,Yl),f(X,Yk))=nk∗nl(nk∗nl)Cov(f(Xi,l,Yl),f(Xi,k,Yk))=Cov(f(X,Yl),f(X,Yk))\begin{align} Cov(\mu_l,\mu_k)&=Cov(\sum_{j=1}^{n_l} \frac{f(X_{j,l},Y_l)}{n_{l}},\sum_{j=1}^{n_k} \frac{f(X_{j,k},Y_k)}{n_{k}})\\ …

2
基于精度(即反方差)的加权是否是荟萃分析不可或缺的?
基于精度的加权是荟萃分析的核心吗?Borenstein等。(2009)写道,为了使荟萃分析成为可能,所有必要的是: 研究报告的点估计值可以表示为单个数字。 可以为该点估计计算方差。 我尚不清楚为什么(2)绝对必要。但是,实际上,所有被广泛接受的荟萃分析方法都依赖于基于精度的(即逆方差)加权方案,这确实需要估算每个研究的效应量的方差。请注意,虽然对冲方法(Hedges&Olkin,1985; Hedges&Vevea,1998)和Hunter and Schmidt's Method(Hunter&Schmidt,2004)基本上都使用样本大小加权,但这些方法仅适用于归一化均值差,因此需要其他地方的标准差。在每个研究中与方差成反比的权重将使总效应量估计器中的方差最小化是有意义的,那么这种加权方案是否是所有方法的必要特征? 是否有可能进行系统的评估而无需访问每种效应量的方差,仍将结果称为荟萃分析?当方差不可用时,样本量似乎有可能替代精度。例如,在一项将效应量定义为原始均值差的研究中,可以使用样本量权重吗?这将如何影响结果平均大小的一致性和效率?

3
统计测试以比较两个设备的精度
我正在比较两种温度控制设备,它们均设计用于将麻醉患者的体温保持在恰好37度。该设备适合500名患者,分为两组。A组(400例患者)-设备1,B组(100例患者)-设备2。每位患者每小时测量一次体温,持续36小时,为我提供了两组的18000个数据点。我需要确定在36小时内哪种设备可以更精确地控制患者的体温。我已经构造了折线图,将每个时间点的中位数与四分位数条连接起来,在视觉上似乎有所不同。我应该如何分析我的数据以证明统计差异?

1
广义加性模型的方差膨胀因子
在用于线性回归的常规VIF计算中,每个自变量/解释变量在普通最小二乘回归中均被视为因变量。即XjXjX_j Xj=β0+∑i=1,i≠jnβiXiXj=β0+∑i=1,i≠jnβiXi X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i 的值被存储用于每个的回归和VIF由下式确定R2R2R^2nnn VIFj=11−R2jVIFj=11−Rj2 VIF_j = \frac{1}{1-R^2_j} 对于特定的解释变量。 假设我的广义加性模型采用以下形式: Y=β0+∑i=1nβiXi+∑j=1msj(Xi).Y=β0+∑i=1nβiXi+∑j=1msj(Xi). Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + \sum_{j=1}^m s_j(X_i) . 这种类型的模型是否有等效的VIF计算?有什么方法可以控制平滑项来测试多重共线性吗?sjsjs_j

2
在一个样本t检验,在方差如果发生了什么估计样本均值被替换为
假定一个单样本t检验,其中,所述零假设为。统计是然后吨= ‾ X - μ 0μ = μ0μ=μ0\mu=\mu_0使用样本标准差s。在估计小号,一个观测比较样本均值¯X:t = x¯¯¯- μ0s / n√t=x¯−μ0s/nt=\frac{\overline{x}-\mu_0}{s/\sqrt{n}}ssssssX¯¯¯x¯\overline{x} 。s = 1n − 1∑ñ我= 1(x一世− x¯¯¯)2---------------√s=1n−1∑i=1n(xi−x¯)2s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2} 然而,如果我们假设在给定是真实的,人们也可以估算标准偏差小号*使用μ 0,而不是样本均值¯ X:μ0μ0\mu_0s∗s∗s^*μ0μ0\mu_0X¯¯¯x¯\overline{x} 。s∗= 1n − 1∑ñ我= 1(x一世- μ0)2----------------√s∗=1n−1∑i=1n(xi−μ0)2s^*=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\mu_0)^2} 对我来说,这种方法看起来更自然,因为我们因此也将原假设用于估计SD。有谁知道测试中是否使用了所得统计量,或者为什么不知道?



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.