Questions tagged «variance»

随机变量与其均值的期望平方偏差;或有关其均值的数据的平均平方偏差。

3
有界数据集的变异系数最大值
在有关标准偏差是否可以超出均值的最新问题之后的讨论中,曾短暂提出一个问题,但从未完全回答。所以我在这里问。 考虑一组非负数 ,其中表示。不需要是不同的,也就是说,集合可以是多集。该集合的均值和方差定义为 ,标准偏差为。请注意,数字集不是来自总体的样本,我们也不是估算总体均值或总体方差。那么问题是:nnnxixix_i0≤xi≤c0≤xi≤c0 \leq x_i \leq c1≤i≤n1≤i≤n1 \leq i \leq nxixix_ix¯=1n∑i=1nxi, σ2x=1n∑i=1n(xi−x¯)2=(1n∑i=1nx2i)−x¯2x¯=1n∑i=1nxi, σx2=1n∑i=1n(xi−x¯)2=(1n∑i=1nxi2)−x¯2\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2σxσx\sigma_x 在间隔[0,c]中,对于x_i的所有选择,\ dfrac {\ sigma_x} {\ bar {x}}的最大值σxx¯σxx¯\dfrac{\sigma_x}{\bar{x}}(变异系数)是多少?xixix_i[0,c][0,c][0,c] 我可以找到的最大值σxx¯σxx¯\frac{\sigma_x}{\bar{x}}是n−1−−−−−√n−1\sqrt{n-1} 时,其实现了n−1n−1n-1所述的xixix_i具有值000和剩余的(离群值)xixix_i 具有值ccc,给出 x¯=cn, 1n∑x2i=c2n⇒σx=c2n−c2n2−−−−−−−√=cnn−1−−−−−√.x¯=cn, 1n∑xi2=c2n⇒σx=c2n−c2n2=cnn−1.\bar{x} = \frac{c}{n},~~ \frac{1}{n}\sum x_i^2 = \frac{c^2}{n} \Rightarrow \sigma_x …

3
主成分分析“向后”:给定的变量线性组合可解释多少数据差异?
我对六个变量AAA,BBB,CCC,DDD,EEE和进行了主成分分析FFF。如果我理解正确,未旋转的PC1会告诉我这些变量的线性组合描述/解释了数据中的最大方差,而PC2告诉我这些变量的线性组合描述了数据中的第二大方差,依此类推。 我只是很好奇-有什么办法可以做到这一点吗?假设我选择了这些变量的线性组合-例如A+2B+5CA+2B+5CA+2B+5C,我能算出所描述数据的方差是多少?

4
计算所需的样本量,方差估计的精度?
背景 我有一个未知分布的变量。 我有500个样本,但是我想证明我可以计算方差的精度,例如说500的样本量就足够了。我也想知道以的精度估算方差所需的最小样本量X%X%X\%。 问题 我该如何计算 给定样本量,我估计方差的精度n=500n=500n=500?的n=Nn=Nn=N? 如何计算以精度估算方差所需的最小样本数XXX? 例 图1基于500个样本的参数密度估计。 图2这是我使用500个样本的子样本计算出的x轴上的样本大小与y轴上的方差估计值之间的关系图。想法是随着n的增加,估计值将收敛到真实方差。 然而,估计是无效的独立自样品用于估计方差n∈[10,125,250,500]n∈[10,125,250,500]n \in [10,125,250,500]是不相互独立的或在用于计算方差的样本n∈[20,40,80]n∈[20,40,80]n\in [20,40,80]

5
从协方差矩阵衡量“方差”?
如果数据为1d,则方差表示数据点彼此不同的程度。如果数据是多维的,我们将获得协方差矩阵。 对于多维数据,通常有没有一种方法可以给出单个的数据点彼此之间如何不同的数量? 我认为可能已经有很多解决方案,但是我不确定搜索所用的正确术语。 也许我可以做一些事情,例如将协方差矩阵的特征值相加,这听起来明智吗?

2
为什么将标准偏差定义为方差的平方根而不是N的平方和的平方根?
今天我教了一门统计学入门课,一个学生问我一个问题,在这里我改写为:“为什么标准偏差定义为方差的平方根而不是N的平方和的平方根?” 我们定义总体方差:σ2=1N∑(xi−μ)2σ2=1N∑(xi−μ)2\sigma^2=\frac{1}{N}\sum{(x_i-\mu)^2} 和标准差:。σ=σ2−−√=1N√∑(xi−μ)2−−−−−−−−−−√σ=σ2=1N∑(xi−μ)2\sigma=\sqrt{\sigma^2}=\frac{1}{\sqrt{N}}\sqrt{\sum{(x_i-\mu)^2}} 我们可能对的解释是,它给出了总体中单位与的总体平均值的平均偏差。σσ\sigmaXXX 但是,在sd的定义中,我们将平方和的平方根除以。学生提出的问题是,为什么我们不划分平方庙的开方代替。因此,我们得出了竞争公式:学生认为,这种公式看起来更像由平均通过时分割比一个“平均”偏差如在。N−−√N\sqrt{N}NNNσnew=1N∑(xi−μ)2−−−−−−−−−−√.σnew=1N∑(xi−μ)2.\sigma_{new}=\frac{1}{N}\sqrt{\sum{(x_i-\mu)^2}}.N−−√N\sqrt{N}σσ\sigma 我认为这个问题并不愚蠢。我想给学生一个答案,那就是说sd 定义为方差的平方根,即均方根偏差。换句话说,为什么学生应该使用正确的公式而不遵循她的想法? 该问题与此处提供的旧主题和答案有关。那里的答案有三个方向: σσ\sigma是均方根(RMS)偏差,而不是与平均值的“典型”偏差(即)。因此,它的定义有所不同。σnewσnew\sigma_{new} 它具有良好的数学特性。 此外,sqrt将使“单位”恢复到原始大小。但是,也是如此,它被N除以。σnewσnew\sigma_{new}NNN 第1点和第2点都是支持sd作为RMS的参数,但是我看不到反对使用σnewσnew\sigma_{new}。怎样说服入门级学生使用均方根平均距离σσ\sigma与均值?

2
当平均方差受到关注时,可以/应该将哪些先验分布用于分层贝叶斯模型中的方差?
在他被广泛引用的论文中,层次模型中方差参数的先验分布 (到目前为止,在Google学术搜索中已有916次引用)Gelman提出,对于贝叶斯分层模型,方差的良好非信息性先验分布是均匀分布和Half t分布。如果我理解正确的话,那么当主要关注位置参数(例如均值)时,这将很好地工作。有时,方差参数是主要关注的问题,例如,当分析来自计时任务的人的响应数据时,意味着计时的可变性通常是关注的度量。在那些情况下,我不清楚如何用例如均匀分布的分层方法对可变性进行建模,因为我在分析后想获得参与者水平和小组水平的平均方差的可信度。 然后我的问题是:在主要考虑数据方差的情况下,建立分层贝叶斯模型时,建议采用哪种分布? 我知道伽马分布可以重新设定为均值和标准差。例如,下面的层次模型来自Kruschke的书《做贝叶斯数据分析》。但是,盖尔曼(Gelman)在他的文章中概述了伽玛分布的一些问题,我很感谢提出替代方案的建议,最好是不难在BUGS / JAGS中工作的替代方案。


2
方差的线性
我认为以下两个公式是正确的: Var(aX)=a2Var(X)Var(aX)=a2Var(X) \mathrm{Var}(aX)=a^2 \mathrm{Var}(X) 而a是一个常数 如果,独立Var(X+Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y) \mathrm{Var}(X + Y)=\mathrm{Var}(X)+\mathrm{Var}(Y) XXXYYY 但是,我不确定以下内容有什么问题: Var(2X)=Var(X+X)=Var(X)+Var(X)Var(2X)=Var(X+X)=Var(X)+Var(X)\mathrm{Var}(2X) = \mathrm{Var}(X+X) = \mathrm{Var}(X) + \mathrm{Var}(X) 不等于,即。22Var(X)22Var(X)2^2 \mathrm{Var}(X)4Var(X)4Var(X)4\mathrm{Var}(X) 如果假设是从总体中抽取的样本,我想我们总是可以假设与其他 s 独立。XXXXXXXXX 那么我的困惑到底出了什么问题?

5
合并方差“实际上”是什么意思?
我是统计方面的菜鸟,所以请您在这里帮助我。 我的问题如下:合并方差实际上是什么意思? 当我在互联网上寻找汇总方差的公式时,我发现很多使用以下公式的文献(例如,在这里:http : //math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html): S2p=S21(n1−1)+S22(n2−1)n1+n2−2Sp2=S12(n1−1)+S22(n2−1)n1+n2−2\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation} 但是它实际计算的是什么?因为当我使用此公式计算合并方差时,它给了我错误的答案。 例如,考虑以下“父样本”: 2,2,2,2,2,8,8,8,8,82,2,2,2,2,8,8,8,8,8\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation} 该父样本的方差为,其均值为。S2p=10Sp2=10S^2_p=10x¯p=5x¯p=5\bar{x}_p=5 现在,假设我将此父样本拆分为两个子样本: 第一个子样本是2,2,2,2,2,均值和方差。x¯1=2x¯1=2\bar{x}_1=2S21=0S12=0S^2_1=0 第二个子样本为8,8,8,8,8,均值且方差。x¯2=8x¯2=8\bar{x}_2=8S22=0S22=0S^2_2=0 现在,显然,使用上面的公式来计算这两个子样本的合并/父方方差将产生零,因为和。那么,该公式实际计算的是什么?S1=0S1=0S_1=0S2=0S2=0S_2=0 另一方面,经过长时间的推导,我发现产生正确的合并/父方方差的公式为: S2p=S21(n1−1)+n1d21+S22(n2−1)+n2d22n1+n2−1Sp2=S12(n1−1)+n1d12+S22(n2−1)+n2d22n1+n2−1\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + n_1 d_1^2 + S_2^2 (n_2-1) + n_2 d_2^2} {n_1 + …
15 variance  mean  pooling 

5
两种一级方程式资格赛格式的统计差异
我刚刚读了这篇BBC文章,其中涉及一级方程式的排位赛格式。 组织者希望降低排位赛的可预测性,即增加结果的统计差异。在一些无关紧要的细节上,现在(根据具体情况)两次尝试按照最佳单圈对车手进行排名。 一位F1负责人让·托德(Jean Todt)提出,将驾驶员平均排名两圈会增加统计差异,因为驾驶员犯错的可能性可能是其两倍。其他资料认为,任何平均数肯定会减少统计差异。 我们可以说在合理的假设下谁是对的?我想它可以归结为与的相对方差,其中和是代表驾驶员两个圈速的随机变量?mean(x,y)mean(x,y)\text{mean}(x,y)min(x,y)min(x,y)\text{min}(x,y)xxxyyy
15 variance 

2
关于偏差方差权衡的问题
我正在尝试了解偏差-方差折衷,估算器的偏差与模型的偏差之间的关系以及估算器的方差与模型的方差之间的关系。 我得出以下结论: 当我们忽略估计量的偏差时,即当我们仅旨在最小化模型偏差而不考虑模型的方差时,我们倾向于过度拟合数据(换句话说,我们仅旨在最小化估计量的方差而不考虑估计量的偏差) 反之亦然,当我们忽略估计量的方差时,即当我们仅旨在最小化模型方差而忽略模型的偏差时,我们倾向于使数据拟合不足(换句话说,我们仅旨在最小化模型的偏差)。估算器,也无需考虑估算器的方差)。 我的结论正确吗?

3
预测异方差数据的方差
我正在尝试对异方差数据进行回归分析,以预测线性模型中的误差方差和均值。像这样: ÿ(x ,t )ξ(x ,t )ÿ¯(x ,t )σ(x ,t )= y¯(x ,t ) + ξ(x ,t ),〜ñ(0 ,σ(x ,t )),= y0+ a x + b t ,= σ0+ c x + dŤ 。y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 换句话说,数据包括在和各种值下重复测量。我假设这些测量值是“真实”平均值,它是和的线性函数,加性高斯噪声的标准偏差(或方差,我还没有决定)也线性地取决于。(我可以允许对和进行更复杂的依赖-线性形式没有很强的理论动机-但我不希望在现阶段使事情复杂化。)X 吨ˉ Ý(X ,吨)X …

6
如何检测极化的用户意见(高和低星级)
如果我有一个星级评分系统,用户可以在其中表达对某产品或某项商品的偏爱,那么我该如何统计选票是否被“高分”。意思是,即使对于给定的产品,平均值是5分之3,我如何仅使用数据(没有图形方法)如何检测到1-5拆分与共识3

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
为方差创建置信区间时为什么使用卡方?
这是一个非常基本的问题。为什么我们使用卡方分布?这种分布是什么意思?为什么将这种分布用于创建方差的置信区间? 我用Google搜索的每个地方都只是说明了一个事实,说明了何时使用chi,但没有说明为什么要使用chi,以及为什么会使用它。 非常感谢任何可以将我引向正确方向的人,也就是-真正理解我为方差创建置信区间时为什么使用chi的原因。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.