Questions tagged «variance»

随机变量与其均值的期望平方偏差;或有关其均值的数据的平均平方偏差。

2
为什么“ X中的错误”模型没有得到更广泛的使用?
当我们计算回归系数的标准误差时,我们没有考虑设计矩阵的随机性。例如,在OLS中,我们将为XXXVAR (β^)变种(β^)\text{var}(\hat{\beta})var ((XŤX)− 1XŤÿ)= σ2(XŤX)− 1变种((XŤX)-1个XŤÿ)=σ2(XŤX)-1个\text{var}((X^TX)^{-1}X^TY) = \sigma^2(X^TX)^{-1} 如果将视为随机数,则总方差定律在某种意义上也将要求的方差也有其他贡献。即XXXXXX VAR (β^)= var (E(β^| X))+ E(var (β^| X))。变种(β^)=变种(Ë(β^|X))+Ë(变种(β^|X))。\text{var}(\hat{\beta}) = \text{var}(E(\hat{\beta}|X)) + E(\text{var}(\hat{\beta}|X)). 如果OLS估计量确实是无偏的,则第一项就消失了,因为期望是一个常数。第二项实际上变为:。σ2COV (X)− 1σ2冠状病毒(X)-1个\sigma^2 \text{cov}(X)^{-1} 如果已知的参数模型,为什么不用实际的协方差估计替换。例如,如果是随机治疗分配,则二项式方差应该是更有效的估计?XXXXŤXXŤXX^TXXXXË(X)(1 − E(X))Ë(X)(1个-Ë(X))E(X)(1-E(X)) 我们为什么不考虑使用灵活的非参数模型来估计OLS估计中可能的偏差来源,并适当考虑第一个总定律方差项设计敏感性(即的分布)”吗?XXXVAR (è(β^| X))变种(Ë(β^|X))\text{var}(E(\hat{\beta}|X))

1
Netflix为什么会从其五星级评级系统转换为喜欢/不喜欢的系统?
Netflix过去常常根据用户提交的其他电影/节目的评分来提供建议。该评级系统获得了五颗星。 现在,Netflix允许用户喜欢/不喜欢(竖起/竖起)电影/节目。他们声称对电影进行评分更容易。 从统计角度上讲,这种2向分类是否比5向分类系统更具预测性?它不会捕获更少的变化吗?

4
为什么色散测度比中心测度更直观?
在人类的理解中似乎有些东西在直觉上理解差异的概念方面造成了困难。从狭义上讲,答案是立竿见影的:平方使我们脱离了反思的理解。但是,仅仅是方差带来了问题,还是整个数据扩散的想法?我们寻求避难范围,或仅说明最小值和最大值,但我们只是避免真正的困难吗?在平均值(众数或中位数)中,我们找到了中心,摘要...是一种简化;差异分散了周围的东西并使他们不舒服。原始人肯定会通过三角剖分来祈祷,从而在狩猎动物中利用中庸之道,但是我认为,很晚以后我们才感到需要量化事物的传播。实际上,方差一词最早是在1918年由罗纳德·费舍尔(Ronald Fisher)在论文“孟德尔继承假设中的亲戚之间的相关性”中引入的。 多数关注此消息的人都会听过拉里·萨默斯(Larry Summers)关于按性别划分的数学才能的不幸演讲,这可能与他离开哈佛有关。简而言之,他建议男性与女性的数学能力分布差异更大,即使男性和女性的平均能力相同。无论适当性或政治含义如何,这似乎在科学文献中得到了证实。 更重要的是,也许对气候变化等问题的理解(请原谅我提出可能导致完全不提倡讨论的话题)可以通过提高人们对方差观念的了解而得到帮助。 如本文所示,当我们尝试掌握协方差时,这个问题变得更加复杂,这是@whuber 在此处给出的出色而丰富多彩的答案。 它可能是很有诱惑力驳回这个问题太一般,但很显然,我们正在间接地讨论这个问题,因为在这个岗位,其中数学是微不足道的,但这个概念被继续难以捉摸,belying更舒适的接受范围为反对更细微的思想差异。 在费舍尔给EBFord的一封信中,谈到了他对孟德尔实验的怀疑,我们读到:“现在,当数据被伪造时,我很清楚人们普遍低估了广泛的机会偏差的频率,因此趋势总是使他们与期望太吻合……(在孟德尔的数据中)偏差很小。” 伟大的RA费舍尔非常热衷于怀疑小样本中的微小差异,他写道:“除其他方面外,孟德尔还是被一位非常了解所期望的助手欺骗的可能性。” 如今,这种对低估或误解传播的偏见很可能继续存在。如果是这样,是否有任何解释说明为什么我们对中心概念比对分散更满意?我们可以做些什么来使这个想法内化吗? Ë我π+ 1 = 0eiπ+1=0\small e^{i\pi}+1=0Ë= 米Ç2E=mc2\small E=mc^2 纳西姆·塔莱布(Nassim Taleb)将他对方差的理解有误(实际上是贝诺伊特·曼德布罗特的理解)运用于危机发生时发了大财,并试图通过以下句子使大众理解这一概念:“方差是认识论的,这是关于缺乏对中庸之道的了解的一种衡量方法。”-是的,这口子还有更多的背景...值得称赞的是,他还通过“ 感恩节土耳其”的想法简化了这一过程。有人可能会说,投资的关键是了解方差(和协方差)。 那么,为什么这么滑,以及如何补救呢?没有公式……仅仅是多年处理不确定性的直觉……我不知道答案,但这不是数学上的(有必要):例如,我想知道峰度的想法是否会干扰方差。在下图中,我们有两个直方图重叠,几乎没有变化。但是,我的膝盖跳动反应是,尾巴最长,峰顶最高(峰度更高)的那一点更“散开”:

1
如果总体平均值已知,则估算总体方差
我知道我们用来估计群体的方差。我记得可汗学院的一段视频,根据直觉,我们的估计均值可能与实际均值因此距离实际上会更大,因此我们除以除以(而不是)获得更大的价值,从而得到更好的估计。 我记得读书的地方,我如果我有实际人口平均不需要这个修正μ代替 ˉ X。所以我估计11个n − 1∑一世(x一世− x¯)21个ñ-1个∑一世(X一世-X¯)2\frac1{n-1}\sum\limits_i(x_i - \bar{x})^2 ñ - 1个ñX一世− x¯X一世-X¯x_i - \bar{x}n − 1ñ-1个n-1ññnμμ\muX¯X¯\bar{x} ,但我无法找到它了。是真的吗 有人可以给我指点吗?1个ñ∑一世(x一世- μ )21个ñ∑一世(X一世-μ)2\frac1{n}\sum\limits_i(x_i - \mu)^2
11 variance  sample 

1
指数族分布是否均存在均值和方差?
假设标量随机变量属于具有pdf的矢量参数指数族XXX FX(x | θ )= h (x )exp(∑我= 1sη一世(θ)T一世(X )- 甲(θ))fX(x|θ)=h(x)exp⁡(∑i=1sηi(θ)Ti(x)−A(θ)) f_X(x|\boldsymbol \theta) = h(x) \exp\left(\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(x) - A({\boldsymbol \theta}) \right) 其中θ =(θ1个,θ2,⋯ ,θs)Ťθ=(θ1,θ2,⋯,θs)T{\boldsymbol \theta} = \left(\theta_1, \theta_2, \cdots, \theta_s \right )^T是参数向量,T(x)=(T1个(X ),Ť2(x ),⋯ ,Ts(x ))ŤT(x)=(T1(x),T2(x),⋯,Ts(x))T\mathbf{T}(x)= \left(T_1(x), T_2(x), \cdots,T_s(x) \right)^T是联合充分统计量。 可以证明存在每个T_i(x)的均值和方差Ť一世(x )Ti(x)T_i(x)。但是,X的均值和方差XXX(即Ë(X)E(X)E(X)和V一个- [R (X)Var(X)Var(X))是否也总是存在吗?如果不是,是否存在这种形式的指数族分布实例,其均值和变量不存在? 谢谢。

1
基于月收益率方差的年收益率方差
我试图了解财务回报的时间序列中的全部方差/标准差错误,但我觉得很棘手。我有一系列的月度股票回报数据(我们称其为),其预期值为1.00795,差异为0.000228(标准偏差为0.01512)。我正在尝试计算年收益率的最坏情况(假设期望值减去标准误差的两倍)。哪种方法是最好的方法?一。计算一个月(),然后将其自身乘以12倍(= 0.7630)。乙。假设月份是独立的,则将 12次,求出其期望值μ X - 2 ⋅ σ X = 0.977 Ŷ = X ⋅ X ⋅ 。。。⋅ X ë [ Ý ] = (ë [ X ] )12XXX μX-2 ·&σX= 0.977μX-2⋅σX=0.977\mu_X-2\cdot \sigma_X=0.977 ÿ= X⋅ X⋅ 。。。⋅Xÿ=X⋅X⋅。。。⋅XY=X\cdot X\cdot ...\cdot XË[ Y] = (E[ X] )12Ë[ÿ]=(Ë[X])12E[Y]=(E[X])^{12})和方差。在这种情况下,标准的开发是0.0572,和预期值减去STD。dev的两次是0.9853。ç。乘以每月的std。dev的与获得年度之一。用它来查找最坏的情况下每年的值(),结果为0.9949, 哪一个是正确的?如果您仅知道每月数据的这些属性,则计算预期年值减去标准差两倍的正确方法是什么? ?(通常-如果 12次并且,变种[ Y] = …

2
参考为
@Erik P.在回答我的上一个问题时,给出了表达式 其中Var[s2]=σ4(2n−1+κn),Var[s2]=σ4(2n−1+κn), \mathrm{Var}[s^2]=\sigma^4 \left(\frac{2}{n-1} + \frac{\kappa}{n}\right) \>, 是分布的峰度。给出了有关样本方差分布的Wikipedia条目的引用,但是Wikipedia页面上显示“需要引用”。κκ\kappa 我的主要问题是,此公式是否有参考?推导是否“琐碎”?如果是的话,可以在教科书中找到它吗?(@Erik P.在数学统计和数据分析中找不到,在Casella和Berger的统计推断中也找不到。尽管涵盖了该主题。 拥有教科书参考书会很好,但是拥有(主要)参考书会更有用。 (一个相关的问题是:样本分布与未知分布的方差分布是什么?) 更新:@cardinal指出了另一个方程math.SE: 其中,μ4是第四中心矩。Var(S2)=μ4n−σ4(n−3)n(n−1)Var(S2)=μ4n−σ4(n−3)n(n−1) \mathrm{Var}(S^2)={\mu_4\over n}-{\sigma^4\,(n-3)\over n\,(n-1)} μ4μ4\mu_4 是否可以通过某种方式重新排列方程式并解决这两个问题,还是标题中的方程式错误?


4
如何在回归模型中概念化误差?
我正在参加数据分析课程,而我一些根深蒂固的想法正在动摇。即,误差(ε)以及任何其他类型的方差的想法仅(据我认为)适用于一组(样本或整个人群)。现在,我们被告知回归假设之一是方差“对于所有个体都是相同的”。这在某种程度上令我震惊。我一直认为,假设所有X值中Y的方差都是恒定的。 我与教授聊天,他告诉我,当我们进行回归分析时,我们认为我们的模型是正确的。我认为那是棘手的部分。对我而言,误差项(epsilon)始终表示“诸如我们不知道的任何元素,它们可能会影响我们的结果变量,以及一些测量误差”。在课堂教学中,没有“其他东西”之类的东西。我们的模型假设是真实完整的。这意味着必须将所有残差视为测量误差的乘积(因此,一次测量20个人将产生与一次测量20个人相同的方差)。 我觉得某处有问题,对此我希望有一些专家意见...从概念上来讲,关于错误术语是什么还可以解释吗?

1
零膨胀泊松分布的均值和方差
谁能用概率质量函数显示零膨胀泊松的期望值和方差 f(y)={π+(1−π)e−λ,(1−π)λye−λy!,if y=0if y=1,2....f(y)={π+(1−π)e−λ,if y=0(1−π)λye−λy!,if y=1,2.... f(y) = \begin{cases} \pi+(1-\pi)e^{-\lambda}, & \text{if }y=0 \\ (1-\pi)\frac{\lambda^{y}e^{-\lambda}}{y!}, & \text{if }y=1,2.... \end{cases} 其中是通过二项式过程观察到的零值的概率,而是泊松的均值的推导?ππ\piλλ\lambda 结果为期望值,方差为。μ=(1−π)λμ=(1−π)λ\mu =(1-\pi)\lambdaμ+π1−πμ2μ+π1−πμ2\mu+ \frac{\pi}{1-\pi}\mu^{2} 添加:我正在寻找一个过程。例如,您可以使用力矩生成功能吗?最终,我想看看如何做到这一点,以更好地理解零膨胀伽玛和其他。

3
难道这些公式转换P,LSD,MSD,HSD,CI,以SE作为一个确切的或夸大/保守估计
背景 我正在进行一项荟萃分析,其中包括以前发布的数据。通常,用P值,最小显着差异(LSD)和其他统计数据报告处理之间的差异,但无法直接估算出差异。 在我使用的模型的上下文中,可以高估方差。 问题 这里是变换来的列表其中(萨维尔2003) ,我考虑,反馈理解; 下面,我假定α = 0.05所以1 - α / 2 = 0.975 和变量是正态分布的,除非另有说明:SESESESE=MSE/n−−−−−−−√SE=MSE/nSE=\sqrt{MSE/n} α = 0.05α=0.05\alpha=0.051 -α/2= 0.9751个-α/2=0.9751-^{\alpha}/_2=0.975 问题: 给定的,Ñ,和治疗手段ˉ X 1和ˉ X 2小号Ë = ˉ X 1 - ˉ X 2PPPññnX¯1个X¯1个\bar X_1X¯2X¯2\bar X_2 小号Ë= X¯1个- X¯2Ť(1 − P2,2 n − 2 )2 / n---√小号Ë=X¯1个-X¯2Ť(1个-P2,2ñ-2)2/ñSE=\frac{\bar X_1-\bar X_2}{t_{(1-\frac{P}{2},2n-2)}\sqrt{2/n}} …

2
为什么袋装树/随机森林树比单个决策树具有更高的偏差?
如果我们考虑一个完整的决策树(即未修剪的决策树),则它具有高方差和低偏差。 套袋和随机森林使用这些高方差模型并对其进行汇总,以减少方差,从而提高预测准确性。套袋和随机森林都使用Bootstrap采样,并且如“统计学习的要素”中所述,这会增加单个树中的偏差。 此外,由于随机森林方法限制了允许在每个节点上拆分的变量,因此单个随机森林树的偏差会进一步增加。 因此,如果套袋和随机森林中单棵树的偏差增加不会“过度”使变化减少,则只能提高预测精度。 这使我想到以下两个问题:1)我知道使用引导程序抽样时,(几乎总是)我们在引导程序样本中会有一些相同的观察结果。但是,为什么这会导致套袋/随机森林中单个树木的偏见增加?2)此外,为什么对每个拆分中要拆分的可用变量的限制会导致随机森林中各个树的偏倚更高?

3
逆指数分布的均值
给定一个随机变量,G = 1的均值和方差是多少ÿ= EX p (λ )Y=Exp(λ)Y = Exp(\lambda)?G = 1ÿG=1YG=\dfrac{1}{Y} 我看了逆伽玛分布,但均值和方差仅分别针对和α > 2进行了定义...α > 1α>1\alpha>1α > 2α>2\alpha>2

2
正弦和余弦之间的相关性
假设XXX均匀地分布在[ 0 ,2个π][0,2π][0, 2\pi]。让ÿ= 罪XY=sin⁡XY = \sin X和ž= cosXZ=cos⁡XZ = \cos X。证明ÿYY和之间的相关性žZZ为零。 看来我需要知道正弦和余弦的标准偏差及其协方差。我该如何计算? 我认为我需要假设XXX具有均匀的分布,然后看一下转换后的变量ÿ= 罪(X)Y=sin⁡(X)Y=\sin(X)和ž= cos(X)Z=cos⁡(X)Z=\cos(X)。然后潜意识统计学家的定律将给出期望值 Ë[ Y] = 1b − a∫∞- ∞罪(x )dXE[Y]=1b−a∫−∞∞sin⁡(x)dxE[Y] = \frac{1}{b-a}\int_{-\infty}^{\infty} \sin(x)dx和Ë[ Z] = 1b − a∫∞- ∞cos(x )dXE[Z]=1b−a∫−∞∞cos⁡(x)dxE[Z] = \frac{1}{b-a}\int_{-\infty}^{\infty} \cos(x)dx (密度是恒定的,因为它是均匀的分布,因此可以从积分中移出)。 但是,这些积分没有定义(但我认为柯西主值是零)。 我该如何解决这个问题?我想我知道解决方案(相关性为零,因为正弦和余弦具有相反的相位),但是我找不到如何导出它。

2
《统计学习入门》中的“函数”的方差是什么意思?
在pg。统计学习入门中的 34 :\newcommand{\Var}{{\rm Var}} 虽然数学证明超出了本书的范围,有可能表明期望的测试MSE,给定值X0X0x_0,总是可以分解为三个基本量的总和:在变化的F^(x0)F^(X0)\hat{f}(x_0),平方偏差的F^(x0)F^(X0)\hat{f}(x_0)和误差项的方差εε\varepsilon。那是, Ë(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)Ë(ÿ0-F^(X0))2=V一个[R(F^(X0))+[乙一世一个s(F^(X0))]2+V一个[R(ε) E\left(y_0 - \hat{f}(x_0)\right)^2 = \Var\big(\hat{f}(x_0)\big) + \Big[{\rm Bias}\big(\hat{f}(x_0)\big)\Big]^2 + \Var(\varepsilon) [...]方差是指如果我们使用不同的训练数据集来估计f^F^\hat{f}变化量。 问题:由于Var(f^(x0))V一个[R(F^(X0))\Var\big(\hat{f}(x_0)\big)似乎表示函数的方差,因此这在形式上是什么意思? 也就是说,我熟悉随机变量X的方差的概念XXX,但是一组函数的方差又如何呢?可以将其视为函数形式的另一个随机变量的方差吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.