Questions tagged «sufficient-statistics»

足够的统计量是数据的低维函数,其本身包含有关某个参数的所有相关信息。


1
足够的统计,细节/直觉问题
我在自学一些有趣的统计数据,并且对足够的统计数据有些困惑。我将以列表格式列出我的困惑: 如果分布具有nnn参数,那么它将具有nnn足够的统计量吗? 足够的统计量和参数之间是否存在某种直接对应关系?还是将足够的统计信息用作“信息”库,以便我们可以重新创建设置,以便可以为基础分布的参数计算相同的估计值。 所有发行版都有足够的统计信息吗?即。分解定理会失败吗? 使用我们的数据样本,我们假设数据最有可能来自该分布,然后可以为该分布的参数计算估计值(例如MLE)。足够的统计数据是一种能够对参数计算相同估计值而不必依赖数据本身的方法,对吗? 所有足够的统计信息集都会具有最小的统计信息吗? 这是我用来尝试理解主题的材料:https : //onlinecourses.science.psu.edu/stat414/node/283 据我了解,我们有一个分解定理,它将联合分布分解为两个函数,但是我不明白在将分布分解为函数后,我们如何能够提取足够的统计量。 本例中给出的泊松问题具有明确的因式分解,但随后指出,足够的统计量是样本均值和样本和。仅通过看第一个方程的形式,我们怎么知道这些才足够? 如果因式分解结果的第二个方程有时取决于数据值XiXiX_i本身,那么如何使用足够的统计量进行相同的MLE估计呢?例如在泊松案例中,第二个函数取决于数据阶乘乘积的倒数,因此我们将不再拥有数据! 相对于网页上的Poisson示例,为什么样本量nnn不够统计?我们将要求n重构第一个函数的某些部分,所以为什么它也不足够统计呢?nnn

3
为什么足够的统计信息包含计算参数估计值所需的所有信息?
我刚刚开始研究统计信息,但我对直觉性没有一个直观的了解。更准确地说,我无法理解如何证明以下两段是等效的: 大致地,给定一组以未知参数θ为条件的独立相同分布的数据X,足够的统计量是函数T(X),其值包含计算该参数的任何估计所需的所有信息。 如果在给定统计量T(X)的情况下数据X的条件概率分布不依赖于参数θ,则统计量T(X)足以满足基础参数θ的需要。 (我引用了足够的统计信息中的引号) 尽管我理解第二条语句,并且我可以使用分解定理来说明给定的统计量是否足够,但是我不明白为什么具有这样一个属性的统计量还具有“包含计算任何数据所需的所有信息”的属性。参数估计”。我不是要寻找正式的证明,无论如何这将有助于我的理解,我想对为什么这两个陈述是等效的进行直观的解释。 回顾一下,我的问题是:为什么两个陈述是相等的?有人可以为他们的等效性提供直观的解释吗?

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?

1
联合完成充分统计量:统一(a,b)
令X=(x1,x2,…xn)X=(x1,x2,…xn)\mathbf{X}= (x_1, x_2, \dots x_n)是上均匀分布的随机样本(a,b)(a,b)(a,b),其中a&lt;ba&lt;ba < b。令Y1Y1Y_1和YnYnY_n为最大和最小阶统计量。证明统计量(Y1,Yn)(Y1,Yn)(Y_1, Y_n)是参数θ = (a ,b )的共同完全充分统计量θ=(a,b)θ=(a,b)\theta = (a, b)。 对我来说,使用因式分解显示足够是没有问题的。 问题:如何显示完整性?最好是我想要一个提示。 尝试:我可以证明E[g(T(x))]=0E[g(T(x))]=0\mathbb E[g(T(x))] = 0表示g(T(x))=0g(T(x))=0g(T(x)) = 0对于一个参数均匀分布,但是我陷入了两个参数均匀分布的困境。 我尝试使用E[g(Y1,Yn)]E[g(Y1,Yn)]\mathbb E[g(Y_1, Y_n)]并使用Y1Y1Y_1和的联合分布YnYnY_n,但是由于微积分使我绊倒,所以我不确定我的方向是否正确。

1
指数族分布是否均存在均值和方差?
假设标量随机变量属于具有pdf的矢量参数指数族XXX FX(x | θ )= h (x )exp(∑我= 1sη一世(θ)T一世(X )- 甲(θ))fX(x|θ)=h(x)exp⁡(∑i=1sηi(θ)Ti(x)−A(θ)) f_X(x|\boldsymbol \theta) = h(x) \exp\left(\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(x) - A({\boldsymbol \theta}) \right) 其中θ =(θ1个,θ2,⋯ ,θs)Ťθ=(θ1,θ2,⋯,θs)T{\boldsymbol \theta} = \left(\theta_1, \theta_2, \cdots, \theta_s \right )^T是参数向量,T(x)=(T1个(X ),Ť2(x ),⋯ ,Ts(x ))ŤT(x)=(T1(x),T2(x),⋯,Ts(x))T\mathbf{T}(x)= \left(T_1(x), T_2(x), \cdots,T_s(x) \right)^T是联合充分统计量。 可以证明存在每个T_i(x)的均值和方差Ť一世(x )Ti(x)T_i(x)。但是,X的均值和方差XXX(即Ë(X)E(X)E(X)和V一个- [R (X)Var(X)Var(X))是否也总是存在吗?如果不是,是否存在这种形式的指数族分布实例,其均值和变量不存在? 谢谢。


1
找到独特的MVUE
该问题来自Robert Hogg的《数理统计入门》第六版问题7.4.9,第388页。 令用pdf在其他地方为零,其中。X1,...,XnX1,...,XnX_1,...,X_nf(x;θ)=1/3θ,−θ&lt;x&lt;2θ,f(x;θ)=1/3θ,−θ&lt;x&lt;2θ,f(x;\theta)=1/3\theta,-\theta0 (a)求MLE的θ^θ^\hat{\theta}θθ\theta (b)足够用于统计?为什么呢θ^θ^\hat{\theta}θθ\theta (c)是的唯一MVUE 吗?为什么呢(n+1)θ^/n(n+1)θ^/n(n+1)\hat{\theta}/nθθ\theta 我想我可以解决(a)和(b),但是我对(c)感到困惑。 为一个): 令为订单统计信息。Y1&lt;Y2&lt;...YnY1&lt;Y2&lt;...YnY_10 因此,似然函数正在减小。L(θ;x)L(θ;x)L(\theta;x) 从和, 和 (−θ&lt;y1(−θ&lt;y1(-\theta< y_1 yn&lt;2θ)yn&lt;2θ) y_n < 2\theta)⇒⇒\Rightarrow (θ&gt;−y1(θ&gt;−y1(\theta>-y_1 θ&gt;yn/2),⇒θ&gt;max(−y1,yn/2)θ&gt;yn/2),⇒θ&gt;max(−y1,yn/2)\theta>y_n/2), \Rightarrow \theta>max(-y_1,y_n/2) L(θ,x)L(θ,x)L(\theta,x)被降低,因此,当具有samllest值似然函数将达到最大,因为,当,似然函数将达到最大值。θθ\thetaθ&gt;max(−y1,yn/2)θ&gt;max(−y1,yn/2)\theta>max(-y_1,y_n/2)θ=max(−y1,yn/2)θ=max(−y1,yn/2)\theta=max(-y1,y_n/2) ∴∴\therefore theremleθ^=max(−y1,yn/2)θ^=max(−y1,yn/2)\hat{\theta}=max(-y_1,y_n/2) 对于(b): f(x1;θ)f(x2;θ)...f(xn;θ)=1(3θ)n∏niI(−θ&lt;xi&lt;2θ)=1(3θ)nI(max(xi)&lt;2θ)×1f(x1;θ)f(x2;θ)...f(xn;θ)=1(3θ)n∏inI(−θ&lt;xi&lt;2θ)=1(3θ)nI(max(xi)&lt;2θ)×1f(x_1;\theta)f(x_2;\theta)...f(x_n;\theta)=\frac{1}{(3\theta)^n}\prod_{i}^{n} I(-\theta-\theta)\times 1 ∴∴\therefore通过Neyman的因式分解定理,对于是足够的统计量。因此,也是足够的统计信息。y1=min(xi)y1=min(xi)y_1=min(x_i)θθ\theta−y1−y1-y_1 对于(c): 首先,我们找到的CDFXXX F(x)=∫x−θ13θdt=x+θ3θ,−θ&lt;x&lt;2θF(x)=∫−θx13θdt=x+θ3θ,−θ&lt;x&lt;2θF(x)=\int_{-\theta}^{x}\frac{1}{3\theta}dt=\frac{x+\theta}{3\theta},-\theta0 因此,pdf族已完成。Y1Y1Y_1 同样,仍然通过,我们可以证明pdf族是完整的。FTCFTCFTCYnYnY_n 现在的问题是,我们需要证明是无偏的。(n+1)θ^n(n+1)θ^n\frac{(n+1)\hat{\theta}}{n} 当θ^=−y1θ^=−y1\hat{\theta}=-y_1 E(−y1)=∫2θ−θ(−y1)n(3θ)n(2θ−y1)n−1dy1=1(3θ)n∫2θ−θy1d(2θ−y1)nE(−y1)=∫−θ2θ(−y1)n(3θ)n(2θ−y1)n−1dy1=1(3θ)n∫−θ2θy1d(2θ−y1)nE(-y_1)=\int_{-\theta}^{2\theta}(-y_1)\frac{n}{(3\theta)^n}(2\theta-y_1)^{n-1}dy_1=\frac{1}{(3\theta)^n}\int_{-\theta}^{2\theta}y_1d(2\theta-y_1)^n 我们可以通过零件积分来求解积分 E(−y1)=1(3θ)n[y1(2θ−y1)n∣2θ−θ−∫2θ−θ(2θ−y1)ndy1]=1(3θ)n[θ(3θ)n−(3θ)n+1n+1]=θ−3θn+1=(n−2)θn+1E(−y1)=1(3θ)n[y1(2θ−y1)n∣−θ2θ−∫−θ2θ(2θ−y1)ndy1]=1(3θ)n[θ(3θ)n−(3θ)n+1n+1]=θ−3θn+1=(n−2)θn+1E(-y_1)=\frac{1}{(3\theta)^n}[y_1(2\theta-y_1)^n\mid_{-\theta}^{2\theta}-\int_{-\theta}^{2\theta}(2\theta-y_1)^ndy_1]=\frac{1}{(3\theta)^n}[\theta (3\theta)^n-\frac{(3\theta)^{n+1}}{n+1}]=\theta-\frac{3\theta}{n+1}=\frac{(n-2)\theta}{n+1} ∴E((n+1)θ^n)=n+1nE(−y1)=n+1n(n−2)θn+1=n−2nθ∴E((n+1)θ^n)=n+1nE(−y1)=n+1n(n−2)θn+1=n−2nθ\therefore E(\frac{(n+1)\hat{\theta}}{n})=\frac{n+1}{n}E(-y_1)=\frac{n+1}{n}\frac{(n-2)\theta}{n+1}=\frac{n-2}{n}\theta 因此,当时,并非的无偏估计量(n+1)θ^n(n+1)θ^n\frac{(n+1)\hat{\theta}}{n}θθ\thetaθ^=−y1θ^=−y1\hat{\theta}=-y_1 当θ^=yn/2θ^=yn/2\hat{\theta}=y_n/2 E(Yn)=∫2θ−θynn(3θ)n(yn+θ)n−1dyn=1(3θ)n∫2θ−θynd(yn+θ)n=1(3θ)n[yn(yn+θ)n∣2θ−θ−∫2θ−θ(yn+θ)ndyn]=1(3θ)n[2θ(3θ)−(3θ)n+1n+1]=2θ−3θn+1=2n−1n+1θE(Yn)=∫−θ2θynn(3θ)n(yn+θ)n−1dyn=1(3θ)n∫−θ2θynd(yn+θ)n=1(3θ)n[yn(yn+θ)n∣−θ2θ−∫−θ2θ(yn+θ)ndyn]=1(3θ)n[2θ(3θ)−(3θ)n+1n+1]=2θ−3θn+1=2n−1n+1θE(Y_n)=\int_{-\theta}^{2\theta}y_n\frac{n}{(3\theta)^n}(y_n+\theta)^{n-1}dy_n=\frac{1}{(3\theta)^n}\int_{-\theta}^{2\theta}y_nd(y_n+\theta)^n=\frac{1}{(3\theta)^n}[y_n(y_n+\theta)^n\mid_{-\theta}^{2\theta}-\int_{-\theta}^{2\theta}(y_n+\theta)^ndy_n]=\frac{1}{(3\theta)^n}[2\theta(3\theta)^-\frac{(3\theta)^{n+1}}{n+1}]=2\theta-\frac{3\theta}{n+1}=\frac{2n-1}{n+1}\theta ∴E((n+1)θ^n)=n+1nE(Yn/2)=n+12nE(Yn)=n+12n2n−1n+1θ=2n−12nθ∴E((n+1)θ^n)=n+1nE(Yn/2)=n+12nE(Yn)=n+12n2n−1n+1θ=2n−12nθ\therefore E(\frac{(n+1)\hat{\theta}}{n})=\frac{n+1}{n}E(Y_n/2)=\frac{n+1}{2n}E(Y_n)=\frac{n+1}{2n}\frac{2n-1}{n+1}\theta=\frac{2n-1}{2n}\theta 不过,当时,并不是的无偏估计量(n+1)θ^n(n+1)θ^n\frac{(n+1)\hat{\theta}}{n}θθ\thetaθ^=yn/2θ^=yn/2\hat{\theta}=y_n/2 …


1
足够或不足
考虑一个随机样本 {X1,X2,X3}{X1,X2,X3}\{X_1,X_2,X_3\} 哪里 XiXiX_i 是我 Bernoulli(p)Bernoulli(p)Bernoulli(p) 随机变量 p∈(0,1)p∈(0,1)p\in(0,1)。检查是否 T(X)=X1+2X2+X3T(X)=X1+2X2+X3T(X)=X_1+2X_2+X_3 是足够的统计 ppp。 首先,我们如何找到 (X1+2X2+X3)(X1+2X2+X3)(X_1+2X_2+X_3)?还是应该分解为X1+X2+X2+X3X1+X2+X2+X3X_1+X_2+X_2+X_3 然后这将跟随 乙我Ñ (4 ,p )Bin(4,p)Bin(4,p)?我认为不是因为要注意所有变量在这里不是独立的。 或者,如果我只考虑因式的联合pmf而采用因式分解条件 (X1个,X2,X3)(X1,X2,X3)(X_1,X_2,X_3) 然后 F(X1个,X2,X3)=pX1个+X2+X3(1 − p)3 - (X1个+X2+X3)= [pt (x )(1 − p)3 − t (x )]p-X2(1 − p)X2f(X1,X2,X3)=px1+x2+x3(1−p)3−(x1+x2+x3)=[pt(x)(1−p)3−t(x)]p−x2(1−p)x2f(X_1,X_2,X_3)=p^{x_1+x_2+x_3}(1-p)^{3-(x_1+x_2+x_3)}=[p^{t(x)}(1-p)^{3-t(x)}]p^{-x_2}(1-p)^{x_2} 哪里 t (x )=X1个+ 2X2+X3t(x)=x1+2x2+x3t(x)=x_1+2x_2+x_3。 这表明 ŤTT 还不够。 但是,如果我想遵循定义并想应用该怎么办 F(X| p)G(T(X)| p )f(X|p)g(T(X)|p)\dfrac{f(X|p)}{g(T(X)|p)} …

1
指数族:观察到的与期望的足够统计量
我的问题来自阅读Minka的“估计Dirichlet分布”,该陈述在根据随机向量的观察推导Dirichlet分布的最大似然估计的情况下,没有证明以下内容: 与指数族一样,当梯度为零时,期望的足够统计量等于观察到的足够统计量。 我没有看到以这种方式呈现的指数族中的最大似然估计,也没有在搜索中找到任何合适的解释。有人可以提供对观察到的和预期的足够统计量之间的关系的洞察力,也许可以通过最大程度地减少差异来帮助理解最大似然估计?

2
贝叶斯充分性与频繁性充分性有何关系?
在Wikipedia中,给出了从频繁主义者角度来看足够统计量的最简单定义。但是,我最近遇到了一本贝叶斯书,定义为。链接中指出两者是等效的,但我不知道如何。同样,在同一页面的“其他类型的充足性”部分中,声明了两个定义在无限维空间中是不相等的...P(θ|x,t)=P(θ|t)P(θ|x,t)=P(θ|t)P(\theta|x,t)=P(\theta|t) 另外,预测性充足性与经典充分性有何关系?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.