Questions tagged «estimation»

这个标签太笼统了。请提供更具体的标签。对于有关特定估计量属性的问题,请改用[estimators]标签。

2
使用样本均值和标准差估计伽玛分布参数
我正在尝试估计最适合我的数据样本的伽玛分布的参数。我只想使用mean,std(因此使用方差数据样本中),而不是实际值-因为这些值在我的应用程序中并不总是可用。 根据该文档,以下公式可用于估计形状和比例: 我为数据尝试了此操作,但是与使用python编程库在实际数据上拟合伽玛分布相比,结果却大不相同。 我附上我的数据/代码以显示手头的问题: import matplotlib.pyplot as plt import numpy as np from scipy.stats import gamma data = [91.81, 10.02, 27.61, 50.48, 3.34, 26.35, 21.0, 79.27, 31.04, 8.85, 109.2, 15.52, 11.03, 41.09, 10.75, 96.43, 109.52, 33.28, 7.66, 65.44, 52.43, 19.25, 10.97, 586.52, 56.91, 157.18, 434.74, 16.07, 334.43, 6.63, 108.41, 4.45, …

2
速度,PCA,LASSO,弹性网的计算费用
我正在尝试比较Hastie等人中区分的三组线性回归方法的计算复杂度/估计速度。“统计学习的要素”(第二版),第3章: 子集选择 收缩方式 使用派生输入方向的方法(PCR,PLS) 进行比较可能很粗略,只是为了给出一些想法。我认为答案可能取决于问题的严重程度以及如何适应计算机体系结构,因此举一个具体的例子,可以考虑样本量为500和50个候选回归变量。我最感兴趣的是计算复杂性/估计速度背后的动机,而不是对于给定示例而言,使用某个处理器需要多长时间。

2
自举样本的均值与样本的统计量
假设我有一个样本和该样本的自举样本,用于统计(例如均值)。众所周知,该引导样本估算了统计量估计量的抽样分布。χχ\chi 现在,此引导样本的平均值是否比原始样本的统计更好地估计了人口统计?在什么情况下会是这种情况?

2
为什么
如果√,则参数θ的估计量序列渐近正态üñUnU_nθθ\theta。(来源)然后将v称为Un的渐近方差。如果此方差等于Cramer-Rao界,则我们说估计量/序列渐近有效。ñ--√(Uñ- θ )→ Ñ(0 ,v )n(Un−θ)→N(0,v)\sqrt{n}(U_n - \theta) \to N(0,v)vvvüñüñU_n 问题:为什么使用特别是 n?ñ--√ñ\sqrt{n} 我知道,对于样本均值,,因此该选择将其标准化。但是,由于上述定义适用于比样本均值多,为什么我们仍然选择通过规范化√V一个- [R (X¯)= σ2ñV一种[R(X¯)=σ2ñVar(\bar{X}) = \frac{\sigma^2}{n}。ñ--√ñ\sqrt{n}

2
研究生学校是否过分强调了最小方差理论的无偏估计?
最近,当我给出一个关于均匀分布参数的最小方差无偏估计的结论时,我感到非常尴尬。幸运的是,红衣主教和亨利立即纠正了我,亨利为OP提供了正确的答案。 这让我思考。大约37年前,我在斯坦福大学的数学研究生课程中学习了最佳无偏估计量的理论。我有Rao-Blackwell定理,Cramer-Rao下界和Lehmann-Scheffe定理的回忆。但是,作为一名应用统计学家,我对日常生活中的UMVUE的考虑并不多,而最大似然估计的出现却很多。 这是为什么?我们在研究生院是否过分强调UMVUE理论?我认同。首先,无偏不重要。许多完美的MLE都有偏差。斯坦因收缩估计量是有偏差的,但在均方误差损失方面占主导地位。这是一个非常漂亮的理论(UMVUE估计),但是非常不完整,我认为不是很有用。别人怎么看?

2
詹姆斯-斯坦因估计:如何做埃夫隆和莫里斯计算
在1977年《科学美国人》的布拉德利·埃夫隆(Bradley Efron)和卡尔·莫里斯(Carl Morris)发表的“统计中的斯坦因悖论”一文中,我对计算詹姆斯-斯坦因收缩因子有疑问。 我收集了棒球选手的数据,数据如下: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, 0.311, 0.270 Kessinger, 0.289, 0.263 Alvarado, 0.267, 0.210 Santo, 0.244, 0.269 Swoboda, 0.244, 0.230 Unser, 0.222, 0.264 Williams, 0.222, 0.256 Scott, 0.222, 0.303 Petrocelli, 0.222, 0.264 Rodriguez, …

2
一个不可能的估计问题?
题 负二项式(NB)分布的方差始终大于其均值。当样本均值大于其方差时,尝试以最大似然或矩估计拟合NB的参数将失败(没有有限参数的解决方案)。 但是,从NB分布获取的样本的平均值可能大于方差。这是R中的可复制示例。 set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 NB将产生无法估计参数的样本的可能性为非零(通过最大似然法和矩量法)。 可以对此样本给出合理的估计吗? 当没有为所有样本定义估计量时,估计理论怎么说? 关于答案 @MarkRobinson和@Yves的答案使我意识到参数化是主要问题。NB的概率密度通常写为 P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k 或 P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!} \left(\frac{r}{r+m}\right)^r \left(\frac{m}{r+m}\right)^k. 在第一个参数化下,每当样本的方差小于均值时,最大似然估计为,因此关于p不能说有用。根据第二,它是(∞ ,ˉ X),所以我们可以给的合理估计米。最后,@ MarkRobinson表明我们可以使用r解决无限值问题(∞,0)(∞,0)(\infty, 0)ppp(∞,x¯)(∞,x¯)(\infty, \bar{x})mmm代替r。r1+rr1+r\frac{r}{1+r}rrr 总之,这个估计问题从根本上没有错,只是您不能总是对每个样本给出和p的有意义的解释。公平地说,这两个答案中都包含了这些想法。我选择@MarkRobinson中的那个作为他给出的补码的正确选择。rrrppp

4
贝叶斯和常驻点估计量在什么条件下重合?
对于平坦的先验,ML(频率-最大似然)和MAP(贝叶斯-最大后验)估计量是重合的。 但是,更笼统地说,我说的是作为某些损失函数的优化子而得出的点估计量。即 )X(x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) } x^(.)=argminE(L(x−x^(Y))|x)(Frequentist)x^(.)=argminE(L(x−x^(Y))|x)(Frequentist) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | \; x \right) \qquad \text{(Frequentist)} 其中EE\mathbb{E}是期望算子,LLL是损失函数(最小为零),x^(y)x^(y)\hat x(y) 是估计器,给定参数x的数据y,并且随机变量用大写字母表示。yyyxxx 是否有人知道LLL,xxx和y的pdf yyy,施加的线性度和/或无偏度的任何条件,这些条件在哪些条件下估计会重合? 编辑 …

3
当只有汇总统计信息可用时,如何进行估算?
这部分是由于以下问题及其后续讨论引起的。 假设观察到iid样本。目的是估计。但是原始样品不可用。相反,我们拥有的是样本一些统计信息。假设是固定的。我们如何估算?在这种情况下,最大似然估计器是什么?θ Ť 1,。。。,Ť ķ ķ θXi∼F(x,θ)Xi∼F(x,θ)X_i\sim F(x,\theta)θθ\thetaT1,...,TkT1,...,TkT_1,...,T_kkkkθθ\theta


4
计算所需的样本量,方差估计的精度?
背景 我有一个未知分布的变量。 我有500个样本,但是我想证明我可以计算方差的精度,例如说500的样本量就足够了。我也想知道以的精度估算方差所需的最小样本量X%X%X\%。 问题 我该如何计算 给定样本量,我估计方差的精度n=500n=500n=500?的n=Nn=Nn=N? 如何计算以精度估算方差所需的最小样本数XXX? 例 图1基于500个样本的参数密度估计。 图2这是我使用500个样本的子样本计算出的x轴上的样本大小与y轴上的方差估计值之间的关系图。想法是随着n的增加,估计值将收敛到真实方差。 然而,估计是无效的独立自样品用于估计方差n∈[10,125,250,500]n∈[10,125,250,500]n \in [10,125,250,500]是不相互独立的或在用于计算方差的样本n∈[20,40,80]n∈[20,40,80]n\in [20,40,80]

3
为什么我们需要引导程序?
我目前正在阅读拉里·瓦瑟曼(Larry Wasserman)的“所有统计信息”,并对他在有关估计非参数模型的统计函数的章节中写的内容感到困惑。 他写了 “有时我们可以通过一些计算找到统计函数的估计标准误差。但是,在其他情况下,如何估计标准误差并不明显”。 我想指出的是,在下一章中,他将讨论引导程序以解决此问题,但是由于我不太了解该声明,因此我没有完全获得引导程序背后的动力吗? 当不清楚如何估计标准误差时,有什么例子呢? 所有迄今为止我见过的例子已经“明显”,如然后^ 小号È(p Ñ)= √X1个,。。。Xñ 乙ë - [R (p )X1,...Xn Ber(p)X_1,...X_n ~Ber(p)小号Ë^(p^ñ)= p^⋅ (1 − p^)/ n----------√se^(p^n)=p^⋅(1−p^)/n \hat{se}(\hat{p}_n )=\sqrt{\hat{p}\cdot(1-\hat{p})/n}

1
迭代加权最小二乘的定义和收敛性
我一直在使用迭代加权最小二乘(IRLS)来最小化以下形式的函数, J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) 其中NNN是实例数xi∈Rxi∈Rx_i \in \mathbb{R},m∈Rm∈Rm \in \mathbb{R}是鲁棒估计,我想,并且ρρ\rho是一个合适的健壮罚函数。假设它是凸的(尽管不一定严格)并且目前是可区分的。这种一个很好的例子ρρ\rho是Huber损失函数。 我一直在做的是区分J(m)J(m)J(m)相对于mmm(和操作)来获得, dJdm=∑Ni=1ρ′(|xi−m|)|xi−m|(xi−m)dJdm=∑i=1Nρ′(|xi−m|)|xi−m|(xi−m)\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right) 并通过将其设置为0并将迭代权重固定kkk为w i(k )= ρ ' (| x i − m (k )|)来迭代求解wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}(请注意,在处感知到的奇点xi=m(k)xi=m(k)x_i=m{(k)}实际上是我可能关心的所有的可移动奇点ρρ\rho)。然后我得到 ∑Ni=1wi(k)(xi−m(k+1))=0∑i=1Nwi(k)(xi−m(k+1))=0\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} \right)=0 我求解得到m(k+1)=∑Ni=1wi(k)xi∑Ni=1wi(k)m(k+1)=∑i=1Nwi(k)xi∑i=1Nwi(k)m(k+1) = \frac{\sum_{i=1}^{N} w_i(k) x_i}{ …

2
插值的统计依据是什么?
假设我们有两个点(下图:黑色圆圈),并且我们想在它们之间找到第三个点的值(十字)。实际上,我们将根据实验结果(黑点)对其进行估算。最简单的情况是画一条线然后找到该值(即线性插值)。如果我们有支持点,例如,两侧都有棕色点,我们希望从中受益并拟合非线性曲线(绿色曲线)。 问题是,将红十字标记为解决方案的统计推理是什么?为什么其他十字架(例如黄色十字架)在可能的地方没有答案?什么样的推论或(?)促使我们接受红色的? 我将基于针对这个非常简单的问题的答案来提出我的原始问题。

3
贝叶斯参数估计中如何选择先验
我知道3种进行参数估计的方法,即ML,MAP和贝叶斯方法。对于MAP和Bayes方法,我们需要先验参数,对吗? 假设我有这个模型,其中是参数,为了使用MAP或Bayes进行估计,我在书中读到我们最好选择一个共轭先前的,这是的联合概率,对吧?p(x|α,β)p(x|α,β)p(x|\alpha,\beta)α,βα,β\alpha,\betap(α,β)p(α,β)p(\alpha,\beta)α,βα,β\alpha,\beta 我有两个问题: 除了这个共轭数之外,我们还有其他选择吗? 除了将它们组合在一起,我们是否可以像和一样分别为和选择先验?αα\alphaββ\betap(α)p(α)p(\alpha)p(β)p(β)p(\beta)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.