Questions tagged «steins-phenomenon»

斯坦因现象(自相矛盾)指出,当同时估计三个或三个以上参数时,估计量要比所有观测值的平均值更准确。

5
关于收缩的统一观点:斯坦因悖论,岭回归和混合模型中的随机效应之间有什么关系(如果有)?
考虑以下三种现象。 斯坦因悖论:给定一些来自多元正态分布的数据,样本均值并不是真实均值的很好估计。如果将样本均值的所有坐标都缩小为零(或者如果我理解正确的话,实际上是缩小为任何值),则可以获得具有较低均方误差的估计。Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 注意:通常斯坦因悖论是通过仅考虑单个数据点而得出的;如果这很关键并且我上面的说法不正确,请纠正我。RnRn\mathbb R^n Ridge回归:给定一些因变量和一些自变量,标准回归趋于过度拟合数据并导致糟糕的样本外性能。通常可以通过将缩小为零来减少过度拟合:。X β = (X ⊤ X )- 1 X ⊤ Ŷ β β = (X ⊤ X + λ 我)- 1 X ⊤ ÿyy\mathbf yXX\mathbf Xβ=(X⊤X)−1X⊤yβ=(X⊤X)−1X⊤y\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf yββ\betaβ=(X⊤X+λI)−1X⊤yβ=(X⊤X+λI)−1X⊤y\beta = (\mathbf X^\top \mathbf X + \lambda …

2
为什么斯坦因悖论只适用于尺寸直觉
Stein的示例显示,如果均值且方差为则正态分布变量的最大似然估计是不允许的(在平方损失函数下)iff。有关精巧的证明,请参见Bradley Effron撰写的《大规模推理:估计,测试和预测的经验贝叶斯方法》的第一章。nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 一开始这对我来说是非常令人惊讶的,但是背后有一些直觉,为什么人们可能会期望标准估计值是不可接受的(最明显的是,如果,那么,如Stein的原始论文所述(链接到下面)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 我的问题是:缺少\ mathbb {R} ^ 2的nnn维空间(对于n≥3n≥3n\ge 3)具有什么特性,这有助于Stein的示例?可能的答案可能是关于n球的曲率,或者是完全不同的东西。R2R2\mathbb{R}^2nnn 换句话说,为什么在\ mathbb {R} ^ 2中允许MLE R2R2\mathbb{R}^2? 编辑1:响应@mpiktas对1.30之后的1.31的关注: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_i所以Eμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).因此,我们有: 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 编辑2:在本文中,斯坦因证明了MLE对于N = 2是可接受的N=2N=2N=2。

1
使用
Stein的悖论表明,与同时单独处理参数的任何方法相比,当同时估计三个或更多参数时,存在组合的估计量平均更准确(即,期望均方误差较低)。 这是非常违反直觉的结果。如果我们使用范数(期望的平均绝对误差)而不是使用范数(期望的均方误差),是否会得到相同的结果?升1l2l2l_2l1l1l_1

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
为什么将James-Stein估计量称为“收缩”估计量?
我一直在阅读有关James-Stein估计器的信息。在本注释中,其定义为 θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X 我已经阅读了证明,但不理解以下说法: 在几何上,James–Stein估计器将每个分量向原点方向收缩。XXX “将每个分量缩小到原点”到底是什么意思?我在想类似 在这种情况下,只要,因为 XXX∥θ^−0∥2&lt;∥X−0∥2,‖θ^−0‖2&lt;‖X−0‖2,\|\hat{\theta} - 0\|^2 < \|X - 0\|^2,(p+2)&lt;∥X∥2(p+2)&lt;‖X‖2(p+2) < \|X\|^2∥θ^∥=∥X∥2−(p+2)∥X∥2∥X∥.‖θ^‖=‖X‖2−(p+2)‖X‖2‖X‖.\|\hat{\theta}\| = \frac{\|X\|^2 - (p+2)}{\|X\|^2} \|X\|. 人们说“缩小为零”是什么意思,因为从范式来看,JS估计量比X更接近零?L2L2L^2XXX 截至2017年9月22日的更新:今天我意识到也许我使事情变得过于复杂。似乎人们真的是说,一旦将乘以小于,即,X的每个分量都将比以前小。1 ‖ X ‖ 2 - (p + 2 )XXX111 X∥X∥2−(p+2)∥X∥2‖X‖2−(p+2)‖X‖2\frac{\|X\|^2 - (p + 2)}{\|X\|^2}XXX

2
詹姆斯-斯坦因估计:如何做埃夫隆和莫里斯计算
在1977年《科学美国人》的布拉德利·埃夫隆(Bradley Efron)和卡尔·莫里斯(Carl Morris)发表的“统计中的斯坦因悖论”一文中,我对计算詹姆斯-斯坦因收缩因子有疑问。 我收集了棒球选手的数据,数据如下: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, 0.311, 0.270 Kessinger, 0.289, 0.263 Alvarado, 0.267, 0.210 Santo, 0.244, 0.269 Swoboda, 0.244, 0.230 Unser, 0.222, 0.264 Williams, 0.222, 0.256 Scott, 0.222, 0.303 Petrocelli, 0.222, 0.264 Rodriguez, …

5
James-Stein在野外收缩?
我被詹姆斯·斯坦因收缩的思想所吸引(即,对可能独立的法线向量的一次观测的非线性函数可能是对随机变量均值的更好估计,其中“更好”是通过平方误差来衡量的) )。但是,我从未在应用程序工作中看到它。显然,我没有足够的阅读能力。是否有经典的例子说明James-Stein在实际应用中改进了估计?如果不是,这种缩水仅仅是出于好奇吗?


1
具有不等方差的James-Stein估计量
我发现的James-Stein估计量的每条陈述均假设所估计的随机变量具有相同(和单位)的方差。 但是所有这些示例还提到,可以使用JS估计器来估计彼此无关的数量。在维基百科的例子是台湾光,茶叶消费,并在蒙大拿州生猪重量的速度。但是,假设您对这三个量的测量将具有不同的“真实”方差。这会带来问题吗? 这与一个我不理解的,与这个问题有关的更大的概念问题联系在一起:James-Stein估计量:埃夫隆和莫里斯是如何计算棒球范例中的收缩因子的?σ2σ2\sigma^2我们计算收缩率如下:ccc c=1−(k−3)σ2∑(y−y¯)2c=1−(k−3)σ2∑(y−y¯)2 c = 1 - \frac{(k-3) \sigma^2} {\sum (y - \bar{y})^2} 直觉,我认为项实际上是-对于每个估计的数量而言都是不同的。但是该问题的讨论仅涉及使用合并方差...σ2σ2\sigma^2σ2iσi2\sigma^2_i 如果有人能消除这种混乱,我将不胜感激!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.