Questions tagged «unbiased-estimator»

指总体上平均“达到真实值”的总体参数的估计量。也就是说,如果,则观测数据函数是参数的无偏估计量。无偏估计量的最简单示例是样本均值,作为总体均值的估计量。 θ^θËθ^=θ

3
一致估计和无偏估计之间有什么区别?
我真的很惊讶,似乎没有人问过这个问题... 在讨论估计量时,经常使用的两个术语是“一致”和“无偏”。我的问题很简单:有什么区别? 这些术语的精确技术定义相当复杂,很难直观理解它们的含义。我可以想象一个好的估计量,一个坏的估计量,但是我很难看到任何一个估计量如何满足一个条件而不能满足另一个条件。

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

5
在没有模拟的情况下,统计学家究竟如何同意使用(n-1)作为总体方差的无偏估计量?
分母的计算公式的分母为:(n − 1 )(n−1)(n-1) s2= ∑ñ我= 1(x一世− x¯)2n − 1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} 我一直想知道为什么。但是,阅读和观看一些有关“为什么”的优质视频似乎是人口方差的良好无偏估计。而n低估了(n - 2 )高估了总体方差。(n − 1 )(n−1)(n-1)ñnn(n − 2 )(n−2)(n-2) 我想知道的是,在没有计算机的时代,这种选择是如何做出的?是否有实际的数学证明来证明这一点?或者,这纯粹是经验和统计学家亲自进行了大量的计算,以得出当时的“最佳解释”? 在19世纪初期,统计学家是如何借助计算机提出这个公式的?手册还是比看得见的更多?

2
为什么斯坦因悖论只适用于尺寸直觉
Stein的示例显示,如果均值且方差为则正态分布变量的最大似然估计是不允许的(在平方损失函数下)iff。有关精巧的证明,请参见Bradley Effron撰写的《大规模推理:估计,测试和预测的经验贝叶斯方法》的第一章。nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 一开始这对我来说是非常令人惊讶的,但是背后有一些直觉,为什么人们可能会期望标准估计值是不可接受的(最明显的是,如果,那么,如Stein的原始论文所述(链接到下面)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 我的问题是:缺少\ mathbb {R} ^ 2的nnn维空间(对于n≥3n≥3n\ge 3)具有什么特性,这有助于Stein的示例?可能的答案可能是关于n球的曲率,或者是完全不同的东西。R2R2\mathbb{R}^2nnn 换句话说,为什么在\ mathbb {R} ^ 2中允许MLE R2R2\mathbb{R}^2? 编辑1:响应@mpiktas对1.30之后的1.31的关注: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_i所以Eμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).因此,我们有: 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 编辑2:在本文中,斯坦因证明了MLE对于N = 2是可接受的N=2N=2N=2。

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
从1个样本量中我们可以说总体平均值是什么?
我想知道关于人口平均值如果我只有一个测量值(样本大小为1),我们能说什么呢?显然,我们希望有更多的测量结果,但无法获得。μμ\muy1y1y_1 在我看来,由于样本均值等于,因此。但是,如果样本大小为1,则样本方差是不确定的,因此我们对使用作为的估计量的信心也是不确定的,对吗?有没有办法完全限制我们对的估计?y¯y¯\bar{y}y1y1y_1E[y¯]=E[y1]=μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu


6
为什么协方差估计量的分母不应该是n-2而不是n-1?
(无偏)方差估计量的分母为因为有观测值,并且仅估计了一个参数。n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 同样,我想知道为什么在估计两个参数时协方差的分母为何不为?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 



2
收缩 vs无偏:估计量
关于皮尔逊相关系数总体值的两种估计量,我的头脑有些困惑。 A. Fisher(1915)表明,对于二元正态总体,经验是的负偏差估计量,尽管该偏差实际上仅对于小样本量()才是相当可观的。样本在某种意义上低估了,因为它比更接近于。(除非后者为或,否则是无偏的。)已经提出了几种几乎无偏的估计量,最好的估计可能是Olkin和Pratt(1958)r[RrÑ &lt; 30 [R ρ 0 ρ 0 ± 1 - [Rρρ\rhon&lt;30ñ&lt;30n<30r[Rrρρ\rho000ρρ\rho000±1±1个\pm 1r[Rrρρ\rho更正的:r[Rr runbiased=r[1+1−r22(n−3)][R无偏见的=[R[1个+1个-[R22(ñ-3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.据说在回归中观察到高估了相应的总体R平方。或者,通过简单的回归,就是高估了。基于这一事实,我见过很多文章说,是正相关偏向于,这意味着绝对值:是从更远的比(?是说法正确)。文本说这与通过样本值高估标准偏差参数是同样的问题。有许多公式可以“调整”观察到的使其更接近人口参数Wherry's(1931)- [R 2 ρ 2 - [RR2[R2R^2r2[R2r^2ρ2ρ2\rho^2r[Rr[R 0 ρ - [R 2ρρ\rhor[Rr000ρρ\rhoR2[R2R^2 R2adj[R调整2R_\text{adj}^2是最著名的(但不是最好的)。调整后的的根称为收缩:r2adj[R调整2r_\text{adj}^2 r[Rr rshrunk=±1−(1−r2)n−1n−2−−−−−−−−−−−−−−√[R压缩=±1个-(1个-[R2)ñ-1个ñ-2r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}} 当前是两个不同的估计量。非常不同的:第一个膨胀,第二放气。如何调和他们?在哪里使用/报告,在另一个地方?ρρ\rhor[Rrr[Rr 特别是,“收缩”的估计量也(几乎)是无偏的,就像“无偏”的估计一样,但仅在不同的上下文中-在回归的非对称上下文中,这是真的吗?因为,在OLS回归中,我们认为一侧(预测变量)的值是固定的,因此每个样本之间都没有随机误差吗?(要补充一点,回归不需要双变量正态性。)

2
加权方差的偏差校正
对于未加权方差 存在的偏置校正的样本方差,当平均是从相同的数据估计: Var(X):=1Var(X):=1n∑i(xi−μ)2Var(X):=1n∑i(xi−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var(X):=1n−1∑i(xi−E[X])2Var(X):=1n−1∑i(xi−E[X])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 我正在研究加权均值和方差,并想知道加权方差的适当偏差校正是什么。使用: mean(X):=1∑iωi∑iωiximean(X):=1∑iωi∑iωixi\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 我正在使用的“天真”,未经校正的方差是: Var(X):=1∑iωi∑iωi(xi−mean(X))2Var(X):=1∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 所以我想知道纠正偏见的正确方法是 A) Var(X):=1∑iωi−1∑iωi(xi−mean(X))2Var(X):=1∑iωi−1∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 或B) Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 或C) Var(X):=∑iωi(∑iωi)2−∑iω2i∑iωi(xi−mean(X))2Var(X):=∑iωi(∑iωi)2−∑iωi2∑iωi(xi−mean(X))2\text{Var}(X):=\frac{\sum_i \omega_i}{(\sum_i \omega_i)^2-\sum_i \omega_i^ 2}\sum_i\omega_i(x_i - \text{mean}(X))^2 A)当权重较小时对我来说没有意义。归一化值可以是0甚至是负数。但是B)(是观察次数)-这是正确的方法吗?您是否有参考资料可以证明这一点?我相信“更新均值和方差估计:一种改进的方法”,DHD West,1979年使用了这种方法。第三,C)是我对这个问题的答案的解释:https : //mathoverflow.net/questions/22203/unbiased-estimate-of-the-variance-of-an-unnormalized-weighted-meannnn 对于C),我刚刚意识到分母看起来很像。这里有一些一般的联系吗?我认为这并不完全一致;显然我们正在尝试计算方差...Var(Ω)Var(Ω)\text{Var}(\Omega) 他们三个似乎都“生存”设置所有的健全性检查。那么我应该在哪个前提下使用哪个呢?“更新:” whuber建议也使用和所有其余的进行完整性检查。这似乎排除了A和B。ωi=1ωi=1\omega_i=1ω1=ω2=.5ω1=ω2=.5\omega_1=\omega_2=.5ωi=ϵωi=ϵ\omega_i=\epsilon

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.