Questions tagged «unbiased-estimator»

指总体上平均“达到真实值”的总体参数的估计量。也就是说,如果,则观测数据函数是参数的无偏估计量。无偏估计量的最简单示例是样本均值,作为总体均值的估计量。 θ^θËθ^=θ

2
人口密度估计模型
通过为每个形状(例如人口普查区,地区,县,州等多边形)分配恒定的人口/面积值,可以使用(人口,面积,形状)数据库来绘制人口密度图。但是,种群通常在其多边形内并不是均匀分布的。 对称映射是通过辅助数据细化这些密度估计的过程。正如最近的评论所指出的,这是社会科学中的一个重要问题。 然后,假设我们有一个辅助的土地覆盖图(或任何其他离散因子)。在最简单的情况下,我们可以使用明显不适合居住的区域(例如水域)来划定人口不在的区域,并相应地将所有人口分配到其余区域。更一般地,每个单元人口普查被雕刻成具有表面区域部分,。因此,我们的数据集被扩充到元组列表ķ X Ĵ 我我= 1 ,2 ,... ,ķjjjkkkxjixjix_{ji}i=1,2,…,ki=1,2,…,ki = 1, 2, \ldots, k (yj,xj1,xj2,…,xjk)(yj,xj1,xj2,…,xjk)(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk}) 其中是单位的总体(假定无误差地测量),并且-尽管并非严格如此-我们可以假设每个也都被精确测量。用这些术语,目标是将每个分成一个总和 j x j i y jyjyjy_{j}jjjxjixjix_{ji}yjyjy_{j} yj=zj1+zj2+⋯+zjkyj=zj1+zj2+⋯+zjk y_j = z_{j1} + z_{j2} + \cdots + z_{jk} 其中每个和估计居住在土地覆盖类别单元的人口。估计需要无偏见。此分区通过将密度分配给人口普查多边形与土地覆盖类别的交点来细化人口密度图。 ž Ĵ 我 Ĵ 我ž Ĵ 我 / X Ĵ 我 Ĵ …

3
OLS是蓝色的。但是,如果我不在乎无偏和线性怎么办?
高斯-马尔可夫定理告诉我们,OLS估计量是线性回归模型的最佳线性无偏估计量。 但是,假设我不在乎线性和无偏性。那么,对于线性回归模型,是否还有其他(可能是非线性/有偏的)估计量,在高斯-马尔可夫假设或其他一些一般假设下效率最高? 当然,有一个标准的结果:如果除高斯-马尔可夫假设之外,我们还假设误差是正态分布的,则OLS本身就是最佳的无偏估计量。对于其他一些特定的误差分布,我可以计算相应的最大似然估计量。 但是我想知道在某些相对通用的情况下是否存在某种比OLS更好的估计器?

4
对一致和渐近无偏的区别的直觉理解
我试图对“一致”和“渐近无偏”一词之间的区别和实际区别获得直观的理解和感觉。我知道他们的数学/统计定义,但是我正在寻找直观的东西。在我看来,看看他们的个人定义,他们几乎是同一回事。我意识到差异一定很细微,但我看不到。我试图将差异可视化,但不能做到。有人可以帮忙吗?

1
与变量模型中的无偏估计相比,用于回归的偏倚估计量可获得更好的结果
我正在研究“误差中的误差”模型的一些句法数据,以进行一些研究。目前,我只有一个自变量,并且假设我知道因变量的真实值的方差。 因此,利用这些信息,我可以实现因变量系数的无偏估计。 该模型: Ŷ=0.5X-10+ë2其中: ë1〜Ñ(0,σ2)对于一些σë2〜Ñ(0,1x~=x+e1x~=x+e1\tilde{x} = x + e_1 y=0.5x−10+e2y=0.5x−10+e2y = 0.5x -10 + e_2 e1~N(0,σ2)e1~N(0,σ2)e_1\text{~}N(0,\sigma^2)σσ\sigma e2~N(0,1)e2~N(0,1)e_2\text{~}N(0,1) 其中的值是已知的对于每个样品只,并且还的实际价值的标准偏差X为已知样品:σ Xy,x~y,x~y,\tilde{x}xxxσxσx\sigma_x。 我得到的偏向(β使用OLS,然后进行使用调整)系数:β^β^\hat{\beta} β′= β^* σ^2X〜σ2Xβ′=β^∗σ^x~2σx2\beta' = \hat{\beta} * \frac{\hat{\sigma}_\tilde{x}^2}{\sigma_x^2} 我看到,使用该模型,新的系数的无偏估计器要好得多(更接近于实际值),但是MSE比使用有偏估计器要差得多。 怎么了?我期望一个普遍的估计器会比有偏估计器产生更好的结果。 Matlab代码: reg_mse_agg = []; fixed_mse_agg = []; varMult = 1; numTests = 60; for dataNumber=1:8 reg_mses = []; fixed_mses = []; …


4
两个随机变量中较小者的无偏估计量
假设和ý 〜Ñ(μ Ý,σ 2 ÿ)X〜ñ(μX,σ2X)X∼N(μx,σx2)X \sim \mathcal{N}(\mu_x, \sigma^2_x)ÿ〜ñ(μÿ,σ2ÿ)Y∼N(μy,σy2)Y \sim \mathcal{N}(\mu_y, \sigma^2_y) 我对。是否存在z的无偏估计量?ž= 分钟(μX,μÿ)z=min(μx,μy)z = \min(\mu_x, \mu_y)žzz \ min(\ bar {x},\ bar {y})的简单估计量有偏差(尽管一致),分钟(x¯,ÿ¯)min(x¯,y¯)\min(\bar{x}, \bar{y})其中X¯x¯\bar{x}和ÿ¯y¯\bar{y}是XXX和Y的样本均值ÿYY。它倾向于下冲žzz。 我想不出z的无偏估计量žzz。是否存在? 谢谢你的帮助。

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
集合的度量指数的无偏估计量?
假设我们有一个设置(可测量并适当地表现良好)S⊆B⊂RnS⊆B⊂RnS\subseteq B\subset\mathbb R^n,其中BBB紧凑。此外,假设我们可以从Lebesgue测度λ (⋅ )的BBB的均匀分布中抽取样本,并且知道测度λ (B )。例如,也许乙是一个盒子[ - Ç ,Ç ] Ñ含有小号。λ(⋅)λ(⋅)\lambda(\cdot)λ(B)λ(B)\lambda(B)BBB[−c,c]n[−c,c]n[-c,c]^nSSS 对于固定α∈Rα∈R\alpha\in\mathbb R,是否有来估计一个简单的无偏方式e−αλ(S)e−αλ(S)e^{-\alpha \lambda(S)}通过均匀采样以点BBB并且如果它们是内部或外部的检查SSS? 由于东西完全不是那么回事的例子,假设我们样本kkk点p1,…,pk∼Uniform(B)p1,…,pk∼Uniform(B)p_1,\ldots,p_k\sim\textrm{Uniform}(B)。然后,我们可以使用蒙特卡洛估计λ(S)≈λ^:=#{pi∈S}kλ(B).λ(S)≈λ^:=#{pi∈S}kλ(B).\lambda(S)\approx \hat\lambda:= \frac{\#\{p_i\in S\}}{k}\lambda(B). 但是,尽管 λ是一个无偏估计λ(小号),我不认为它的情况下ë-α λ是一个无偏估计ë-αλ(小号)。有什么方法可以修改此算法?λ^λ^\hat\lambdaλ(S)λ(S)\lambda(S)e−αλ^e−αλ^e^{-\alpha\hat\lambda}e−αλ(S)e−αλ(S)e^{-\alpha\lambda(S)}

1
渐近无偏与一致性之间有什么区别?
彼此暗示吗?如果不是,是否意味着另一个?为什么/为什么不呢? 这个问题是针对我在此处发布的答案的评论而提出的。 尽管google搜索相关术语并没有产生看起来特别有用的东西,但我确实注意到了数学stackexchange 的答案。但是,我认为这个问题也适用于该网站。 阅读评论后进行编辑 相对于math.stackexchange答案,我正在做更深入的研究,涵盖了@whuber注释线程中处理的一些问题。另外,正如我所看到的,math.stackexchange问​​题表明一致性并不意味着渐近地无偏见,但是对于原因却没有太多解释。那里的OP还理所当然地认为渐近无偏并不意味着一致性,因此到目前为止,唯一的回答者并没有解决为什么这样做。

2
贝叶斯估计量不受选择偏差的影响
贝叶斯估计量是否不受选择偏差的影响? 大多数讨论高维估计的论文,例如整个基因组序列数据,通常会提出选择偏见的问题。选择偏差是由于以下事实而产生的:尽管我们有成千上万的潜在预测变量,但只有很少的预测变量会被选择,并且对所选的少数变量进行推断。因此,该过程分两个步骤进行:(1)选择预测变量的子集(2)对选择集进行推断,例如估计比值比。戴维德(Dawid)在其1994年的悖论论文中重点研究了无偏估计量和贝叶斯估计量。他将问题简化为选择最大的效果,这可能是治疗效果。 然后他说,无偏估计量受选择偏差的影响。他使用了这个例子:假设 然后每个Z iZi∼N(δi,1),i=1,…,NZi∼N(δi,1),i=1,…,N Z_i\sim N(\delta_i,1),\quad i=1,\ldots,N ZiZiZ_i对于是无偏的。令 ,估计量 但是有偏见(肯定地)表示\ max \ {\ delta_1,\ delta_2,\ ldots,\ delta_N \}。用詹森的不等式可以很容易地证明这一说法。因此,如果我们知道i _ {\ max},即最大\ delta_i的索引,我们将仅使用Z_ {i _ {\ max}}作为其估计量而无偏。但是因为我们不知道这一点,所以我们使用\ gamma_1(\ mathbf {Z})来代替它(有偏)。ž = (Ž 1,Ž 2,... ,Ž Ñ )Ť γ 1(ż)= 最大{ Ž 1,Ž 2,... ,ž Ñ } 最大值{ δ 1,δ 2,... …

2
为什么限制最大似然会产生更好的(无偏的)方差估计?
我正在阅读道格·贝茨(Doug Bates)关于R的lme4程序包的理论论文,以更好地理解混合模型的本质,并遇到了一个我想更好理解的有趣结果,即使用受限最大似然(REML)估计方差。 在关于REML标准的第3.3节中,他指出,在拟合线性模型中根据残差估计方差时,在方差估计中使用REML与使用自由度校正紧密相关。特别是,“尽管通常不是这样得出的”,但可以通过优化“ REML准则”估算方差来推导自由度校正(公式(28))。REML标准基本上只是可​​能性,但是线性拟合参数已通过边缘化来消除(而不是将其设置为等于拟合估计值,这会产生有偏差的样本方差)。 我进行了数学运算,并验证了仅具有固定效果的简单线性模型所声称的结果。我正在努力的是解释。是否存在某种观点,可以通过优化拟合参数被边缘化的可能性来自然地推导方差估计?感觉有点像贝叶斯,好像我认为似然性是后验的,将拟合参数边缘化,就好像它们是随机变量一样。 还是说辩护主要只是数学上的-它在线性情况下有效,但也可以推广?

2
AR()模型的无偏估计
考虑一个AR()模型(为简单起见,假设均值为零):ppp xt=φ1xt−1+…+φpxt−p+εtxt=φ1xt−1+…+φpxt−p+εt x_t = \varphi_1 x_{t-1} + \dotsc + \varphi_p x_{t-p} + \varepsilon_t 如最近的线程所述,已知的OLS估计量(等于条件最大似然估计量是有偏差的。φ: =( φ1个,… ,φp)φ:=(φ1,…,φp)\mathbf{\varphi} := (\varphi_1,\dotsc,\varphi_p) (奇怪的是,我找不到汉密尔顿的《时间序列分析》或其他一些时间序列教科书中提到的偏见。但是,可以在各种讲义和学术文章中找到它,例如this。) 我无法找出AR()的确切最大似然估计是否有偏差;因此,我的第一个问题。ppp 问题1:是确切的 AR(最大似然估计)模型的自回归参数偏见吗?(让我们假设AR()过程是平稳的。否则,估计量甚至是不一致的,因为它被限制在平稳区域内;请参见Hamilton的“时间序列分析”,第123页。)φ 1,... ,φ p ppppφ1,…,φpφ1,…,φp\varphi_1,\dotsc,\varphi_pppp 也, 问题2:是否有任何合理简单的无偏估计量?

4
如何向外行人解释什么是无偏估计?
假设是一个无偏估计。然后,当然是。 θë[ θ |θ]=θθ^θ^\hat{\theta}θθ\thetaE[θ^∣θ]=θE[θ^∣θ]=θ\mathbb{E}[\hat{\theta} \mid \theta] = \theta 一个人如何向外行人解释呢?过去,我所说的是,如果对一堆求平均值,则随着样本数量的增加,您会更好地逼近。 θθ^θ^\hat{\theta}θθ\theta 对我来说,这是有问题的。我认为我在这里实际描述的是这种渐近无偏的现象,而不是单纯地无偏的现象,即 其中\ hat {\ theta}可能取决于n。limn→∞E[θ^∣θ]=θ,limn→∞E[θ^∣θ]=θ,\lim_{n \to \infty}\mathbb{E}[\hat{\theta} \mid \theta] = \theta\text{,} Ñθ^θ^\hat{\theta}nnn 那么,如何向外行人解释什么是无偏估计呢?

1
该估计量的方差是多少
我想估计函数f的平均值,即 ,其中和是独立随机变量。我有f的样本,但没有iid:有iid样本,每个有来自样本:EX,Y[f(X,Y)]EX,Y[f(X,Y)]E_{X,Y}[f(X,Y)]XXXYYYY1,Y2,…YnY1,Y2,…YnY_1,Y_2,\dots Y_nYiYiY_ininin_iXXXXi,1,Xi,2,…,Xi,niXi,1,Xi,2,…,Xi,niX_{i,1},X_{i,2},\dots, X_{i,n_i} 所以总共我有样本f(X1,1,Y1)…f(X1,n1,Y1)…f(Xi,j,Yi)…f(Xn,nn,Yn)f(X1,1,Y1)…f(X1,n1,Y1)…f(Xi,j,Yi)…f(Xn,nn,Yn)f(X_{1,1},Y_1) \dots f(X_{1,n_1},Y_1 ) \dots f(X_{i,j},Y_i) \dots f(X_{n,n_n},Y_n) 为了估计平均值,我计算 显然,所以是一个无偏估计量。我现在想知道什么是,即估计量的方差是多少。μ=∑i=1n1/n∗∑j=1nif(Xi,j,Yi)niμ=∑i=1n1/n∗∑j=1nif(Xi,j,Yi)ni\mu=\sum_{i=1}^n 1/n * \sum_{j=1}^{n_i}\frac{ f(X_{i,j},Y_i)}{n_i}EX,Y[μ]=EX,Y[f(X,Y)]EX,Y[μ]=EX,Y[f(X,Y)]E_{X,Y}[\mu]=E_{X,Y}[f(X,Y)]μμ\muVar(μ)Var(μ)Var(\mu) 编辑2:这是正确的方差吗? 它似乎在极限中起作用,即,如果n = 1且所有则方差仅成为均值的方差。如果该公式成为估计量方差的标准公式。它是否正确?我如何证明它是? Var(μ)=VarY(μi)n+∑i=1nVarX(f(X,Yi)))ni∗n2Var(μ)=VarY(μi)n+∑i=1nVarX(f(X,Yi)))ni∗n2Var(\mu)=\frac{Var_Y(\mu_i)}{n}+\sum_{i=1}^n \frac{Var_X(f(X,Y_i)))}{n_i*n^2}ni=∞ni=∞n_i=\inftyni=1ni=1n_i=1 编辑(忽略此内容): 因此,我想我取得了一些进展:让我们首先定义,这是对。μi=∑nij=1f(Xi,j,Yi)niμi=∑j=1nif(Xi,j,Yi)ni\mu_i=\sum_{j=1}^{n_i}\frac{ f(X_{i,j},Y_i)}{n_i}EX[f(X,Yi)]EX[f(X,Yi)]E_X[f(X,Y_i)] 使用方差的标准公式,我们可以编写: Var(μ)=1/n2∑l=1n∑k=1nCov(μl,μk)Var(μ)=1/n2∑l=1n∑k=1nCov(μl,μk)Var(\mu)=1/n^2 \sum_{l=1}^n \sum_{k=1}^n Cov(\mu_l,\mu_k) 可以简化为 和因为是独立绘制的,所以我们可以进一步简化为 并且对于协方差: 1/n2(∑i=1nVar(μl)+1/n2∑l=1n∑k=l+1n2∗Cov(μl,μk))1/n2(∑i=1nVar(μl)+1/n2∑l=1n∑k=l+1n2∗Cov(μl,μk))1/n^2( \sum_{i=1}^n Var(\mu_l)+ 1/n^2\sum_{l=1}^n \sum_{k=l+1}^n 2*Cov(\mu_l,\mu_k))XijXijX_{ij}1/n2(∑i=1n1/niVar(f(Xi,j,Yi))+1/n2∑l=1n∑k=l+1n2∗Cov(μl,μk))1/n2(∑i=1n1/niVar(f(Xi,j,Yi))+1/n2∑l=1n∑k=l+1n2∗Cov(μl,μk))1/n^2( \sum_{i=1}^n 1/n_i Var(f(X_{i,j},Y_i))+1/n^2 \sum_{l=1}^n \sum_{k=l+1}^n 2*Cov(\mu_l,\mu_k))Cov(μl,μk)=Cov(∑j=1nlf(Xj,l,Yl)nl,∑j=1nkf(Xj,k,Yk)nk)=1(nk∗nl)∗Cov(∑j=1nlf(Xj,l,Yl),∑j=1nkf(Xj,k,Yk))=1(nk∗nl)∗∑j=1nl∑j=1nkCov(f(X,Yl),f(X,Yk))=nk∗nl(nk∗nl)Cov(f(Xi,l,Yl),f(Xi,k,Yk))=Cov(f(X,Yl),f(X,Yk))Cov(μl,μk)=Cov(∑j=1nlf(Xj,l,Yl)nl,∑j=1nkf(Xj,k,Yk)nk)=1(nk∗nl)∗Cov(∑j=1nlf(Xj,l,Yl),∑j=1nkf(Xj,k,Yk))=1(nk∗nl)∗∑j=1nl∑j=1nkCov(f(X,Yl),f(X,Yk))=nk∗nl(nk∗nl)Cov(f(Xi,l,Yl),f(Xi,k,Yk))=Cov(f(X,Yl),f(X,Yk))\begin{align} Cov(\mu_l,\mu_k)&=Cov(\sum_{j=1}^{n_l} \frac{f(X_{j,l},Y_l)}{n_{l}},\sum_{j=1}^{n_k} \frac{f(X_{j,k},Y_k)}{n_{k}})\\ …

2
均值平方的无偏正估计
假设我们有真正的(不明)从分布获得独立同分布的样本均值和方差,我们要估计μ 2。μ,σ2μ,σ2\mu, \sigma^2μ2μ2\mu^2 我们如何构造一个无偏的,始终为正的估计量? 以样本均值的平方被偏置,并且将高估的数量,电除尘器。如果μ接近于0和σ 2是大的。μ~2μ~2\tilde{\mu}^2μμ\muσ2σ2\sigma^2 这可能是一个琐碎的问题,但我的Google技术让我失望,因为estimator of mean-squared只有回报mean-squarred-error estimators 如果使事情变得容易,则可以将基础分布假定为高斯分布。 解: 有可能构造的无偏估计 ; 参见克努姆西的答案μ2μ2\mu^2 这是不可能构建的无偏,总是正的估计,因为这些要求是冲突的,当真正的平均值是0; 见眨眼的答案μ2μ2\mu^2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.