Questions tagged «estimators»

根据观察到的数据计算给定数量的估计值的规则[Wikipedia]。

3
一致估计和无偏估计之间有什么区别?
我真的很惊讶,似乎没有人问过这个问题... 在讨论估计量时,经常使用的两个术语是“一致”和“无偏”。我的问题很简单:有什么区别? 这些术语的精确技术定义相当复杂,很难直观理解它们的含义。我可以想象一个好的估计量,一个坏的估计量,但是我很难看到任何一个估计量如何满足一个条件而不能满足另一个条件。


1
分位数回归:哪些标准误差?
summary.rq来自quantreg插图的功能为分位数回归系数的标准误差估计提供了多种选择。在哪些特殊情况下,每种情况都变得最佳/理想? 如在Koenker(1994)中所述,“等级”通过反转等级检验产生估计参数的置信区间。默认选项假定错误是iid,而选项iid = FALSE则实施了Koenker Machado(1999)的建议。有关其他参数,请参见rq.fit.br的文档。 假定误差为iid的“ iid”,如KB(1978)所示,计算渐近协方差矩阵的估计。 假定条件分位数函数的局部(以τ为单位)线性(以x为单位)并使用稀疏性的局部估计来计算Huber三明治估计的“ nid”。 “ ker”使用Powell(1990)提出的三明治的核估计。 “ boot”实现了几种可能的用于估计标准错误的自举选项之一。 我已经阅读了至少20篇经验论文,无论是在时间序列还是在横截面尺寸上都应用了该论文,还没有提到标准误差的选择。


9
估计量和统计量有什么区别?
我了解到统计量是您可以从样本中获得的属性。以许多相同大小的样本为例,为所有样本计算该属性并绘制pdf,得出对应属性的分布或对应统计数据的分布。 我还听说统计数据是用来估算的,这两个概念有何不同?

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

2
截距和斜率的OLS估计量之间的相关性
在简单的回归模型中 y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS估计量和是相关的。ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} 两个估计量之间的相关性公式为(如果我正确推导得出的话): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. 问题: 关于相关性的直观解释是什么? 相关性的存在是否有任何重要含义? 编辑了该帖子,并删除了相关性随样本大小消失的断言。(感谢@whuber和@ChristophHanck。)

2
收缩 vs无偏:估计量
关于皮尔逊相关系数总体值的两种估计量,我的头脑有些困惑。 A. Fisher(1915)表明,对于二元正态总体,经验是的负偏差估计量,尽管该偏差实际上仅对于小样本量()才是相当可观的。样本在某种意义上低估了,因为它比更接近于。(除非后者为或,否则是无偏的。)已经提出了几种几乎无偏的估计量,最好的估计可能是Olkin和Pratt(1958)r[RrÑ &lt; 30 [R ρ 0 ρ 0 ± 1 - [Rρρ\rhon&lt;30ñ&lt;30n<30r[Rrρρ\rho000ρρ\rho000±1±1个\pm 1r[Rrρρ\rho更正的:r[Rr runbiased=r[1+1−r22(n−3)][R无偏见的=[R[1个+1个-[R22(ñ-3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.据说在回归中观察到高估了相应的总体R平方。或者,通过简单的回归,就是高估了。基于这一事实,我见过很多文章说,是正相关偏向于,这意味着绝对值:是从更远的比(?是说法正确)。文本说这与通过样本值高估标准偏差参数是同样的问题。有许多公式可以“调整”观察到的使其更接近人口参数Wherry's(1931)- [R 2 ρ 2 - [RR2[R2R^2r2[R2r^2ρ2ρ2\rho^2r[Rr[R 0 ρ - [R 2ρρ\rhor[Rr000ρρ\rhoR2[R2R^2 R2adj[R调整2R_\text{adj}^2是最著名的(但不是最好的)。调整后的的根称为收缩:r2adj[R调整2r_\text{adj}^2 r[Rr rshrunk=±1−(1−r2)n−1n−2−−−−−−−−−−−−−−√[R压缩=±1个-(1个-[R2)ñ-1个ñ-2r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}} 当前是两个不同的估计量。非常不同的:第一个膨胀,第二放气。如何调和他们?在哪里使用/报告,在另一个地方?ρρ\rhor[Rrr[Rr 特别是,“收缩”的估计量也(几乎)是无偏的,就像“无偏”的估计一样,但仅在不同的上下文中-在回归的非对称上下文中,这是真的吗?因为,在OLS回归中,我们认为一侧(预测变量)的值是固定的,因此每个样本之间都没有随机误差吗?(要补充一点,回归不需要双变量正态性。)


1
具有相同方框和晶须图的类似Anscombe的数据集(平均值/标准差/中位数/ MAD /最小值/最大值)
编辑:由于这个问题被夸大,所以进行了总结:找到具有相同混合统计量(均值,中位数,中位数及其相关离散和回归)的不同有意义和可解释的数据集。 Anscombe四重奏(请参见显示高维数据的目的?)是四个 -数据集的著名示例,具有相同的边际均值/标准偏差(分别在四个和)和相同的OLS线性拟合,平方的回归和残差和以及相关系数。该型统计(边际和关节)等均相同,而数据集有很大的不同。y x yXxxÿyyXxxÿyyℓ 2[R2R2R^2ℓ2ℓ2\ell_2 编辑(来自OP注释)让小数据集分开,让我提出一些解释。集1可以看作是分布噪声的标准线性(仿射,正确的)关系。第2组显示出干净的关系,这可能是更高程度拟合的顶点。集合3显示一个明显的线性统计依赖性,且具有一个异常值。集合4比较棘手:从预测的尝试似乎注定会失败。的设计可能会显示一个滞后现象,其值范围不足,存在量化效应(可能量化得太重),或者用户已切换了因变量和自变量。X X XÿyyXxxXxxXxx 因此摘要功能隐藏了非常不同的行为。集合2可以用多项式拟合更好地处理。设置3具有异常值抵抗方法(或类似方法)以及设置4。您可能想知道其他成本函数或差异指标是否可以解决,或至少改善数据集判别力。编辑(来自OP的评论):博客文章Curious Regressions指出:ℓ 1ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1 顺便说一句,有人告诉我弗兰克·安斯科姆(Frank Anscombe)从未透露过他是如何提出这些数据集的。如果您认为获得所有摘要统计信息和回归结果相同是一件容易的事,请尝试一下! 在出于类似于Anscombe四重奏的目的而构造的数据集中,给出了一些有趣的数据集,例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混杂的统计数据的混合。 我的问题是:是否有双变量(或三变量,以保持可视化)类似Anscombe的数据集,使得除了具有相同的 -type统计信息之外ℓ2ℓ2\ell_2: 他们的曲线可以解释为和 之间的关系,就好像人们在寻找测量之间的定律一样,ÿXxxÿyy 它们具有相同的(更可靠)边际属性(相同的中位数和绝对偏差的中位数),ℓ1个ℓ1\ell_1 它们具有相同的边界框:相同的最小值,最大值(因此具有类型的中档和中跨统计信息)。ℓ∞ℓ∞\ell_\infty 这样的数据集在每个变量上具有相同的“盒须”图摘要(带有最小值,最大值,中位数,中位数绝对偏差/ MAD,均值和标准差),并且在解释上仍然有很大不同。 如果数据集的某些最小绝对回归是相同的,那将会更加有趣(但是也许我已经问了太多)。在讨论稳健与不稳健回归时,它们可以作为警告,并有助于记住Richard Hamming的报价: 计算的目的是洞察力,而不是数字 编辑(来自OP的评论)在使用相同统计数据生成数据但不相似的图形,Sangit Chatterjee和Aykut Firata,《美国统计学家》(2007)或《克隆数据:生成具有完全相同的多元线性回归拟合的数据集》(J.澳洲 N.-Z. 统计 J.2009年。 在Chatterjee(2007)中,目的是生成与初始数据集具有相同均值和标准差的新颖对,同时最大化不同的“差异/差异”目标函数。由于这些函数可以是非凸的或不可微的,因此它们使用遗传算法(GA)。重要步骤包括正交归一化,这与保留均值和(单位)方差非常一致。纸张图形(纸张内容的一半)叠加了输入数据和GA输出数据。我的观点是,GA的输出失去了很多原始的直观解释。(x ,y)(x,y)(x,y) 和技术,无论是中位数还是中档被保留,并且纸张没有提到重整化程序将保存,ℓ 1和ℓ ∞统计。ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1ℓ∞ℓ∞\ell_\infty



2
最大似然估计-多元高斯
语境 多元高斯在机器学习中经常出现,并且以下结果在许多没有衍生的机器学习书籍和课程中使用。 给定以m × p尺寸 的矩阵形式给出的数据,如果我们假设数据遵循 参数均值为μ(p × 1)和协方差矩阵Σ(p × p)的p变量高斯分布,则最大似然估计为由:XX\mathbf{X} m × pm×p m \times ppppμμ\mup × 1p×1p \times 1 ΣΣ\Sigmap × pp×pp \times p μ^= 1米∑米我= 1X(我)= x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^= 1米∑米我= 1(x(我)- μ^)(x(我)- μ^)ŤΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - …

1
最大似然和矩量法何时会产生相同的估计量?
前几天有人问我这个问题,以前从未考虑过。 我的直觉来自每个估算器的优势。最大似然最好是在我们对数据生成过程充满信心时进行,因为与矩量方法不同,它最大程度地利用了整个分布的知识。由于MoM估算器仅使用时刻中包含的信息,因此当我们尝试估算的参数的足够统计量恰好是数据时刻时,这两种方法似乎应产生相同的估算。 (0 ,θ )(0,θ)(0,\theta)θθ\theta最大(X1个,⋯ ,Xñ)最高(X1个,⋯,Xñ)\max(X_1,\cdots,X_N) 我以为这可能是指数族的怪癖,但是对于已知均值的拉普拉斯来说,足够的统计量是且方差的MLE和MoM估计量不相等。1个ñ∑ | X一世|1个ñ∑|X一世|\frac{1}{n} \sum |X_i| 到目前为止,我一般无法显示任何结果。有人知道一般情况吗?甚至是一个反例也可以帮助我改善直觉。

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.