引导程序:过度拟合的问题


14

假设一个人通过从原始n个观测值中替换得到每个大小为n的样本来执行所谓的非参数引导。我相信此过程等效于通过经验CDF估算累积分布函数:Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

然后通过从估计的cdf B次连续模拟观察值来获得引导程序样本。nB

如果我对此是正确的,则必须解决过度拟合的问题,因为经验CDF具有大约N个参数。当然,它渐近收敛于总体cdf,但是有限样本呢?例如,如果我告诉你,我有100个观测,我会估计CDF为N(μ,σ2)有两个参数,你就不会惊慌。但是,如果参数数量增加到100,则似乎根本不合理。

同样地,当一个采用标准多元线性回归,误差项的分布被估计为。如果有人决定改用残差自举法,他必须意识到现在大约有nN(0,σ2)n参数仅用于处理误差项分布。

您能否将我定向到一些明确解决此问题的消息源,或者告诉我如果您认为我做错了为什么这不是问题。


查看此“非参数”引导程序的一种方法是,将正常性的参数假设转换为某些较大的有限总体(例如记录普查的均值)中的“感兴趣的数量”。实际上,您可以显示此引导程序版本基于多项式模型的“最大似然”估计,总体中每个不同的“类型”都有1个类别。
概率

Answers:


2

我不确定我对您的问题的理解是正确的...我假设您对收敛的顺序感兴趣?

因为经验CDF具有大约N个参数。当然,它渐近收敛于总体cdf,但是有限样本呢?

您是否已阅读有关引导程序理论的任何基础知识?问题是它很快就变得疯狂(数学上)。

无论如何,我建议您看看

范德法特《渐近统计》第23章。

大厅“ Bootstrap和Edgeworth扩建”(比我说的van der Vaart长而精巧,减少了手工操作)

基本知识。

Chernick的“ Bootstrap方法”更面向用户而不是数学家,但其中一节“ Bootstrap失败”。

古典的Efron / Tibshirani几乎没有说明引导程序为何有效...


4

ñμσ2分布的统计信息的分布和经由自举估计统计信息的分发击中点。

直观地,从有限样本中进行引导会低估基础分布的粗尾。很明显,因为有限样本的范围是有限的,即使它们的真实分布范围是无限的,甚至更糟的是,它们的尾巴也很粗。因此,引导统计信息的行为永远不会像原始统计信息那样“疯狂”。类似于避免由于(参数)回归中的参数过多而导致的过度拟合,我们可以通过使用少数参数正态分布来避免过度拟合。

编辑回应评论:请记住,您不需要引导程序来估计cdf。通常,您使用引导程序来获取某些统计信息的分布(广义上包括分位数,矩,无论需要什么)。因此,您不一定有一个过拟合的问题(就“与有限的真实分布相比,我的有限数据得出的估计看起来太好了”)。但是事实证明(通过引用的论文和弗兰克·哈雷尔(Frank Harrel)在下面的评论),得到这样的过度拟合问题与使用相同统计参数估计的问题有关。

因此,正如您的问题所暗示的那样,自举并不是解决参数估计问题的灵丹妙药。引导程序希望通过控制整个分布来解决参数问题的希望是虚假的。


1
鉴于引导程序中涉及的有效参数数量与样本大小大致相同,因此仍然不清楚引导程序如何工作。我有一个猜测:引导程序的最终目标不是估计整个分布,而是估计1-2个分布统计。因此,尽管嵌入在引导程序中的经验CDF严重过拟合,但以某种方式最终获得1-2个估计的统计数据还是不错的。我说对了吗?
詹姆斯

4
有效参数的数量与样本数量不同。当分布具有4个未知参数要估计时,经验累积分布函数的方差与对该分布的参数拟合的方差大致相同。原因之一是CDF的经验估计被迫升序。
Frank Harrell 2014年

好点子。您能提供参考吗?
詹姆斯

我希望我有一个。过去,我已经通过蒙特卡洛模拟展示了这一点。
Frank Harrell 2014年

@FrankHarrell:你的意思是 大号2-规范 F^-FF^X-FX?或者是其他东西?
HorstGrünbusch2014年

0

直觉的一种来源可能是针对iid数据比较参数CDF与ECDF的收敛速度。

通过DKW,经验CDF收敛到真实CDF。 ñ-1个/2率(不仅是一点,而且是CDF整个域的绝对差异的最大值):https : //en.wikipedia.org/wiki/Dvoretzky%E2%80%93Kiefer%E2%80%93Wolfowitz_inequality http ://www.stat.cmu.edu/~larry/=stat705/Lecture12.pdf

根据Berry-Esseen的研究,单个均值的抽样分布的CDF会在 ñ-1个/2比率:https : //en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem (这不是我们想要的-我们想知道数据的估计参数CDF如何收敛,而不是采样分布,但是在最简单的理想情况下,数据是正态σ 是已知的,我们只需要估计 μ,我想数据的CDF和均值CDF的收敛速度应该相同吗?)

因此,从某种意义上讲,无论您是使用经验CDF估算CDF还是直接使用样本均值估算器估算参数,您需要获取更多样本的速率都是相同的。这可能有助于证明弗兰克·哈雷尔(Frank Harrell)的评论“有效参数的数量与样本数量不同”。

当然,这还不是全部。尽管速率没有变化,但常数却不同。而且还有更多的非参数引导比ECDFs ---你仍然需要做的,一旦你估计它的东西与ECDF。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.