假设一个人通过从原始n个观测值中替换得到每个大小为n的样本来执行所谓的非参数引导。我相信此过程等效于通过经验CDF估算累积分布函数:
http://en.wikipedia.org/wiki/Empirical_distribution_function
然后通过从估计的cdf B次连续模拟观察值来获得引导程序样本。
如果我对此是正确的,则必须解决过度拟合的问题,因为经验CDF具有大约N个参数。当然,它渐近收敛于总体cdf,但是有限样本呢?例如,如果我告诉你,我有100个观测,我会估计CDF为有两个参数,你就不会惊慌。但是,如果参数数量增加到100,则似乎根本不合理。
同样地,当一个采用标准多元线性回归,误差项的分布被估计为。如果有人决定改用残差自举法,他必须意识到现在大约有n参数仅用于处理误差项分布。
您能否将我定向到一些明确解决此问题的消息源,或者告诉我如果您认为我做错了为什么这不是问题。