对于给定的估算技术和参数,样本应为多大?


12

是否有经验法则或什至没有任何方法来说明样本的大小,以便用给定数量的参数估计模型?

因此,例如,如果我想估计具有5个参数的最小二乘回归,则样本应为多大?

您使用哪种估计技术(例如,最大似然,最小二乘,GMM),或者要执行多少测试或什么测试,有关系吗?做出决定时是否应考虑样本变异性?

Answers:


11

简单的答案是,总是首选更多数据而不是更少数据。

样本量小的问题很明显。在线性回归(OLS)中,从技术上讲,您可以拟合诸如n = k + 1的OLS之类的模型,但是会从中得到垃圾,即非常大的标准误差。亚瑟•戈德伯格(Arthur Goldberger)有一篇关于这一主题的伟大论文,名为“微数值学”(Micronumerocity),该论文总结在他的“ 计量经济学课程书第23章

一种常见的启发式方法是,对于要估计的每个参数,您应该有20个观察值。在标准误差(以及显着性检验)的大小与样本大小之间始终要进行权衡。这是我们一些人讨厌显着性检验的原因之一,因为您可以通过大量的样本获得难以置信的较小(相对)标准误差,从而在幼稚的检验中发现无意义的统计意义,例如回归系数是否为零。

尽管样本量很重要,但样本的质量更为重要,例如样本是否可用于总体,是简单随机样本还是其他适当的抽样方法(在分析过程中已考虑到这一点),是否存在测量误差,响应偏差,选择偏差等。


3

我喜欢使用重采样:我对数据的子样本重复使用任何方法(例如占总数的80%甚至50%)。通过对许多不同的子样本执行此操作,我可以感觉到估计值的鲁棒性。对于许多估算程序,可以将其转化为对错误的真实(可发布)估算。


2

它应该总是足够大!;)

所有参数估计值都带有估计不确定性,该不确定性由样本量决定。如果你进行回归分析,它有助于提醒自己的是,Χ 2分布从输入数据集构建。如果你的模型有5个参数,你有5个数据点,你只能够计算Χ单点2分发。由于需要将其最小化,因此只能选择该点作为最小值的猜测,但必须为估计的参数分配无限的误差。有更多的数据点就允许你映射参数空间更好通往最小Χ的一个更好的估计2分布,从而更小的估计误差。

您将使用最大似然估计器,情况将是类似的:更多的数据点导致对最小值的更好估计。

至于点方差,您也需要对此建模。具有更多数据点将使围绕“真实”值的点聚类更加明显(由于中央极限定理),并且有可能因为该点的真实值下降而解释较大的机会波动的危险。对于任何其他参数,您拥有的数据点越多,对点方差的估计将变得更加稳定。


2

我听说过这方面的两个经验法则。一种观点认为,只要在误差项中有足够的观测值可以引起中心极限定理,例如20或30,就可以了。另一方认为,对于每个估计的斜率,至少应有20或30个观测值。使用20或30作为目标数之间的差异是基于关于何时有足够的观察值可以合理地唤起中心极限定理的不同想法。


1
这两个答案对我来说看起来太不一样了。一个说20到30倍,另一个说20到30倍的斜率。因此,如果您有5个斜率,则一个规则告诉您20到30,其他规则则告诉您100到150个观测值。这似乎不正确的我....
维维

1
它们是完全不同的准则。我怀疑这种脱节是您是否认为对整体模型的测试很重要(N较低的准则)还是对单个斜率的测试很重要(N较高的准则)。
russellpierce
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.