Answers:
简单的答案是,总是首选更多数据而不是更少数据。
样本量小的问题很明显。在线性回归(OLS)中,从技术上讲,您可以拟合诸如n = k + 1的OLS之类的模型,但是会从中得到垃圾,即非常大的标准误差。亚瑟•戈德伯格(Arthur Goldberger)有一篇关于这一主题的伟大论文,名为“微数值学”(Micronumerocity),该论文总结在他的“ 计量经济学课程 ” 一书第23章中。
一种常见的启发式方法是,对于要估计的每个参数,您应该有20个观察值。在标准误差(以及显着性检验)的大小与样本大小之间始终要进行权衡。这是我们一些人讨厌显着性检验的原因之一,因为您可以通过大量的样本获得难以置信的较小(相对)标准误差,从而在幼稚的检验中发现无意义的统计意义,例如回归系数是否为零。
尽管样本量很重要,但样本的质量更为重要,例如样本是否可用于总体,是简单随机样本还是其他适当的抽样方法(在分析过程中已考虑到这一点),是否存在测量误差,响应偏差,选择偏差等。
它应该总是足够大!;)
所有参数估计值都带有估计不确定性,该不确定性由样本量决定。如果你进行回归分析,它有助于提醒自己的是,Χ 2分布从输入数据集构建。如果你的模型有5个参数,你有5个数据点,你只能够计算Χ单点2分发。由于需要将其最小化,因此只能选择该点作为最小值的猜测,但必须为估计的参数分配无限的误差。有更多的数据点就允许你映射参数空间更好通往最小Χ的一个更好的估计2分布,从而更小的估计误差。
您将使用最大似然估计器,情况将是类似的:更多的数据点导致对最小值的更好估计。
至于点方差,您也需要对此建模。具有更多数据点将使围绕“真实”值的点聚类更加明显(由于中央极限定理),并且有可能因为该点的真实值下降而解释较大的机会波动的危险。对于任何其他参数,您拥有的数据点越多,对点方差的估计将变得更加稳定。
我听说过这方面的两个经验法则。一种观点认为,只要在误差项中有足够的观测值可以引起中心极限定理,例如20或30,就可以了。另一方认为,对于每个估计的斜率,至少应有20或30个观测值。使用20或30作为目标数之间的差异是基于关于何时有足够的观察值可以合理地唤起中心极限定理的不同想法。