线性回归的最小点数


16

用线性回归寻找随时间变化趋势的“合理”最少观察数是什么?拟合二次模型怎么样?

我使用卫生方面的不平等综合指数(SII,RII)进行调查,只有四次调查,因此有4分(1997、2001、2004、2008)。

我不是统计学家,但我有直观的印象4分还不够。您有答案和/或参考资料吗?

非常感谢,

弗朗索瓦


4
通常的经验法则是每个独立变量10分。
彼得·弗洛姆

1
您的指数如何衡量?如果它们包括变异性的估计值,那么两个就足够了(使用t检验或其类似物)。这里适用的基本统计原理是,当随机变化不太可能解释您所观察的内容时,您有权将任何明显的趋势归因于非随机原因。当趋势很强时,尽管有所有通用的“经验法则”,但几乎不需要数据值即可得出这样的结论。
ub

Answers:


12

Peters的经验法则是每个协变量10。一条直线可以完美地与任意两个点拟合,而与响应值中的噪声量无关,而二次曲线可以仅与3个点完美拟合。显然,几乎在任何情况下都可以说4分不足。但是,像大多数经验法则一样,它不能涵盖所有情况。与误差方差较小的类似情况相比,模型中的噪声项方差较大的情况需要更多的样本。

所需的采样点数量确实取决于对象。如果您在进行探索性分析,只是为了查看一个模型(例如协变量中的线性)是否比另一个模型(例如协变量的二次函数)看起来好于10点就足够了。但是,如果您想非常准确地估算协变量的相关系数和回归系数,则每个协变量可能需要10个以上的值。预测标准的准确性可能比准确的参数估计需要更多的样本。注意,估计和预测的方差都涉及模型误差项的方差。


好点,迈克尔;我试图保持简单。:-)。考虑到原始问题的主题,如果不足10分,我会感到非常惊讶。衡量健康状况不平等的方法似乎有很多错误,而且与时间的关系不太可能呈高度线性关系。您知道有关此的文章吗?这个话题很有意思。
彼得·弗洛姆-恢复莫妮卡

@PeterFlom我不知道。我会看一本范贝丽(van Belle'a)关于统计经验法则的书,看看他是否使用了您提到的法则。关于他的书的好处是,他解释了每条规则背后的原理。我同意您的看法,除非在某些探索性案例中,一条规则说每个协变量至少取10,否则很少使用它是安全的。在我工作的健康科学领域,噪声项似乎总是很大,但也许某些严格控制的物理或工程实验可能具有非常精确的测量结果,因此随机误差较小。
Michael R. Chernick

我只是想指出小噪音的可能性,即使需要的地方很小,也可能导致少于10点的噪音。
Michael R. Chernick 2012年

[R2

+1,很好的信息,但是值得一提的是,如果您的估计量是无偏的,那么您就可以拥有饱和模型并且仍然可以对参数进行估计(如果需要的话)。您将无法估计变异性,也无法进行推断。但是,在某些情况下,有许多影响需要估算并且数据很难获得,有时会使用饱和模型。因此,例如,在这种情况下,您可以获得函数w /二次w / 3点的估计。我并不一定意味着这是一件好事,但这是真正的下限及其原因。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.