总体人口回归


10

当包括所有总体时,回归中系数的标准误的含义是什么?

这个问题让我很困惑。因为在我看来,包括整个总体时,标准错误没有意义-无需统计推断,因为您已经拥有了整个总体。

但是,即使在顶级期刊上发表的许多文章也是如此广泛地使用了它。例如,如果我正在研究一个国家的GDP增长率与其人口密度之间的关系,则可以进行回归分析:

GDPi=α+βPopi+γXi+ϵi

与地球上所有195个国家/地区合作。在这种情况下,所有国家(人口)都包括在内。但是所有文献仍在讨论系数的统计意义。

有人可以解释整个人口回归时是否滥用统计推断?


统计网络已经回答了这个问题。看这里。基本上,统计数据不相关。“回归”是纯粹的数学装置。
luchonacho

@luchonacho我的观点是,就我们自然与stats.SE重叠的内容而言,此问题在此处很热门。我同意这实际上是重复的。我在这里找到了关于如何处理跨站点重复项的讨论:meta.stackexchange.com/questions/172307/…–
jmbejara

@jmbejara感谢您的参考。很高兴知道。
luchonacho's

这似乎是另一个相关参考。它讨论了Athey Imbens(2017)中讨论的一种称为随机推理的相关技术。jasonkerwin.com/nonparibus/2017/09/25/…–
jmbejara

Answers:


4

我最初是为主持人标记此问题的,以检查迁移到统计数据SE站点“交叉验证”是否更好。但是,由于OP引入了一个非常具体的计量经济学示例,因此我相信就本示例而言,“人口/样本”的概念(非常深入)可以得到有益的讨论。

第一个问题是@AdamBailey答案中讨论的问题:如果在给定的一个或多个年份中考虑“世界上所有国家”,并且将数据标记为“人口”,则第二年应该属于不同的人口。如果它属于另一个总体,那么我们如何使用一个总体的结果来推断另一个总体呢?因此,的确,这里的“人口”是二维的,国家/地区时间段-从这个意义上讲,时间范围是开放式的,我们手中只有一个样本。

GDPi,i=1,..n

因此,我们的数据只是这些随机变量可能的组合实现之一。这些认识不仅是确定性/工程关系/因果关系(反映在系数中)的结果,而且还受到固有随机因素的影响。从这个意义上讲,数据不是“人口”的“纯/典型”图像-它包含噪声,非结构性干扰,一次性冲击等。

然后,这种不确定性将延续到我们试图估计的系数的估计中,因为我们假设这些系数在随机因素影响因变量的最终值之前描述了因果关系或共同运动。

由于上述两个方面,在这种情况下,谈论“估计的标准误差”也是完全有效的,然后照常应用统计检验。


5

重要的是要考虑将要进行推断的总体是什么。在这种情况下,很容易忽略时间方面。

例如,假设目标是预测世界上每个国家未来两年的GDP。那么感兴趣的人口是“国家,年份”形式的成对集合。这并不是简单的“所有国家”,即使通过对每个国家当前和过去几年的数据进行回归估算得出预测模型,也不意味着已经包括了所有感兴趣的人群。

如果确实从整个感兴趣的人群的完整数据集开始,那么所有可以做的就是计算汇总统计信息。这可能包括标准差,但称这些标准误差为不合适,因为该术语与抽样分布有关,而在这种情况下,唯一的“抽样”是整个人口。


非常感谢你。为了更清楚一点,我更新了问题,在这种情况下,“所有国家”是否都视为全部人口?如果没有,则意味着它们是某些“超级人口”的“样本”-假设“平行宇宙”中有数百万个国家,地球上的195个国家独立且均等地分布在随机抽样。这不是一个牵强的假设吗?
大泽彰(Akira Osawa)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.