当包括所有总体时,回归中系数的标准误的含义是什么?
这个问题让我很困惑。因为在我看来,包括整个总体时,标准错误没有意义-无需统计推断,因为您已经拥有了整个总体。
但是,即使在顶级期刊上发表的许多文章也是如此广泛地使用了它。例如,如果我正在研究一个国家的GDP增长率与其人口密度之间的关系,则可以进行回归分析:
与地球上所有195个国家/地区合作。在这种情况下,所有国家(人口)都包括在内。但是所有文献仍在讨论系数的统计意义。
有人可以解释整个人口回归时是否滥用统计推断?
当包括所有总体时,回归中系数的标准误的含义是什么?
这个问题让我很困惑。因为在我看来,包括整个总体时,标准错误没有意义-无需统计推断,因为您已经拥有了整个总体。
但是,即使在顶级期刊上发表的许多文章也是如此广泛地使用了它。例如,如果我正在研究一个国家的GDP增长率与其人口密度之间的关系,则可以进行回归分析:
与地球上所有195个国家/地区合作。在这种情况下,所有国家(人口)都包括在内。但是所有文献仍在讨论系数的统计意义。
有人可以解释整个人口回归时是否滥用统计推断?
Answers:
我最初是为主持人标记此问题的,以检查迁移到统计数据SE站点“交叉验证”是否更好。但是,由于OP引入了一个非常具体的计量经济学示例,因此我相信就本示例而言,“人口/样本”的概念(非常深入)可以得到有益的讨论。
第一个问题是@AdamBailey答案中讨论的问题:如果在给定的一个或多个年份中考虑“世界上所有国家”,并且将数据标记为“人口”,则第二年应该属于不同的人口。如果它属于另一个总体,那么我们如何使用一个总体的结果来推断另一个总体呢?因此,的确,这里的“人口”是二维的,国家/地区和时间段-从这个意义上讲,时间范围是开放式的,我们手中只有一个样本。
因此,我们的数据只是这些随机变量可能的组合实现之一。这些认识不仅是确定性/工程关系/因果关系(反映在系数中)的结果,而且还受到固有随机因素的影响。从这个意义上讲,数据不是“人口”的“纯/典型”图像-它包含噪声,非结构性干扰,一次性冲击等。
然后,这种不确定性将延续到我们试图估计的系数的估计中,因为我们假设这些系数在随机因素影响因变量的最终值之前描述了因果关系或共同运动。
由于上述两个方面,在这种情况下,谈论“估计的标准误差”也是完全有效的,然后照常应用统计检验。
重要的是要考虑将要进行推断的总体是什么。在这种情况下,很容易忽略时间方面。
例如,假设目标是预测世界上每个国家未来两年的GDP。那么感兴趣的人口是“国家,年份”形式的成对集合。这并不是简单的“所有国家”,即使通过对每个国家当前和过去几年的数据进行回归估算得出预测模型,也不意味着已经包括了所有感兴趣的人群。
如果确实从整个感兴趣的人群的完整数据集开始,那么所有可以做的就是计算汇总统计信息。这可能包括标准差,但称这些标准误差为不合适,因为该术语与抽样分布有关,而在这种情况下,唯一的“抽样”是整个人口。