当具有基于不同样本量的组平均值的预测变量时,该怎么办?


14

考虑一个经典的数据分析问题,其中您有一个结果Yi,以及它与多个预测变量Xi1,...,Xip。这里要考虑的基本应用程序类型是

  1. Yi是某些团体级别的结果,例如市的犯罪率i

  2. 预测变量是组级别的特征,例如城市人口统计学特征i

基本目标是拟合回归模型(可能具有随机效应,但暂时不要考虑):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

当一个(或多个)预测变量是每个单位样本量不同的调查结果时,是否会出现技术上的困难?例如,假设Xi1是城市总分,i它是来自城市的个体样本的平均响应,i但是这些平均值所基于的样本量却大不相同:

CitySample size120210033004553

在某种意义上,由于预测变量的含义并不完全相同,因此对于每个城市,我担心在回归模型中对这些变量进行条件设定,就好像它们都是“被创造的”一样,可能会引起一些误导性的推断。

这类问题有名字吗?如果是这样,是否有研究如何处理?

我的想法是将其视为有误差的预测变量,并按照这些原则做一些事情,但测量误差存在异方差,因此将非常复杂。我可能会想这是错误的方式,或者可能使事情变得比原来更复杂,但是这里的任何讨论都会有所帮助。


8
这称为“变量的异方差”问题。(此短语是Google搜索的一个很好的目标。)最近(2007年),Delaigle和Meister在JASA文章中提出了一个非参数内核密度估计器。有关某些参数化方法(矩量法和MLE的方法)的摘要提出了一些其他方法:sciencedirect.com/science/article/pii/S1572312709000045。(我对这项研究还不够熟悉,无法为您提供有关如何处理特定数据集的权威性答案。)
whuber

1
@whuber +1评论。我认为“错误变量”是我一直在寻找的缺少关键字。如果没有人给出以下我可以接受的有力答案,那么我将研究文献,然后回过头来发表我最终作为答案所做的一切。
2012年

Answers:



0

对付这种情况的一个方法是假设每个城市都有与同方差分布的个体反应。然后每个城市的平均测量值X 的预测器将具有方差σ 2 / Ñ ,其中Ñ σ2Xiσ2/nini是个人在平均为城市的数量。那将是处理异方差的简单方法。对于这种形式的回归问题,我不知道有什么特别的名字。i


尽管我希望完全避免建模误差,但这似乎是合理的。如果我确实朝那个方向前进,您将用什么来估计带有误差的预测变量的效果?我使用了一种称为SIMEX的方法,但这似乎并不常见,我想知道是否还有其他选择。
2012年

@Macro我不熟悉使用方差函数进行回归建模的特定软件。
Michael R. Chernick

3
宏,作为均变量误差回归中的经验法则,如果IV的误差小于DV中的误差,则可以放心地忽略前者,而采用普通回归。这为您提供了一种快速,简单的方法来对问题进行分类。
ub

1
@whuber,谢谢-这很有用。似乎,如果该经验法则有意义,则在异方差情况下使用“如果IV中最大的误差方差与DV中的误差方差相比,则可以放心地忽略该问题”合理的经验法则,这是我正在查看的数据中可能实际满足的条件。
2012年

1
@Michael,在数据中,我正在查看所求平均值的方差并不大。我得去核实一下,但假设,所以平均的方差(如果它的合理的说法方差为跨部门的常数-另一件事情我得去核实一下)是1 / ñ,所以它之间的范围内0.05 1 在我的数据组中的样本大小。Y i中的误差方差可能是1,可能比此大两个数量级(再次,我必须检查)。σ211/n(.05,1)Yi
2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.