考虑一个经典的数据分析问题,其中您有一个结果,以及它与多个预测变量。这里要考虑的基本应用程序类型是
是某些团体级别的结果,例如市的犯罪率。
预测变量是组级别的特征,例如城市人口统计学特征。
基本目标是拟合回归模型(可能具有随机效应,但暂时不要考虑):
当一个(或多个)预测变量是每个单位样本量不同的调查结果时,是否会出现技术上的困难?例如,假设是城市总分,它是来自城市的个体样本的平均响应,但是这些平均值所基于的样本量却大不相同:
在某种意义上,由于预测变量的含义并不完全相同,因此对于每个城市,我担心在回归模型中对这些变量进行条件设定,就好像它们都是“被创造的”一样,可能会引起一些误导性的推断。
这类问题有名字吗?如果是这样,是否有研究如何处理?
我的想法是将其视为有误差的预测变量,并按照这些原则做一些事情,但测量误差存在异方差,因此将非常复杂。我可能会想这是错误的方式,或者可能使事情变得比原来更复杂,但是这里的任何讨论都会有所帮助。
8
这称为“变量的异方差”问题。(此短语是Google搜索的一个很好的目标。)最近(2007年),Delaigle和Meister在JASA文章中提出了一个非参数内核密度估计器。有关某些参数化方法(矩量法和MLE的方法)的摘要提出了一些其他方法:sciencedirect.com/science/article/pii/S1572312709000045。(我对这项研究还不够熟悉,无法为您提供有关如何处理特定数据集的权威性答案。)
—
whuber
@whuber +1评论。我认为“错误变量”是我一直在寻找的缺少关键字。如果没有人给出以下我可以接受的有力答案,那么我将研究文献,然后回过头来发表我最终作为答案所做的一切。
—
2012年