当具有基于不同样本量的组平均值的预测变量时,该怎么办?
考虑一个经典的数据分析问题,其中您有一个结果YiYiY_{i},以及它与多个预测变量Xi1,...,XipXi1,...,XipX_{i1}, ..., X_{ip}。这里要考虑的基本应用程序类型是 YiYiY_{i}是某些团体级别的结果,例如市的犯罪率iii。 预测变量是组级别的特征,例如城市人口统计学特征iii。 基本目标是拟合回归模型(可能具有随机效应,但暂时不要考虑): E(Yi|Xi)=β0+β1Xi1+...+βpXipE(Yi|Xi)=β0+β1Xi1+...+βpXip E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} 当一个(或多个)预测变量是每个单位样本量不同的调查结果时,是否会出现技术上的困难?例如,假设Xi1Xi1X_{i1}是城市总分,iii它是来自城市的个体样本的平均响应,iii但是这些平均值所基于的样本量却大不相同: City12345⋮Sample size2010030053⋮CitySample size120210033004553⋮⋮\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 …