加里·金(Gary King)的著作,尤其是他的著作《生态推理问题的解决方案》(此处有前两章),将受到关注(以及他用于生态推理的随附软件)。金在他的书中展示了如何通过检查较低级别的分组基于可用的聚合数据而具有的潜在界限,来改善使用聚合数据的回归模型的估计。您的数据主要是分类分组的事实使它们适用于此技术。(尽管不要被愚弄,这并不是一个总的解决方案,正如您希望的那样!)存在更多当前的工作,但是King的书是IMO的最佳起点。
另一种可能性是仅表示数据本身的潜在界限(在地图或图形中)。因此,例如,您可能报告了总体水平上的性别分布(例如5,000名男性和5,000名女性),并且您知道该总体水平涵盖了9,000和1,000个人的2个不同的小区域单位。然后,您可以将其表示为表单的列联表。
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
尽管您在单元格中没有较低级别聚合的信息,但是从边际总计中,我们可以为每个单元格构建最小或最大电位值。因此,在此示例中,Men X Unit1
单元只能采用4,000到5,000之间的值(每当边缘分布越不均匀,单元将采用的可能值的间隔越小)。显然,获得表格的界限比我预期的要困难(Dobra&Fienberg,2000),但是它似乎eiPack
在R 的库中可用(Lau等人,2007,第43页)。
用聚合级别的数据进行多变量分析很困难,因为这种类型的数据不可避免地会发生聚合偏差。(简而言之,我将描述聚合偏差,因为许多不同的单个级别数据生成过程可能导致聚合级别关联)。《美国社会学评论》上的一系列文章 在1970年代,我最喜欢该主题的一些参考文献(Firebaugh,1978; Hammond,1973; Hannan&Burstein,1974),尽管该主题的规范来源可能是(Fotheringham&Wong,1991; Oppenshaw,1984; Robinson,1950)。 。我确实认为,代表数据可能具有的潜在界限可能会令人反感,尽管您对进行多变量分析的汇总数据的局限性确实感到困惑。尽管这在社会科学中并没有阻止任何人这样做(不管是好是坏!)
注意,(正如查理在评论中所说),金的“解决方案”已经收到了相当多的批评(Anselin&Cho,2002; Freedman等,1998)。尽管这些批评并不是关于金氏方法的数学论据,但关于金氏方法在哪些情况下仍无法解释聚集偏差(我同意Freedman和Anselin的观点是,社会科学仍然怀疑比符合金的假设的科学普遍得多)。这部分是我建议仅检查界限的原因(这没有什么错),但是从此类数据推断个人水平相关性需要更多的信念飞跃,而这在大多数情况下最终都是不合理的。
引文