如何使用1%的微数据样本大规模地模拟小区域的人口普查微数据,以及如何在小区域尺度上进行汇总统计?


9

我想在较小的地理汇总水平(澳大利亚人口普查收集区)中执行个人级别的多元分析。显然,出于隐私原因,无法在这些较小的汇总级别进行人口普查,因此我正在研究其他替代方案。几乎所有感兴趣的变量都是分类变量。我有两个数据集可供使用:

  • 1%的人口普查样本可用于更高级别的空间聚集(一个人口约为190,000且人口统计学的空间分隔较大的区域)。

  • 我在小区域级别上感兴趣的变量的频率表(500个小区域,平均pop = 385,sd = 319,中位数= 355)。

如何使用这两个数据集在小面积级别模拟尽可能接近小面积实际人口的人口分布?

我很欣赏可能有常规的方法来执行此操作;如果是这样,将非常感谢您提供教科书或相关期刊文章的指针。


可能相关(我遇到类似的问题):stats.stackexchange.com/questions/14399/…Gibbs采样可能是这里需要的。
mzuba 2011年

您可能想在美国统计协会的SRMSNET邮件列表中提问。如果您在澳大利亚,我会去雷·钱伯斯(Ray Chambers)-我想在南半球,没有人比他更了解SAE :)。
StasK 2011年

此问题与“等距映射”密切相关。
ub

1
我同意@whuber的观点,鉴于主题材料,也可能要注意dasymetric映射。不幸的是,它与我在回答中引用的生态推理文献大相径庭(我不想再堆更多的文献!)您如何看待fmark?
Andy W

1
一些等轴测图映射技术已开始使用辅助数据来尝试将数据插值到较小的区域。生态推理和等距映射的目标有所不同(有点类似于预测/预测与推理之间的差异)。我将在收集到的那些来源上写另一篇文章,我认为也很有趣。不幸的是,除了引用大量文献,我无法提供更多有用的建议。这是一个很受欢迎的当代话题,希望您能为此做出贡献!
Andy W

Answers:


5

测距制图主要侧重于将人口估计值插值到比当前分发的数据更小的区域(有关主题的许多有用参考文献,请参阅此问题)。通常,这是通过简单地(根据土地特征)确定明显不存在人口的区域,然后重新估计人口密度(忽略这些区域)来完成的。一个示例可能是某个城市中有一片水,另一个是如果您确定没有任何居民的工业用地。数据映射的最新方法是在概率框架中结合其他辅助数据来分配人口估计值(Kyriakidis,2004; Liu等,2008; Lin等,2011; Zhang&Qiu,2011)。

现在,很容易看到与您的问题的关系。您需要小区域的人口估计。但是,也应该清楚它可能无法达到您的目标。您不仅需要人口数据,还需要这些人口的特征。用来描述这种情况的术语之一是支持问题的改变(Cressie,1996; Gotway&Young,2002)。从地统计学文献中借用,人们试图从点样本对大范围的某个特征进行预测,最近的工作试图将面数据插值到不同的目标区域。皮埃尔·古瓦特Pierre Goovaerts)的许多工作集中在这种点对点的克里格方法上,这是《地理分析》杂志上的最新文章 有几个应用不同主题材料的方法的示例(Haining等,2010),而我最喜欢的应用之一就是本文(Young等,2009)。

我所引用的内容几乎不应被视为解决该问题的灵丹妙药。最终,许多具有生态推理和聚合偏差的相同问题也适用于面插值的目标。很遗憾,微级数据之间的许多关系在聚合过程中完全丢失了,而这种插值技术将无法恢复它们。同样,根据经验对数据进行插值的过程(通过从合计水平数据中估计方差图)通常充满了临时步骤,这会使该过程产生问题(Goovaerts,2008)。

不幸的是,我将其发布在一个单独的答案中,因为生态推理文献以及有关等轴测绘和面积到点克里金法的文献是不重叠的。尽管有关生态推理的文献对这些技术有许多启示。不仅插值技术容易受到聚合偏差的影响,而且智能测功技术(使用聚合数据来拟合模型以预测较小区域)也很可能会受到聚合偏差的影响。关于区域内插和dasymetric映射将在很大程度上失败的情况(特别是关于在分类级别上识别不同变量之间的相关性)的情况,应该启发发生聚合偏差的情况。


引文


感谢您为当代文学提供有用的起点-我不知道采用达阵方法比重定人口密度更重要,因此我将对此进行热切研究。
fmark 2011年

5

加里·金(Gary King)的著作,尤其是他的著作《生态推理问题的解决方案》(此处有前两章),将受到关注(以及他用于生态推理的随附软件)。金在他的书中展示了如何通过检查较低级别的分组基于可用的聚合数据而具有的潜在界限,来改善使用聚合数据的回归模型的估计。您的数据主要是分类分组的事实使它们适用于此技术。(尽管不要被愚弄,这并不是一个总的解决方案,正如您希望的那样!)存在更多当前的工作,但是King的书是IMO的最佳起点。

另一种可能性是仅表示数据本身的潜在界限(在地图或图形中)。因此,例如,您可能报告了总体水平上的性别分布(例如5,000名男性和5,000名女性),并且您知道该总体水平涵盖了9,000和1,000个人的2个不同的小区域单位。然后,您可以将其表示为表单的列联表。

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

尽管您在单元格中没有较低级别聚合的信息,但是从边际总计中,我们可以为每个单元格构建最小或最大电位值。因此,在此示例中,Men X Unit1单元只能采用4,000到5,000之间的值(每当边缘分布越不均匀,单元将采用的可能值的间隔越小)。显然,获得表格的界限比我预期的要困难(Dobra&Fienberg,2000),但是它似乎eiPack在R 的库中可用(Lau等人,2007,第43页)。

用聚合级别的数据进行多变量分析很困难,因为这种类型的数据不可避免地会发生聚合偏差。(简而言之,我将描述聚合偏差,因为许多不同的单个级别数据生成过程可能导致聚合级别关联)。《美国社会学评论》上的一系列文章 在1970年代,我最喜欢该主题的一些参考文献(Firebaugh,1978; Hammond,1973; Hannan&Burstein,1974),尽管该主题的规范来源可能是(Fotheringham&Wong,1991; Oppenshaw,1984; Robinson,1950)。 。我确实认为,代表数据可能具有的潜在界限可能会令人反感,尽管您对进行多变量分析的汇总数据的局限性确实感到困惑。尽管这在社会科学中并没有阻止任何人这样做(不管是好是坏!)

注意,(正如查理在评论中所说),金的“解决方案”已经收到了相当多的批评(Anselin&Cho,2002; Freedman等,1998)。尽管这些批评并不是关于金氏方法的数学论据,但关于金氏方法在哪些情况下仍无法解释聚集偏差(我同意Freedman和Anselin的观点是,社会科学仍然怀疑比符合金的假设的科学普遍得多)。这部分是我建议仅检查界限的原因(这没有什么错),但是从此类数据推断个人水平相关性需要更多的信念飞跃,而这在大多数情况下最终都是不合理的。


引文


注意,其他人对金在生态谬误问题上的态度持批评态度。大卫·弗里德曼(David Freedman)是一个著名的例子。这是Freedman和他的合著者对上面引用的King的书的回应:citeseerx.ist.psu.edu/viewdoc/…当然,King对此有回应,而Freedman等人。对回应有回应...我无法完全弄清您正在尝试做什么以及拥有哪些数据,但是我通常对生态推理类型的分析持怀疑态度。
查理

是的,@ Charlie我同意(并且我特别喜欢Freedman对这个问题的看法)。这部分是我在文章末尾指向有关聚合偏差的一般文献的原因。我不太确定“我无法完全弄清您要做什么以及您拥有什么数据,但我通常对生态推断类型分析持怀疑态度”这一说法的意思是什么?关于国王和弗里德曼都抱怨不共享数据?
安迪W

@Andy,这项技术与经济学家所知的部分确定的分布是否相同(springer.com/statistics/statistical+theory+and+methods/book/…)?
StasK 2011年

@安迪,不,对不起。我实际上是在与OP交谈。如果他在小范围内有频率表,并且想要在小范围内获得统计信息,那么缺少什么?我猜他必须像您在帖子中所建议的那样仅保留边距,而不包含单元格内容。
查理

@StasK,我不知道。我将在本周晚些时候查阅该书,以查看King是否对Manski有所提及。鉴于摘要中提到了生态推断,可能存在一些重叠。探索两者之间联系的另一个潜在(免费)资源可能是读者金(King)编辑的“生态推理的新方法”(完整发布在他的网站上)
Andy W

2

考虑到Google搜索在多变量小面积估计方面基本上提供了三个可用的参考,因此我不确定文献中是否存在明确的答案。Pfeffermann(2002)在论文的第4节中讨论了离散响应变量,但是它们将是单变量模型。当然,使用分层贝叶斯方法(Rao 2003,第10章),您可以做任何事情,但是如果最后您发现自己只是在复制先验信息(因为您的数据很少),那将是一个糟糕的事情。模拟练习的结果。此外,饶仅处理连续变量。

我猜最大的挑战将是协方差矩阵分解为小区域之间和小区域内部的分量。使用1%的样本,您只能从SAE中获得3个观测值,因此可能很难获得组件内部的稳定估计值。

如果我穿上鞋子,我会尝试对Pfeffermann模型进行多变量扩展,并采用小面积的多变量随机效应。如果没有基于设计的工作,您可能最终会为此使用分层贝叶斯模型。

更新(以解决安迪对此答案的评论):小面积估计的自举方法(Lahiri 2003)从研究中重新创建了合理的种群。引导程序练习的重点是估计小面积估计值的方差,但该程序应该是有意义的,并且与发布的问题有关。


我不会根据Google搜索来评估文献的状态。我不太确定小面积估算是作者在这种情况下要寻找的。据我了解,文献集中于对小区域的特征进行预测(Kriegler&Berk,2010),或基于每个聚集单元的稀疏样本估计多级模型中的参数。
Andy W

我不确定我想做的是小面积估算。据我了解,小面积估算试图从小面积中的一些样本收集汇总统计数据。我正在寻找相反的方向(从大面积人口分布和小面积聚合汇总统计信息到模拟的小面积人口)。Lahiri 2003看起来是一个很好的起点。
fmark 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.