重新加权美国社区调查多样性数据将如何影响其误差范围?


10

背景:我的组织目前根据美国社区调查(美国人口普查局的一项调查项目),将其劳动力多样性统计数据(例如,残疾人百分比,妇女百分比,退伍军人百分比)与这些群体的劳动力总数进行比较。这是一个不准确的基准,因为我们有一组非常具体的工作,这些工作的人口统计学与整体劳动力不同。例如,假设我的组织主要是工程师。在我所在的州,工程学只有大约20%的女性。如果我们将自己与总劳动力基准进行比较(该基准更像是50%的女性),则会引起恐慌:“我们只有20%的女性,这是一场灾难!” 实际上,我们应该期望达到20%,因为这就是劳动力状况。

我的目标:我想做的是获取《美国社区调查》的职业数据(按多样性类别),然后根据我的工作岗位构成对其进行加权。这是社会和社区服务工作者的样本数据集。我想将这些工作代码加在一起(因为我们的人行横道是工作组,而不是特定的工作代码),然后我要根据该类别中的人数(例如我们的3,000个社交网络和社区服务工作者),那么我想对所有其他工作组执行相同的操作,将这些数字加在一起,然后除以我们的工作者总数。这将为我提供一种新的重新加权的多样性衡量指标(例如,从6%的残疾人到2%的残疾人)。

我的问题:如何使误差范围适合此最终汇总基准?我没有原始的人口普查数据集(显然),但是您可以通过将表格顶部的“估计”字段切换为“误差范围”,在我提供的链接中查看每个数字的误差范围。我与这些数据一起工作的其他同事完全打算忽略误差范围,但我担心我们正在为自己创建一个无统计学意义的基准。经过上述操作后,该数据是否仍然仍然可用?


3
不要改变ACS的权重-这是一种精致,高度复杂的产品,并且在所有应有的尊重下,我认为您不像人口普查局那样好。如果您可以得到与您在ACSCPS中的任务相一致的职位定义以进行全国比较,那么苹果之间的比较将是基于ACS计算期望的“多样性”类别的数量,以使您的企业发挥合理的多样性作用目标。
StasK 2014年

2
Stas,我同意你的看法,但是正如我在下面指出的那样,这实际上并不是对ACS的重新加权。
史蒂夫·塞缪尔斯

在调查统计数据中,“重新加权”将意味着原始调查权重的转换。这样的一个例子是后分层,样本倾斜或校准,以使重新加权样本的某些边际分布与外部已知的分布相匹配,例如从普查或ACS中得知。Danica提到的过程不会触及ACS砝码。
史蒂夫·塞缪尔斯

可能有帮助的是写下您想知道的有限人口数量。ACS也有重复砝码吗?这些可能有助于方差估计。
概率

Answers:


8

更新2014-01-15

我意识到我没有回答Danica最初的问题,即间接调整比例禁用的误差范围是否大于ACS中相同比率的误差范围。答案是:如果公司类别比例与州ACS比例没有太大差异,则下面给出的误差幅度将小于ACS误差幅度。原因:间接费率将组织工作类别的人员人数(或相对比例)视为固定数字。ACS对残疾比例的估计实际上需要对这些比例进行估计,并且误差幅度会增加以反映这一点。

为了说明这一点,将禁用率写为:

P^adj=ninpi^

其中是ACS 中类别中的估计禁用率。p^ii

另一方面,ACS的估计比率实际上是:

P^acs=(NiN)^pi^

其中和分别是人口类别和总体总数, 是类别的人口比例。NiNNi/Ni

因此,由于除了之外还需要估计,因此ACS速率的标准误差将更大。Ni/Npi

如果组织类别比例和人口估计比例相差很大,则。在我构建的两个类别的示例中,类别以比例和。估计比例禁用的标准误差为。SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

如果我将0.7345和0.2655设为固定值和(间接调整方法),则小得多。如果相反,则且, ,与大致相同 在极端且,。如果组织和人口类别的比例差异如此之大,我会感到惊讶。如果没有,我认为使用ACS误差范围作为保守的(可能非常保守的)真实误差范围的估计是安全的。n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001小号È Pd Ĵ= 0.079n2/n=0.999SE(P^adj)=0.079

更新2014-01-14

简短答案

我认为,不提供CI或误差范围(CI长度的一半)而提出这样的统计数据是不负责任的。要计算这些值,您需要下载并分析ACS公用微数据样本(PUMS)(http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/)。

长答案

这实际上并不是ACS的重新加权。它是间接标准化的一种形式,是一种流行病学的标准程序(google或查看任何Epi文本)。在这种情况下,状态ACS工作(类别)残疾率由组织工作类别员工人数加权。这将计算组织中预期的残疾人人数E,并将其与观察到的人数进行比较O。比较的通常量度是标准化比率R= (O/E)。(通常的术语是“ SMR”,代表“标准化死亡率”,但此处的“结果”是残疾。)R也是观察到的残障率(O/n)与间接标准化率的比率(E/n),其中n是组织的雇员人数。

在这种情况下,似乎只需要一个E或的配置项E/n,因此我将从此开始:

如果

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

然后

 E = sum (n_i p_i)

的方差E为:

 var(E) = nn' V nn

其中,nn是组织类别计数的列向量,V是ACS类别残障率的估计方差-协方差矩阵。

另外, se(E) = sqrt(var(E))se(E/n) = se(E)/n

E的90%CI为

  E ± 1.645 SE(E)

除以n得到CI E/n

要进行估算,var(E)您需要下载并分析ACS公用微数据样本(PUMS)数据(http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/)。

我只能谈论var(E)Stata 中的计算过程。我不知道您是否可以使用该功能,因此我将延迟详细信息。但是,对R或(可能是)SAS的调查功能了解的人也可以从上面的公式提供代码。

比率的置信区间 R

的置信区间R通常基于的泊松假设O,但该假设可能不正确。

我们可以考虑OE保持独立,因此

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))可以在计算以后再作为一个Stata步骤进行计算var(E)

根据泊松独立性假设:

 var(log O) ~ 1/E(O).

像Stata这样的程序可以拟合负二项式模型或广义线性模型,并为您提供更准确的方差项。

的近似90%CI为log RIS

 log R ± 1.645 sqrt(var(log R))

可以对端点求幂以获得CI R


这是一个很好的讨论。但是,最后,建议对的CI取幂可能会导致本身的CI确实很差。Rlog(R)R
whuber

在我看来,这不是适合涂抹的情况,但我可能是错的。你有什么建议?
史蒂夫·塞缪尔斯

CV中提到的一些方法包括增强CI,delta方法和分析似然函数。
whuber

感谢您的回答。是否可以使用R提取PUMS数据?我没有SAS。在使用人口普查提供的DataFerret工具之前,我已经提取了PUMS数据,但是我不确定这是否可以为我提供在Excel中可以进行有用操作的任何东西。很明显,我可以安装R,但是我没有任何经验。
DanicaE 2014年

1
不客气,丹妮卡。如果这个答案有帮助,请勾选对勾以正式接受它。请注意,我更新了答案。我建议您提出ACS的误差范围,以作为适当范围的保守替代。
史蒂夫·塞缪尔斯


3

添加到@ pricele2的答案中的http://asdfree.com链接..为了使用自由软件解决此问题,我鼓励您遵循以下步骤:

(1)(两个小时的辛苦工作)熟悉r语言。观看前50个视频,每个2分钟

http://twotorials.com/

(2)(一个小时的简单说明)在您的计算机上安装monetdb

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3)(三十分钟的说明后加上整夜的下载)将Acs pums下载到您的计算机上。只得到您需要的年。

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4)(四个小时的学习,编程和检查工作)根据所需的任何规范对需要重新编码的变量进行重新编码

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5)(两个小时的实际分析)运行您要查找的确切命令,捕获标准误差,并计算置信区间。

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6)(四个小时的编程时间)如果您需要比率估算器,请按照以下比率估算示例(具有正确测量调整后的标准误差)进行操作:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


谢谢,这些都是极好的资源。如果有人来这里寻找此信息,我一直在使用的R教程是datacamp.comcoursera.org/course/rprog。Data Camp是一个很棒的交互式教程。Coursera课程的重点是事物的理论/结构/名称。
DanicaE 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.