帕兰蒂尔(Palantir)的亚洲歧视案:概率是如何计算的?


14

我读了这篇有关Palantir案的文章,该案涉及劳动部指责他们歧视亚洲人。有谁知道他们从哪里获得这些概率估计值的?

我在项目(a)中得不到1/741。

(a)对于QA工程师职位,Palantir从730多名合格的申请人(其中约77%是亚洲人)中聘用了6名非亚洲人申请者,并且仅雇用了一名亚洲人申请者。OFCCP计算出的不利影响超过了三个标准偏差。根据机会发生此结果的可能性约为741。

(b)在软件工程师职位中,Palantir雇用了1,160多名合格的申请者,其中大约85%是亚洲人,Palantir雇用了14名非亚洲人申请者,仅雇用了11名亚洲人申请者。OFCCP计算出的不利影响超过了五个标准偏差。该结果根据偶然发生的可能性约为340万。

(c)对于QA工程师实习生职位,Palantir雇用了130多名合格的申请人(其中约73%是亚洲人)聘用了17名非亚洲人申请者,仅雇用了4名亚洲人申请者。OFCCP计算出的不利影响超过了六个标准偏差。根据机会发生此结果的可能性约为十亿分之一。


您能否显示您为获得除1/741以外的值所做的计算?
本·博克

1
我的估计是单方面的-如果将其加倍以使其像双面假设检验一样,您将非常接近1/741的数字。
Gregor-恢复莫妮卡

3
我同意在这种情况下加倍没有任何意义,我只是想猜测可能已经完成了什么。问题不是什么是正确的答案,而是他们如何得出这一估计值的
Gregor-恢复莫妮卡

1
如果有人将PDF屏幕截图转换为文本引用,那就太好了……
阿米巴说Reinstate Monica

1
我设法使用finereaderonline.com对您的屏幕截图进行OCR
变形虫说恢复莫妮卡

Answers:


20

我将从歧视案件的经验中对它进行反向工程。我可以肯定地地方建立的价值“一741” ,是从哪里来的。但是,翻译中丢失了太多信息,以至于我的其余重建工作都依赖于了解人们在法庭环境中如何进行统计。我只能猜测一些细节。


自从1960年代通过反歧视法(第六章)以来,美国法院已经学会了研究p值并将其与0.01的阈值进行比较。他们还学会了查看标准化效果(通常称为“标准偏差”),并将其与“两到三个标准偏差”的阈值进行比较。为了确定歧视诉讼的表面证据,原告通常尝试进行统计计算,以显示超出这些阈值的“不同影响”。如果不能支持这种计算,那么案件通常就无法进行。0.050.01

原告的统计专家经常尝试用这些熟悉的术语表述其结果。某些专家进行了统计检验,其中零假设假设“没有不利影响”,假设雇佣决定纯粹是随机的,并且不受雇员的任何其他特征的影响。(它是一尾还是二尾的选择,可能取决于专家和情况。)然后,他们通过将该检验的p值称为标准正态分布,将其p值转换为多个“标准差”, - 即使标准的“正常”与原始测试无关。 他们希望通过这种回旋方式将结论清楚地传达给法官。

可以在列联表中汇总的数据的首选测试是Fisher精确测试。以“确切”的名义出现对于原告来说尤其令人愉悦,因为它表示已作出无误的统计确定(无论可能是!)。

那么,这就是我对劳工部计算的(推测性重建)。

  1. 他们跑费希尔精确检验,或类似的东西(如测试通过随机确定的p值)。该测试假设超几何分布,如Matthew Gunn的答案所述。(对于涉及此投诉的少数人,超几何分布不能很好地通过正态分布来近似。)χ2

  2. 他们将其p值转换为正常的Z分数(“标准差数”)。

  3. 他们将Z分数四舍五入为最接近的整数:“超过三个标准偏差”,“超过五个标准偏差”和“超过六个标准偏差”。(因为一些Z-分数四舍五入的最高更标准偏差,我不能证明“超过”;我所能做的就是引用它。)

  4. 在投诉中,这些积分Z分数被转换回p值!再次使用标准正态分布。

  5. 这些p值被描述为“根据偶然性出现此结果的可能性”(可能以一种误导的方式)。

1/12801/5650001/58000000730116013073011601303.164.645.521/7411/35000001/1000000000


这是R用于执行这些计算的一些代码。

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

6
哇,我无法想象这可以做到。太恐怖了
阿克萨卡尔邦

7
(+1)CSI:统计资料。
Firebug

5

如何使用超几何分布正确计算pval:

knKN

对于单边测试,在MATLAB中,您可以调用pval = hygecdf(k, N, K, n);或在这种情况下pval = hygecdf(1, 730, 562, 7)约为.0007839。

平均值和标准偏差由下式给出:

μ=nKNs=nKNNKNNnN1

χ2

在寻找OFCCP可能使用的公式时,我看到的这个站点可能会有所帮助:http ://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

一些计算摘要:

Number and methodPart APart BPart CPVal from hypergeometric CDF7.839e-041.77e-061.72e-08χ2 stat15.6833.6837.16χ2 pval7.49e-056.47e-091.09e-09Pval from above document.001352.94e-071.00e-09

χ2(expectedactual)2expected


1
我得到相同的结果,但有所不同。这不是接近741分之1
Aksakal
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.