评审团的偏见?


14

刑事审判后,一位朋友代表客户提出上诉,陪审团的选择似乎带有种族偏见。

评审团由4个种族组成的30人组成。检方使用了强制性的挑战,以从池中消除了10个人。每个种族群体的人数和实际挑战的数量分别是:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

被告来自种族C组,受害者来自种族A和D组,因此先验问题是C组是否受到过挑战,而A和D组受到了挑战。从法律上讲(IIUC; IANAL),辩方不需要证明种族偏见,而只是表明数据似乎表明存在偏见,这便使控方有责任从非种族角度解释每项挑战。

以下分析的方法正确吗?(我认为计算很好。):

有10个池成员的nCr(30,10)= 30,045,015个不同的集合。在这些不同的集合中,我计算出433,377个集合同时包含(不超过A组和D组的2个成员)(不少于C组的4个成员)。

因此,达到观察到的明显偏见水平的机会比A组和D组优于C组(其中10项挑战中不包括偏爱)是它们的比率,即433/30045 = 1.44%。

因此,原假设(无此类偏差)在5%的显着性水平上被拒绝。

如果这种分析在方法上是正确的,那么向法院描述它的最简洁方法是什么,包括学术/专业参考文献(即不是Wikipedia)?虽然论点看起来很简单,但如何能最清楚,最简洁地向法院证明它是正确的,而不是恶作剧呢?


更新:在上诉摘要中,该问题已作为三级辩论进行了审议。考虑到此处讨论的技术复杂性(从律师的角度来看)以及明显缺乏法律先例,律师选择不提出建议,因此在这一点上,问题主要是理论上/教育上的。

要回答一个细节:我相信挑战的数量是10个。

在研究了周到且具有挑战性的答案和评论(谢谢!)之后,似乎这里有4个独立的问题。至少对我来说,将它们分开考虑(或听听为什么它们不可分离的争论)是最有帮助的。

1)在陪审团的挑战中,是否优先考虑被告人和受害者的种族?上诉论点的目的仅是引起合理关注,这可能导致司法命令,要求检方陈述每个单独质疑的理由。在我看来,这不是一个统计问题,而是一个社会/法律问题,由律师酌情决定是否提出。

2)假设(1),我对替代假设的选择(定性:对分享被告人的种族的陪审员的偏见,而赞成分享被害人的种族的偏见)是合理的,还是事后不允许?从我的外行角度来看,这是最令人困惑的问题-是的,如果一个人不遵守,当然不会提出!据我了解,问题在于选择偏见:一个人的测试不仅应考虑这个陪审团池,还应考虑所有此类陪审团池的范围,包括所有未发现辩护方存在差异并因此不愿意提出该问题的陪审员池。 。如何解决这个问题?(例如,安迪的测验如何解决这个问题?)看来,尽管我对此可能有误,但大多数受访者并未为可能的事后调查感到困扰1尾测试,仅针对被告所在的群体进行偏见测试。假设(1),同时测试受害者群体的偏见在方法上有何不同?

3)如果有人规定我选择(2)中所述的定性替代假设,那么检验它的合适统计量是什么?这是我最困惑的地方,因为我建议的比率似乎与安迪关于更简单的“偏于C的”替代假设的检验的保守度稍高(更保守,因为我的检验也将所有情况都排除在外)在尾部,而不仅仅是观察到的确切数字。)

两种检验都是简单的计数检验,具有相同的分母(样本的相同宇宙),并且分子精确地对应于与各个替代假设相对应的那些样本的频率。那么,@ whuber,为什么它和安迪的计数测试不一样,因为它“可以基于规定的空值[相同]和替代性的[描述的]假设,并使用内曼-皮尔森引理证明是正确的”?

4)如果有人规定(2)和(3),那么在判例法中是否存在可以说服怀疑上诉法院的内容?从迄今为止的证据来看,可能还没有。同样,在上诉的这个阶段,没有任何“专家证人”的机会,因此参考就是一切。


在研究答案和评论后,问题已更新(附加到)。
JD

感谢您的出色总结!为了回答第(3)点,我担心的是,您的测试(如果我理解正确的话)采用了另一种假设,该假设是由数据本身驱动的。因此,它似乎被构造为后验的,以使结果看起来尽可能强。先验的,尽可能广泛的,可预见的,相关的替代品类别为基础的测试,是在奈曼-皮尔逊拒绝区域进行的,它具有更强的逻辑基础,并且很少受到批评,因为它是在看到数据之后才提出的。
ub

谢谢,@ whuber,这是一个合理而有用的批评-从一开始我就是在问什么。但是,这是否会导致我的(2)甚至在(3)之前失败?如果是这样,那么我的(3)似乎仍然没有答案-也就是说,如果有人规定(2),这将是一个很好的统计数字吗?
JD 2014年

Answers:


7

这是我使用标准统计工具回答您的问题的方式。

以下是对根据陪审团成员身份被拒绝的概率进行概率分析的结果。

首先,这是数据的样子。我有30组观察结果和一个二进制拒绝指标:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

以下是各个边际效应以及联合检验:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

在这里,我们测试了单个假设,即与A组相比,A,C和D组被拒绝的概率差异为零。如果每个人都像B组一样被拒绝,那么这将是零。最后的输出告诉我们,A组和D组陪审员被拒绝的可能性较小,而C组陪审员被拒绝的可能性更大。尽管这些迹象与您的偏见相吻合,但这些差异在统计上并不显着。

但是,我们可以拒绝联合假设:三个差异在都为零。p=0.0436


附录:

如果我将A和D组归为一类,因为它们共享受害人的种族,则概率结果会更强并且具有很好的对称性:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

这也使Fisher精确能够给出一致的结果(尽管仍然不是5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060

谢谢,非常感谢!您能帮我了解这里的方法论问题吗?特别是,(1)尽管有先验问题的特殊性,但无方向比较检验(IIUC),以及(2)使用作出分布假设而不只是组合论证的检验的原因?
JD March

我不确定我是否理解(1)。对于(2),我使用logit模型得到非常相似的结果,该模型做出不同的分布假设,因此具有一定的鲁棒性。没有足够的数据来执行较少参数化的操作,尽管这可能是我对此领域的无知。
Dimitriy V. Masterov 2014年

1
重新(1)。我的意思是-看来您的测试是2尾,而先验问题允许1尾?
JD

1
该分析的一个方面令我感到不安的是,其明显的意义(无论如何,在5%的水平上)不仅是由于C组中发生的挑战,而且还归因于A组中相对较少的挑战。无关紧要:是否会先验怀疑?C组的有利角色是显而易见的(与被告人的团队相匹配),但是对于其他任何组(甚至(假设)其他组之间的明显不平等),C组的角色也似乎与被告的主张无关。基于他们的群体对他们歧视。
ub

顺便说一句,它出现你进行B组,而不是C组的分析
whuber

3

我认为,引入临时统计方法在法庭上是行不通的。最好使用“标准做法”的方法。否则,您可能会证明自己具备开发新方法的资格。

更明确地说,我认为您的方法不会符合Daubert标准。我也非常怀疑您的方法本身是否具有任何学术参考。您可能必须聘请一位统计专家证人进行介绍。我想这很容易反驳。

这里的基本问题可能是:“陪审团是否会挑战种族群体?”

χ2测试:

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

使用Fisher精确测试得出相似的结果:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

关于假设为双面的注释适用于的情况2×2

我的解释是,没有太多证据证明种族偏见。


1
χ2

谢谢,@ jvbraun,关于临时方法不可行的观点似乎很有说服力;尽管对我而言,计数和除法似乎并不特别古怪,但显然其他人并没有说服力!
JD 2014年

实际上,这是边际固定的情况之一,因此对于许多人,费舍尔的精确检验应该更可口。在对Daubert的讨论中,您会倒退一些,一旦您致电专家,他们就会受到Daubert的反对。(具有讽刺意味的是,有些人认为外行发表统计数据不受规则702规定的评估。)国际海事组织(IMO)在此提出的所有论点都经过明确阐述,不太可能被裁定为不可受理。我怀疑这些统计技术在特定情况下是否具有判例。
安迪W

χ2

χ22/24/6

3

我问过类似的问题之前(仅供参考这里)。辩方只需简单地显示在巴森挑战中存在歧视的表面现象(假定美国刑法)-因此假设检验可能比需要的负担更大。

因此对于:

  • n=30个人在venire面板上
  • p=6
  • k=4
  • d=10

Whuber先前的答案给出了这种特定结果由超几何分布决定的可能性:

(pk)(npdk)(nd)

其中钨,阿尔法说等于在这种情况下:

(64)(306104)(3010)=7611310.07

不幸的是,除了提供的链接之外,我没有其他参考资料。我想您可以从Wikipedia页面上为超几何分布找到合适的参考资料。

这忽略了关于种族A和D是否受到“挑战”的问题。我对此表示怀疑,您是否可以提出法律辩解-平等保护条款将是一个怪异的转折,这一特殊群体是受到保护!,我认为不会飞。(尽管我不是律师,所以请带一点盐。)

如果您真的要进行假设检验,则不确定如何进行。您可以生成3010排列,给它一个概率,即根据种族在种族群体中所占的比例相等地选择它们,然后计算在该null下您的测试统计量的确切分布。我不太确定哪种测试统计数据令人满意,χ2并没有真正回答您感兴趣的问题。(您可以自己计算测试统计信息吗?我不知道吗?)


在博客文章中更新了一些想法。我的帖子专门针对“巴特森挑战赛”,因此尚不清楚您是否正在寻找其他情况(在“巴特森挑战赛”中,您对1和2的更新没有意义。)

我能够找到一篇相关的文章(在链接上有完整的文章):

Gastwirth,JL(2005)。案例评论:用于分析有关强制性挑战的数据的统计测试:阐明在Johnson v.California中建立初步表面歧视案件所需的证据标准。法律,概率与风险,4(3),179-185。

这给使用超几何分布提供了相同的建议。在我的博客文章中,我展示了如何将类别折叠为两组,这相当于Fisher的精确检验。

正如我在评论中所做的那样,Gatwirth建议您可以考虑 ķ 作为测试统计信息,因此增加了 ķ=5ķ=6如果您愿意,可以选择上述方法。Gastwirth还提供了一个示例,该示例基于更改次数来计算测试统计量ñ在陪审团池中。在我的博客文章中,我只是针对不同级别的ñd (针对不同情况)以提供可能的百分比范围。

如果有人意识到判例法实际使用了判例法(或除分数以外的任何法则),我将很感兴趣。


1
谢谢,安迪。(1)我的律师朋友认为断言C过度挑战而A缺乏挑战是完全可以接受/有用的。(2)您说“什么检验统计量”。我感到困惑-在使用超几何计算0.07时,您使用的是什么测试统计信息?所做的是将概率计算为可疑案件与总案件之比。同样,这正是我的分析所要做的,除了比您更狭义地定义可疑案件。
JD 2014年

@JonathanMarch-我不使用测试统计数据。这是根据超几何分布随机(在其他条件下)从6个C类中选择4个的概率。我了解定向测试的动机,但这不是通常的t形测试案例。在这种情况下,您将具有连续的空分布,因此要提供p值,需要将替代项定义为面积。像这里一样,没有隐含的需要使用PMF分布来做到这一点。
安迪W

1
如果您愿意,可以添加 ķ=5ķ=60.07以上,但这当然只会增加上述可能性。您最初的计算是假设所有可能的排列可能性均等。我认为这是有道理的,但我认为将数据生成过程指定为“超几何”更为现实。认为您的问题中的分区直观,但是是临时的,我认为没有任何理由将其解释为概率。
2014年

1
(+1)测试统计数据是对C组进行挑战的次数。这是有效且相关的,因为C可以先验地确定为被告的种族。假设预先确定10个强制性挑战,安迪的分析是非常合适的(并且相当有力)。我相信(但需要检查),假设强制性挑战的数量是随机的,这是一个很好的近似值。逻辑简单而甜美:如果将挑战随机分配给30个人,那么对C组进行4个或更多挑战的机会是多少?答案是86/11317.6
ub

1
乔纳森(Jonathan),为了您的利益,我会给您带来困难(就像反对派专家一样)。我认为您的方法无效,因为您使用的是临时统计,没有理论依据;它似乎只是为了产生较小的p值而构造。安迪的统计可以基于规定的原假设和替代假设,并使用内曼-皮尔森引理进行证明。您的统计数据似乎是基于事后检查的结果,并且似乎不对应于任何可能的假说,而这些假说可能是在voir dire之前(即独立地)断言的。
ub

0

让我们不要忘记多重测试问题。想象一下有100名辩护律师各自在寻求上诉理由。所有陪审员的拒绝都是通过为每个准陪审员掷硬币或掷骰子来进行的。因此,所有拒绝都没有种族偏见。

现在,这100名律师中的每个人都进行大家同意的统计测试。在这100个中,大约有5个将拒绝“无偏”的零假设,并具有提出上诉的理由。


IIUC,他们将寻找理由让法官下令审查每个个人被拒绝的原因。如果在这100例病例中有5例进行这种检查,实际上会是一个问题吗?
JD
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.