如果我计算正确,则logistic回归渐近具有与t检验相同的功效。要看到这一点,请写下其对数似然并计算其Hessian在其全局最大值处的期望值(其负值估计ML解的方差-协方差矩阵)。不要为通常的逻辑参数设置而烦恼:仅使用所讨论的两个概率对其进行参数设置更为简单。详细信息将取决于您如何测试逻辑回归系数的显着性(有几种方法)。
这些检验具有相似的功效不应该太令人惊讶,因为用于ML估计的卡方理论是基于对数似然的正态近似,而t检验是基于比例分布的正态近似。问题的关键在于,两种方法对两个比例进行相同的估计,并且两种估计具有相同的标准误差。
实际分析可能更令人信服。让我们对给定组(A或B)中的值采用一些通用术语:
- p是1的概率。
- ñ是每组抽奖的大小。
- 米是抽奖套数。
- ñ= m n是数据量。
- 0 1 j th i thķ我Ĵ(等于或)是在组绘制中的结果的值。01个Ĵ日一世日
- 我个ķ一世是第组抽签中的总数 。一世日
- ķ是1的总数。
逻辑回归本质上是的ML估计量。其对数为p
日志(L)= k log(p )+ (N− k )日志(1 − p )。
其关于参数导数为p
∂日志(大号)∂p= kp− N− k1 − p 和
- ∂2日志(大号)∂p2= kp2+ N− k(1 − p )2。
将第一个设置为零会产生ML估计并将其插入第二个表达式的倒数会产生方差,这是标准误差的平方。 p(1 - p)/Ñp^= k / Np^(1 − p^)/ N
在t统计量将基于由集得出的分组数据估计器获得; 就是说,作为均值之差(一个来自A组,另一个来自B组)除以该差异的标准误差,该标准误差是从均值的标准偏差得出的。然后,让我们看一下给定组的平均值和标准偏差。平均值等于,与ML估计量。所讨论的标准偏差是牵引装置的标准偏差。也就是说,它是集的标准偏差。这是问题的症结所在,所以让我们探索一些可能性。p ķ 我/ Ñk / Np^ķ一世/ n
假设数据不分组为所有绘制:即,和。所述是拉伸装置。它们的样本方差等于乘。由此可以得出的是,标准误差是相同的ML标准误差远离的因子,它实质上是时。因此,除了这个微小的差异外,任何基于逻辑回归的测试都将与t检验相同,并且我们将获得基本相同的功效。米= Ñ ķ 我 ñ /(ñ - 1 )p(1 - p)√n = 1m = Nķ一世ñ/(N− 1 )p^(1 − p^) 1N=1800ñ/(N− 1 )---------√1个ñ= 1800
对数据进行分组时,的(真)方差等于因为统计量代表 Bernoulli()变量的总和,每个变量的方差为。因此,与以前一样,这些值的的平均值的预期标准误差是平方根。p (1 − p )/ n k i n p p (1 − p )m p (1 − p )/ n / m = p (1 − p )/ Nķ一世/ np (1 − p )/ nķ一世ñpp (1 − p )米p (1 − p )/ n / m = p (1 − p )/ N
数字2表示测试的功效不应随抽奖的分配方式(即和在如何变化)而发生明显变化,除了样本方差调整可能产生的影响很小之外(除非您如此愚蠢以至于在每个组中使用极少的抽奖集)。n m n = N米ñm n = N
有限的模拟,将与(每次迭代10,000次)进行比较,涉及 (本质上是逻辑回归);;并且(最大化样本方差调整)可以证明这一点:前两种情况的功效(在,单面)为0.59,而在第三种情况下,调整因子为物质变化(现在只有两个自由度,而不是1798或58),下降到0.36。另一个比较和p = 0.74 米= 900 ,Ñ = 1 米= Ñ = 30 米= 2 ,Ñ = 450 α = 0.05 p = 0.50 p = 0.52p = 0.70p = 0.74m = 900 ,n = 1m = n = 30m = 2 ,n = 450α = 0.05p = 0.50p = 0.52 分别得出0.22、0.21和0.15的幂:再次,我们观察到从没有分组到平局(=逻辑回归)到分组到30个组中只有很小的下降,而下降到只有两组。
这种分析的道德是:
- 将数据值划分为大量个相对较小的“绘制”组时,您不会损失很多。米ñ米
- 使用少量的组(很小,(每组的数据量很大)),您可能会损失相当多的功能。ñ米ñ
- 最好不要将数据值全部分组为“绘图”。只需按原样分析它们(使用任何合理的检验,包括逻辑回归和t检验)。ñ