Logistic回归：如何获得饱和模型

我刚刚了解了逻辑回归的偏差度量。但是，对我来说，称为饱和模型的部分尚不清楚。

我在Google上进行了广泛的搜索，但没有结果回答我的问题。到目前为止，我发现一个饱和模型对每个观测值都有一个参数，因此可以实现完美拟合。这对我来说很清楚。但是：（饱和模型的）拟合值还等于观测值。

由于从我所知，被用于分类逻辑回归给定的观察到的数据与额外的标签协变量。但是，偏差度量采用的是概率，而不是实际的标号。一种方法是将计算出的逻辑回归的预测概率与观察到的概率进行比较。但是，由于只给出了标签而不是概率，我很困惑如何从这些标签构建饱和模型？ $y \in \{0,1\}$

logistic deviance

— om
source

对于每个，来自饱和模型的拟合概率将与相同，为零或一。如此处所述，饱和模型的可能性为。因此，这样的模型的偏差将是，在 DF。这是来自R的示例： $y_i$ $y_i$ $1$ $-2\log(1/1) = 0$ $0$

y = c(1,1,1,0,0,0)
a <- factor(1:length(y)) 
fit <- glm(y~a,family=binomial) 
summary(fit)

Deviance Residuals: 
 0  0  0  0  0  0

Null deviance: 8.3178e+00  on 5  degrees of freedom

Residual deviance: 2.5720e-10  on 0  degrees of freedom

$n$ $n$ $(n - 1)$

> k2
 [1] 1 2 3 4 5 6 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y2
 [1] 1 1 1 0 0 0 1 1 1 0 0 0
> fit3 = glm(y2 ~ k2, family = binomial)
> summary(fit3)    

    Null deviance: 1.6636e+01  on 11  degrees of freedom
    Residual deviance: 5.1440e-10  on  6  degrees of freedom

实际上，事实证明，在R中，饱和模型取决于输入的形式，即使数据完全相同，也不是很好。特别是，在上面的示例中，有12个观测值和6个因子水平，因此饱和模型应具有6个参数，而不是12个参数。通常，饱和模型被定义为其中参数数等于模型数的模型。不同的协变量模式。我不知道为什么R代码“承认”因子k2有6个不同的水平，而饱和模型却装有12个参数。

现在，如果我们以“二项式”形式使用完全相同的数据，我们将得到正确的答案：

y_yes = 2 * c(1,1,1,0,0,0)
y_no = 2 * c(0,0,0,1,1,1)
x = factor(c(1:6))

> x
[1] 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y_yes
[1] 2 2 2 0 0 0
> y_no
[1] 0 0 0 2 2 2

modelBinomialForm = glm(cbind(y_yes, y_no) ~ x, family=binomial)

Deviance Residuals: 
[1]  0  0  0  0  0  0

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)  2.490e+01  1.096e+05       0        1
x2           1.375e-08  1.550e+05       0        1
x3           1.355e-08  1.550e+05       0        1
x4          -4.980e+01  1.550e+05       0        1
x5          -4.980e+01  1.550e+05       0        1
x6          -4.980e+01  1.550e+05       0        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1.6636e+01  on 5  degrees of freedom
Residual deviance: 3.6749e-10  on 0  degrees of freedom

现在我们看到饱和模型有6个参数，并且与拟合模型一致。因此，零偏差为（6-1）= 5 df，残余偏差为（6-6）= 0 df。

— 詹姆士
source

y_{i}

$y_i$

0

$0$

0

$0$