glmnet：如何理解多项式参数化？

11

接下来的问题：我想使用glmnet（）预测一个（或多个）分类变量的分类响应变量。

但是，我无法理解glmnet给我的输出。

好的，首先让我们生成两个相关的分类变量：

产生资料

p <- 2 #number variables
mu <- rep(0,p)
sigma <- matrix(rep(0,p^2), ncol=p)
sigma[1,2] <- .8 #some relationship ..
diag(sigma) <- 1
sigma <- pmax(sigma, t(sigma))
n <- 100
set.seed(1)
library(MASS)
dat <- mvrnorm(n, mu, sigma)
#discretize
k <- 3 # number of categories
d <- apply(dat, 2, function(x) {
  q <- quantile(x, probs=seq(0,1, 1/k))[-c(1, k+1)]
  out <- numeric(length(x))
  for(i in 1:(k-1))
  {  out[x<q[k-i]] <- i } 
  return(out)
})
d <- data.frame(apply(d, 2, as.factor))
d[,2] <- relevel(d[,2], ref="0")
d[,1] <- relevel(d[,1], ref="0")
colnames(d) <- c("X1", "X2")

我们得到：

> table(d)
   X2
X1   0  1  2
  0 22 11  1
  1  9 14 10
  2  3  8 22

预测：multinom（）

然后让我们使用nnet包中的multinom（）通过X2预测X1：

library(nnet)
mod1 <- multinom(X1~X2, data=d)
mod1

这给了我们：

Call:
multinom(formula = X1 ~ X2, data = d)

Coefficients:
  (Intercept)      X21      X22
1  -0.8938246 1.134993 3.196476
2  -1.9924124 1.673949 5.083518

手动检查

现在让我们检查一下是否可以手动重现该代码：

tb <- table(d)
log(tb[2,1] / tb[1,1]) #intercept category1
[1] -0.8938179
log(tb[3,1] / tb[1,1]) #intercept category2
[1] -1.99243
log((tb[1,1]*tb[2,2]) / (tb[1,2]*tb[2,1])) #logodds-ratio cat X1 0vs1 in X2 0vs1
[1] 1.13498
#same for the three remaining log odds ratios

我们产生相同的数字，很好！

预测：glmnet（）

现在让我们对glmnet做同样的事情：

library(glmnet)
y <- d[,1]
X <- model.matrix(X1~X2, data=d)[,-1]
mod2 <- glmnet(X, y, family="multinomial", lambda=c(0))
coef(mod2, s=0) #meaning of coefficients unclear!
$`0`
3 x 1 sparse Matrix of class "dgCMatrix"
                     1
(Intercept)  0.9620216
X21         -1.1349130
X22         -3.1958293   

$`1`
3 x 1 sparse Matrix of class "dgCMatrix"
                     1
(Intercept) 0.06825755
X21         .         
X22         .         

$`2`
3 x 1 sparse Matrix of class "dgCMatrix"
                     1
(Intercept) -1.0302792
X21          0.5388814
X22          1.8870363

请注意，我设置s = 0，因此没有正则化，并且参数应包含与multinom（）函数的参数完全相同的信息。

尽管如此，我们得到了非常不同的参数。这是由于它们在glmnet中使用的参数不同，请参见例如：

http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html（标题：多项模型）或相应的论文：http : //www.jstatsoft.org/v33/i01/paper（标题：4。正则化多项式回归

但是，无论如何精确地进行参数设置，都应该获得相同的，即以X为条件的类别k的概率。 $P(Y=k | X)$

条件概率：multinom（）

因此，我首先从multinom（）计算这些概率：

p.fit <- predict(mod1, type="probs")
head(d)
head(p.fit)
ccp <- matrix(0,3,3)
ccp[,3] <- p.fit[1,]
ccp[,2] <- p.fit[2,]
ccp[,1] <- p.fit[4,]
ccp
           [,1]      [,2]       [,3]
[1,] 0.64705896 0.3333332 0.03030114
[2,] 0.26470416 0.4242450 0.30303140
[3,] 0.08823688 0.2424218 0.66666746
colSums(ccp) #sum to 1, ok; sorry for the awful code ...
[1] 1 1 1

由于这里有一个饱和模型，因此该模型应该与我们可以根据数据计算出的模型相同：

emp <- table(d)/100
cemp <- apply(emp, 2, function(x) {
  x / sum(x)
})
cemp 
   X2
             0         1          2
  0 0.64705882 0.3333333 0.03030303
  1 0.26470588 0.4242424 0.30303030
  2 0.08823529 0.2424242 0.66666667

确实是这样。

条件概率：glmnet（）

现在与glmnet相同：

c1 <- coef(mod2, s=0)
c <-matrix(rapply(c1, function(x) { as.matrix(x)}, how="unlist"), 3,3, byrow=T)

ccp2 <- matrix(0,3,3)
config <- rbind(c(0,0), c(1,0), c(0,1))

for(l in 1:3) #loop through categories
{
  denom <- numeric(3)
  for(i in 1:3) # loop through possible predictor combinations
  { 
    x1 <- config[i, 1]
    x2 <- config[i, 2]
    denom[i] <- exp(c[l,1] + x1 * c[l,2]  + x2 * c[l,3])
  }
  ccp2[l,1] <- denom[1] / sum(denom)
  ccp2[l,2] <- denom[2] / sum(denom)
  ccp2[l,3] <- denom[3] / sum(denom)
}
ccp2
          [,1]      [,2]       [,3]
[1,] 0.7340082 0.2359470 0.03004484
[2,] 0.3333333 0.3333333 0.33333333
[3,] 0.1073668 0.1840361 0.70859708
colSums(ccp2)
[1] 1.1747083 0.7533165 1.0719753

单元格条件概率有些相关，但有所不同。同样，它们不等于一。

因此，这里有两个问题：

a）条件概率之和不等于1，并且

b）参数没有描述我们在数据中看到的内容：例如，在第2行中，各列之间存在差异，但是glmnet估计两个系数（不是截距）均为零。

我使用了线性回归问题，并将glm和glmnet与s = 0进行了比较，以确保s = 0表示零正则化（解决方案几乎相同）。

任何帮助和想法将不胜感激！

categorical-data multinomial glmnet

— mb
source

5

关于来自多项式和glmnet的参数，我发现这个答案很有用，我可以使用glm算法进行多项式逻辑回归吗？

特别是，“是的，使用Poisson GLM（对数线性模型）可以拟合多项式模型。因此，多项式logistic或对数线性Poisson模型是等效的。”

因此，我将展示将glmnet系数重新参数化为多项式系数的过程。

n.subj=1000
x1 <- rnorm(n.subj)
x2 <- rnorm(n.subj)
prob <- matrix(c(rep(1,n.subj), exp(3+2*x1+x2), exp(-1+x1-3*x2)), , ncol=3)
prob <- sweep(prob, 1, apply(prob, 1, sum), "/")

y = c()
for (i in 1:n.subj)
  y[i] <- sample(3, 1, replace = T, prob = prob[i,])

multinom(y~x1+x2)

x <- cbind(x1,x2); y2 <- factor(y)
fit <- glmnet(x, y2, family="multinomial", lambda=0, type.multinomial =     "grouped")
cf <- coef(fit)

cf[[2]]@x - cf[[1]]@x   # for the category 2
cf[[3]]@x - cf[[1]]@x   # for the category 3

希望这可以帮助。但是我认为我不了解广义线性模型（泊松）和多项式逻辑模型的内外等效。

告诉我是否有一个良好的可读性和“容易”理解的来源。

— 金H
source

1

对于这种情况，您还有什么进一步的解释吗？即-为什么眩光产生的系数是更典型的多项式系数和``基本''系数的组合。这是否允许我们将每组系数解释为对数线性模型？

— samplesize1”，2016年

0

为了确保选择概率之和为1，参考替代的所有参数都必须为零。因此，我认为glmnet（）的结果很奇怪。

相关问：为什么glmnet可以计算所有类别的参数？

— 帕维尔·内德维德（Pavel Nedved）
source