我想从30个独立变量中找到连续因变量的预测变量。我正在使用在R 中的glmnet包中实现的Lasso回归。这是一些伪代码:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
我的问题是如何解释输出:
可以说在最终输出中所有显示系数不同于零的预测变量都与因变量相关吗?
就期刊出版物而言,这将是足够的报告吗?还是期望为系数的显着性提供检验统计量?(上下文是人类遗传学)
计算p值或其他检验统计量以声明重要性是否合理?那怎么可能呢?是否在R中实现了过程?
每个预测变量的简单回归图(数据点以线性拟合绘制)是否是可视化此数据的合适方法?
也许有人可以提供一些简单的已发表文章示例,以显示在一些真实数据的背景下使用Lasso的情况以及如何在期刊中进行报告?
cv
用于预测步骤吗?