我正在进行分析,其主要目标是了解数据。数据集足够进行交叉验证(10k),并且预测变量包括连续变量和虚拟变量,并且结果是连续的。主要目标是查看踢出一些预测变量是否有意义,以使模型更易于解释。
问题:
我的问题是“哪些变量解释了结果,并且是该解释的“足够强的”部分”。但是要为套索选择lambda参数,可以使用交叉验证,即预测有效性作为准则。在进行推断时,预测效度是否足以代替我要问的一般问题?
说LASSO仅保留了8个预测变量中的3个。现在我问自己:“这些对结果有什么影响”。例如,我发现了性别差异。套索收缩后,该系数表明女性得分比男性高1分。但是没有缩水(即在实际数据集上),它们的得分高出2.5分。
- 我将哪一个作为我的“真实”性别效果?仅根据预测效度,它将是收缩系数。
- 或者说,我正在为不精通统计的人们编写报告。我要向他们报告哪个系数?
1
您正在寻找什么样的模型?线性,逻辑,泊松等模型?
—
TrynnaDoStat
这是一个线性模型,但我认为这个问题
—
无济于事