我有一个约有5,000个经常相关的特征/协变量和二进制响应的数据集。数据是给我的,我没有收集。我使用套索和梯度提升来构建模型。我使用迭代的嵌套交叉验证。我报告了Lasso在梯度增强树中最大(绝对)的40个系数和40个最重要的特征(40个并没有什么特别的;它似乎是一个合理的信息量)。我还报告了这些数量在CV的折叠和迭代中的变化。
我有点想“重要”功能,不对p值或因果关系或其他任何东西做任何陈述,而是考虑将此过程视为一种现象-尽管不完美,而且是某种随机性-而不是某种现象。
假设我正确完成了所有这些操作(例如,正确执行了交叉验证,针对套索进行了缩放),这种方法是否合理?是否存在多个假设检验,事后分析,错误发现等问题?还是其他问题?
目的
预测不良事件的可能性
- 首先,准确估计概率
- 更为次要的是,作为一项健全性检查,但也许还可以揭示一些可以进一步研究的新颖预测变量,请检查上述系数和重要性。
消费者
- 有兴趣预测此事件的研究人员以及最终不得不修复该事件的人员
我希望他们摆脱困境
如果他们希望使用自己的数据重复所述的建模过程,则使他们能够预测事件。
为意外的预测因素提供一些启示。例如,可能发现完全出乎预料的是最佳预测器。因此,其他地方的建模者可能会更认真地考虑所述预测变量。