发现高维,相关数据和主要特征/协变量;多重假设检验?


9

我有一个约有5,000个经常相关的特征/协变量和二进制响应的数据集。数据是给我的,我没有收集。我使用套索和梯度提升来构建模型。我使用迭代的嵌套交叉验证。我报告了Lasso在梯度增强树中最大(绝对)的40个系数和40个最重要的特征(40个并没有什么特别的;它似乎是一个合理的信息量)。我还报告了这些数量在CV的折叠和迭代中的变化。

我有点想“重要”功能,不对p值或因果关系或其他任何东西做任何陈述,而是考虑将此过程视为一种现象-尽管不完美,而且是某种随机性-而不是某种现象。

假设我正确完成了所有这些操作(例如,正确执行了交叉验证,针对套索进行了缩放),这种方法是否合理?是否存在多个假设检验,事后分析,错误发现等问题?还是其他问题?

目的

预测不良事件的可能性

  • 首先,准确估计概率
  • 更为次要的是,作为一项健全性检查,但也许还可以揭示一些可以进一步研究的新颖预测变量,请检查上述系数和重要性。

消费者

  • 有兴趣预测此事件的研究人员以及最终不得不修复该事件的人员

我希望他们摆脱困境

  • 如果他们希望使用自己的数据重复所述的建模过程,则使他们能够预测事件。

  • 为意外的预测因素提供一些启示。例如,可能发现完全出乎预料的是最佳预测器。因此,其他地方的建模者可能会更认真地考虑所述预测变量。


了解这里的意图将很有用。你做了这些事,为什么呢?谁是消费者,您希望他们从分析中得到什么?
马修·德鲁里

Answers:


2

预测的准确性没有问题。通过交叉验证可以很好地估计您的预测中的不确定性。也许有一个警告是,如果您测试许多参数设置,那么您会高估准确性,因此您应该使用验证集来估计最终模型的准确性。另外,您的数据应代表您要进行预测的数据。

您很清楚,读者也应该清楚,您的预测变量不是造成这种情况的原因,它们只是做出良好预测并凭经验运行的预测变量。尽管我完全同意您的警告,但在任何情况下都无法从观测数据推断出因果关系。在设计良好,受控的研究中,诸如重要性之类的事物是“有效”的概念,除此之外,它们还只是您和其他人应该明智并谨慎解释的工具。在具有报告的置信区间的正常线性回归中,在套索模型以及梯度增强树模型中,可能存在常见的原因,虚假影响,掩盖和其他情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.