在变量重要性排名方面(在各种多元模型的背景下),我在某种程度上变得虚妄。
通常在我的工作过程中,我被要求要么协助另一个团队产生可变的重要性等级,要么从我自己的工作产生可变的重要性等级。针对这些要求,我提出以下问题
您想要这个可变重要性排名的原因是什么?您希望从中学到什么?您想使用哪种决策?
我收到的答案几乎总是属于两类之一
- 我想知道模型中不同变量对预测响应的重要性。
- 我想通过删除低重要性变量将其用于特征选择。
第一个响应是重言式的(我想要一个可变的重要性排名,因为我想要一个可变的重要性排名)。我必须假设这些排名在使用多元模型的输出时满足了心理需求。我很难理解这一点,因为分别对变量“重要性”进行排名似乎隐式地拒绝了所讨论模型的多维性质。
第二种反应本质上简化为非正式版本的向后选择,CrossValidated的其他部分充分记录了其统计上的错误。
我也为重要性排名的定义性质感到困惑。对于排名应该衡量的基本概念似乎并没有达成共识,这给了他们非常特别的味道。分配重要性分数或等级的方法有很多,它们通常都有缺点和警告:
- 它们可能高度依赖算法,例如在随机森林和gbms中的重要性排名中。
- 它们可能具有极高的方差,会随着对基础数据的扰动而急剧变化。
- 他们可能会遭受输入预测变量中相关性的严重困扰。
因此,综上所述,我的问题是,变量重要性排名在统计学上有哪些有效用途,或者,对于这种愿望的徒劳性,什么是令人信服的论点(对统计学家或外行而言)?我对一般的理论论证和案例研究都感兴趣,无论哪种方法更有效。
glmnet
可用的情况下为什么要使用这样的非正式程序呢?