可变重要性排名有哪些用处?


25

变量重要性排名方面(在各种多元模型的背景下),我在某种程度上变得虚妄。

通常在我的工作过程中,我被要求要么协助另一个团队产生可变的重要性等级,要么从我自己的工作产生可变的重要性等级。针对这些要求,我提出以下问题

您想要这个可变重要性排名的原因是什么?您希望从中学到什么?您想使用哪种决策?

我收到的答案几乎总是属于两类之一

  • 我想知道模型中不同变量对预测响应的重要性。
  • 我想通过删除低重要性变量将其用于特征选择。

第一个响应是重言式的(我想要一个可变的重要性排名,因为我想要一个可变的重要性排名)。我必须假设这些排名在使用多元模型的输出时满足了心理需求。我很难理解这一点,因为分别对变量“重要性”进行排名似乎隐式地拒绝了所讨论模型的多维性质。

第二种反应本质上简化为非正式版本的向后选择,CrossValidated的其他部分充分记录了其统计上的错误。

我也为重要性排名的定义性质感到困惑。对于排名应该衡量的基本概念似乎并没有达成共识,这给了他们非常特别的味道。分配重要性分数或等级的方法有很多,它们通常都有缺点和警告:

  • 它们可能高度依赖算法,例如在随机森林和gbms中的重要性排名中。
  • 它们可能具有极高的方差,会随着对基础数据的扰动而急剧变化。
  • 他们可能会遭受输入预测变量中相关性的严重困扰。

因此,综上所述,我的问题是,变量重要性排名在统计学上有哪些有效用途,或者,对于这种愿望的徒劳性,什么是令人信服的论点(对统计学家或外行而言)?我对一般的理论论证和案例研究都感兴趣,无论哪种方法更有效。


1
使用可变重要性(通过一些明智的方法)来滤除弱预测变量似乎不是一个可怕的主意。您能否阐明为什么会这样不好?
dsaxton

3
我想我总体上认为许多统计过程不受“重要”预测因素支配,而是许多小影响的累积。例如,脊回归的力量可以通过明确承认这种结构来解释。换句话说,我们应该先验地相信“弱预测变量”概念的原因是什么,为什么我们要过滤掉它们呢?而且为什么在glmnet可用的情况下为什么要使用这样的非正式程序呢?
马修·德鲁里

2
在我们不是专家的任何领域中,我们都想知道有什么要担心的!许多业务和管理书籍似乎都在详尽地解释您识别重要问题并专注于这些问题(的确是)。我怀疑这里的沟通不畅通常始于非统计人员,他们认为有一种量化重要性的方法,而统计人员的工作就是知道如何做到这一点,而不用担心这有多么困难。我不知道该如何概括,但是这里的某些讨论似乎错过了您问题中的关键点。
尼克·考克斯

Answers:


8

我认为,正如这个问题所提出的那样,重要性的可变性是一个滑溜的概念。正如@DexGroves所指出的那样,您对问题的重言式第一类回答以及那些将因果关系解释为变量重要性结果的人的不切实际的希望,无需赘述。

公平地说,对于那些会使用向后选择的人,甚至Frank Harrell都将其作为建模策略的一部分。在他的《回归建模策略》第二版的第97 页中(相关课程笔记的第131页有类似的说法):

  1. 如果简约性比准确性更重要,请进行有限的后退递减变量选择。

但是,这种有限的反向选择潜在用途是步骤13,即最终模型之前的最后一步(步骤14)。在关键的第一步之后,它取得了很好的成绩:

  1. 尽可能多地收集准确的相关数据,并具有广泛的预测值分布...
  2. 制定良好的假设,从而确定相关候选预测变量以及可能的相互作用。

以我的经验,人们经常想绕过步骤2,而让一些自动化程序代替主题知识的智能应用。这可能导致某些重点放在可变的重要性上。

Harrell步骤14的完整模型之后是5个进一步的验证和调整步骤,最后一步是:

  1. 通过将整个模型逼近任何所需的精确度来简化它。

正如其他答案所指出的那样,在建模结果的实际应用中存在可操作性,成本和简单性问题。例如,如果我开发了一种新的癌症生物标记物,可以改善预后,但每次检查的费用为100,000美元,那么除非说服力很大,否则很难说服保险公司或政府为这项检查付费。因此,对于某些人来说,专注于“最重要”的变量,或者将一个精确的模型简化为一个精度稍差但实现起来更容易或更便宜的模型并不是没有道理的。

但是,这种变量选择和模型简化应出于特定目的,我认为这是困难所在。这个问题类似于仅根据正确分类的案例的百分比来评估分类方案。正如不同的分类错误可能具有不同的成本一样,不同的模型简化方案也可能具有不同的成本,这些成本要与期望收益相平衡。

因此,我认为,作为分析人员要重点关注的问题是使用统计建模程序可靠地估算和说明这些成本和收益的能力,而不是过多地担心统计有效性本身的抽象概念。例如,上面链接的Harrell课堂笔记的第157-8页有一个示例,使用引导程序以最小二乘法显示排名预测变量的变化情况;对于由LASSO选择的变量集,可以找到类似的结果。

如果变量选择中的这种类型的可变性没有妨碍模型的特定实际应用,那就可以了。这项工作是估算简化将导致多少麻烦以及将导致什么类型的麻烦。


2
这是@EdM的一个很好的答案,与我在此问题上提出的观点非常一致。我特别喜欢您的两点:1)建模之前应筛选出不可接受的预测因素(出于道德,法规或业务原因); 2)简化最终模型应出于特定的先验定义目的。这些本质上就是我通常试图向我的业务合作伙伴提出的问题的重点。
马修·德鲁里

我也同意你的最终观点,重要的是向合作伙伴说明最终选择程序中的内在差异。在LASSO的上下文中,我已经决定使用引导程序为每个预测变量估算以及估算的条件方差,因为它不为零。您如何看待,是否有更适当的方法来总结这种差异?P[Rβ0
马修·德鲁里

话虽如此,我仍然想知道重要性排名是否存在一些潜在的概念,即它们是否只是针对一个不清楚的统计问题的临时攻击。
马修·德鲁里

1
@MatthewDrury,Frank Harrell 根据每个变量解释的对数似然比,提供了一种原则上的方法来评估“变量重要性”。这不是那些不太老练的人的意思。像您一样,我使用了LASSO在多个引导程序样本中选择每个预测变量的时间的分数,以此作为我想到的最佳方法来说明变量选择的变化。这很大程度上使我从LASSO转向了中等规模问题的岭回归。
EdM

8

这完全是轶事,但我发现可变重要性对于识别GBM中的错误或弱点很有用。

可变的重要性为您提供了该模型的大量横断面概览,而这些概览很难通过其他方式获得。列表中较高的变量显示出更多的活动(是否更“重要”是另一个问题)。通常,行为不佳的预测器(例如,前瞻性或高基数的因素)会升至最高。

如果直觉变量重要性和GBM变量重要性之间存在很大的分歧,通常会获得一些有价值的知识或发现错误。

我将在“您为什么要我提出这个要求?”上添加第三个答案。问题,这是“因为我想了解造成我的回应的原因”。EEP。


4

当需要对某个流程或任何流程的潜在大量输入进行优先级排序时,可变重要性排名在应用业务领域中具有确定的作用。鉴于变量是可操纵的且不是固定的或不受操纵的结构性因素,因此,该信息为解决问题的重点策略提供了指导,从最重要到最不重要,例如降低了过程成本。归根结底,这应该导致某种形式的A / B测试。

但是,就您的观点而言,Matt以及与任何顺序排名一样,变量之间的细微差别或差异可能会模棱两可或模糊不清,从而抵消了它们的用处。


我完全同意变量排名在许多业务案例中的作用。但是在这里,“不同的算法给出不同的排名”的担忧仍然没有得到解决。您对此有何建议?也可以在这里查看我的问题stats.stackexchange.com/q/251248/71287及其下面的评论。
Aliweb

3
@aliweb 差异的问题没有一个固定的单一解决方案。这一点与层次结构和层次结构之间的区别一样微妙,在层次结构和层次结构之间,全球排名实际上是完全本地的和暂时的。关于相对变量重要性的文献的最佳评论可能属于Ulrike Groemping,他的论文对各种指标进行了全面的介绍。此外,她的R模块和方法RELAMPO是一种严格的估算相对重要性的方法。
麦克·亨特

3

从理论上我完全同意你的观点。但是从实际的角度来看,可变重要性非常有用。

让我们举一个例子,其中一家保险公司希望减少量化客户风险的问卷中的问题数量。问卷越复杂,客户购买产品的可能性就越小。因此,他们希望在维持风险量化水平时减少不太有用的问题。解决方案通常是使用可变的重要性来确定要从问卷中删除哪些问题(并“或多或少”地对潜在客户的风险状况做出相同的预测)。


我完全同意变量排名在许多业务案例中的作用。但是在这里,“不同的算法给出不同的排名”的担忧仍然没有得到解决。您对此有何建议?也可以在这里查看我的问题stats.stackexchange.com/q/251248/71287及其下面的评论。
Aliweb '16

@aliweb:我认为Matthew已经为您提供了一个很好的答案。
Metariat '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.