统计和大数据 importance

2

我一直在尝试使用随机森林进行回归，并且很难准确地确定出重要性的两个指标的含义以及如何解释它们。该importance()函数为每个变量提供两个值：%IncMSE和IncNodePurity。这两个值是否有简单的解释？对于IncNodePurity特别是，这仅仅是一个量的去除变量继RSS增加？

40 r machine-learning random-forest importance

4

可变重要性排名有哪些用处？

在变量重要性排名方面（在各种多元模型的背景下），我在某种程度上变得虚妄。通常在我的工作过程中，我被要求要么协助另一个团队产生可变的重要性等级，要么从我自己的工作产生可变的重要性等级。针对这些要求，我提出以下问题您想要这个可变重要性排名的原因是什么？您希望从中学到什么？您想使用哪种决策？我收到的答案几乎总是属于两类之一我想知道模型中不同变量对预测响应的重要性。我想通过删除低重要性变量将其用于特征选择。第一个响应是重言式的（我想要一个可变的重要性排名，因为我想要一个可变的重要性排名）。我必须假设这些排名在使用多元模型的输出时满足了心理需求。我很难理解这一点，因为分别对变量“重要性”进行排名似乎隐式地拒绝了所讨论模型的多维性质。第二种反应本质上简化为非正式版本的向后选择，CrossValidated的其他部分充分记录了其统计上的错误。我也为重要性排名的定义性质感到困惑。对于排名应该衡量的基本概念似乎并没有达成共识，这给了他们非常特别的味道。分配重要性分数或等级的方法有很多，它们通常都有缺点和警告：它们可能高度依赖算法，例如在随机森林和gbms中的重要性排名中。它们可能具有极高的方差，会随着对基础数据的扰动而急剧变化。他们可能会遭受输入预测变量中相关性的严重困扰。因此，综上所述，我的问题是，变量重要性排名在统计学上有哪些有效用途，或者，对于这种愿望的徒劳性，什么是令人信服的论点（对统计学家或外行而言）？我对一般的理论论证和案例研究都感兴趣，无论哪种方法更有效。

25 multiple-regression multivariate-analysis importance

4

可以输入多元回归方程式的最大自变量数

在多元回归方程中可以输入的自变量的数量限制是多少？我想根据其对结果变量的相对贡献来检查10个预测变量。我应该使用邦费罗尼校正来进行多次分析吗？

19 regression predictor importance bonferroni

3

估计k均值集群分区中最重要的功能

有没有办法确定数据集的哪些特征/变量在k均值聚类解决方案中最重要/最重要？

19 machine-learning clustering k-means importance

2

GLMNET的重要性不一

我正在研究使用套索作为选择特征并将预测模型与二值目标拟合的方法。以下是我正在尝试使用正则化逻辑回归的方法的一些代码。我的问题是我得到一组“重要”变量，但是我能够对这些变量进行排序以估计每个变量的相对重要性吗？为此，可以通过绝对值对系数进行标准化（我知道它们通过coef函数以原始可变比例显示）？如果是这样，如何进行（使用x和y的标准偏差）标准化回归系数。样本代码： library(glmnet) #data comes from #http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) datasetTest <- read.csv('C:/Documents and Settings/E997608/Desktop/wdbc.data.txt',head=FALSE) #appears to use the first level as the target success datasetTest$V2<-as.factor(ifelse(as.character(datasetTest$V2)=="M","0","1")) #cross validation to find optimal lambda #using the lasso because alpha=1 cv.result<-cv.glmnet( x=as.matrix(dataset[,3:ncol(datasetTest)]), y=datasetTest[,2], family="binomial", nfolds=10, type.measure="deviance", alpha=1 ) #values of lambda used histogram(cv.result$lambda) #plot of …

18 logistic importance glmnet

5

了解哪些功能对逻辑回归最重要

我建立了一个逻辑回归分类器，该分类器对我的数据非常准确。现在，我想更好地理解它为什么运行得如此出色。具体来说，我想对哪些功能做出最大的贡献（哪些功能最重要）进行排名，并且理想情况下，量化每个功能对整个模型的准确性有多大的贡献（或类似的东西）。我该怎么做呢？我首先想到的是根据系数对它们进行排名，但是我怀疑这是不对的。如果我有两个同样有用的功能，但是第一个的散布是第二个的十倍，那么我希望第一个的系数要比第二个低。有没有更合理的方法来评估功能的重要性？请注意，我不是要了解功能中的小变化会对结果的可能性产生多大的影响。相反，我试图了解每个功能在使分类器准确无误方面的价值。另外，我的目标不是执行特征选择或构建具有较少特征的模型，而是试图为学习的模型提供一些“可解释性”，因此分类器不仅仅是一个不透明的黑匣子。

17 machine-learning logistic feature-selection importance

2

虚拟变量的功能重要性

我试图了解如何获得已分解为虚拟变量的分类变量的功能重要性。我正在使用scikit-learn，它不像R或h2o那样为您处理分类变量。如果将分类变量分解为虚拟变量，则该变量中每个类的功能重要性都不同。我的问题是，将这些虚拟变量的重要性通过简单地求和重新组合为分类变量的重要性值是否有意义？从《统计学习的要素》第368页开始：变量的平方相对重要性XℓXℓX_{ℓ}是在所有的内部节点，例如平方改进它为之选择作为分割变量的总和这使我认为，由于重要性值已经通过在每个节点上选择一个变量的总和来创建，因此我应该能够组合虚拟变量的变量重要性值以“恢复”分类变量的重要性。当然，我不希望它是完全正确的，但是无论如何这些值实际上都是准确的值，因为它们是通过随机过程找到的。我已经编写了以下python代码（以jupyter格式）作为调查： import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import animation, rc from sklearn.datasets import load_diabetes from sklearn.ensemble import RandomForestClassifier import re #%matplotlib inline from IPython.display import HTML from IPython.display import set_matplotlib_formats plt.rcParams['figure.autolayout'] = False plt.rcParams['figure.figsize'] = 10, …

17 categorical-data random-forest interpretation importance

3

如何在多元回归中的预测变量之间划分r平方？

我刚刚读过一篇论文，其中的作者对两个预测变量进行了多元回归。总体r平方值为0.65。他们提供了一个表格，用于在两个预测变量之间划分r平方。该表如下所示： rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 1, 10 0.030 在该模型中，R使用mtcars数据集运行时，总体r平方值为0.76。 summary(lm(mpg ~ drat + wt, mtcars)) Call: lm(formula = mpg ~ drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max …

16 r multiple-regression r-squared importance variance-decomposition

4

比较不同预测变量集的重要性

我曾为有特定问题的研究学生提供建议，并且我很想在此站点上得到其他人的意见。内容：研究人员具有三种类型的预测变量。每种类型包含不同数量的预测变量。每个预测变量都是一个连续变量：社交：S1，S2，S3，S4（即四个预测变量）认知：C1，C2（即两个预测变量）行为：B1，B2，B3（即三个预测变量）结果变量也是连续的。样本包括大约60名参与者。研究人员想评论哪种类型的预测变量在解释结果变量方面更重要。这与对这些类型的预测变量的相对重要性的更广泛的理论关注有关。问题有什么好方法可以评估一组预测变量相对于另一组预测变量的相对重要性？对于每个集合中预测变量数量不同的事实，有什么好的策略？您可能建议解释什么注意事项？任何引用示例或技术讨论的内容也将受到欢迎。

13 regression predictor importance

1

在“随机森林”中，为什么在节点级别而不是树级别上选择特征的随机子集？

我的问题：为什么随机森林会考虑特征的随机子集，以便在每棵树的节点级别而不是树级别进行拆分？背景：这是一个历史问题。田锦镐（Tin Kam Ho）于1998年发表了有关构建“决策森林”的论文，该文章随机选择了用于生长每棵树的特征子集。几年后，在2001年，Leo Breiman发表了他的开创性的《随机森林》论文，其中特征子集是随机的。在每个树内的每个节点上选择，而不是在每个树上选择。尽管Breiman引用了Ho，但他没有具体说明从树级到节点级随机特征选择的过程。我想知道是什么推动了这一发展。似乎在树级别选择特征子集仍会完成树的所需解相关。我的理论：我在其他地方都没有看到过这种说法，但是就获得特征重要性的估计而言，随机子空间方法似乎效率较低。为了获得重要程度的估计值，对于每棵树，将特征一一随机排列，并记录袋外观察结果的错误分类增加或错误增加。因这种随机排列而导致错误分类或错误增加的变量很高，是那些具有最高重要性的变量。如果我们用随机子空间的方法，每棵树，我们只考虑的功能。可能要花几棵树才能考虑所有预测变量。另一方面，如果我们在每个节点上考虑特征的不同子集，则在更少的树之后我们将考虑每个特征更多次，从而使我们对特征重要性的估计更加可靠。mmmppppppmimim_ippp 到目前为止，我所看的是：到目前为止，我已经阅读了Breiman的论文和Ho的论文，并进行了广泛的在线搜索以比较方法，而没有找到确切的答案。请注意，之前曾问过类似的问题。通过将我的推测/工作纳入可能的解决方案，这个问题进一步扩大了。我会对比较这两种方法的任何答案，相关引文或模拟研究感兴趣。如果没有结果，我计划比较两种方法来运行自己的仿真。

13 machine-learning feature-selection random-forest importance history

2

如何用p量化Logistic回归中的相对变量重要性？

假设使用逻辑回归模型来预测在线购物者在单击一组在线广告（预测变量：Ad1，Ad2和Ad3）后是否将购买产品（结果：购买）。结果是一个二进制变量：1（已购买）或0（未购买）。预测变量也是二进制变量：1（单击）或0（未单击）。因此，所有变量的比例都相同。如果得出的Ad1，Ad2和Ad3的系数分别为0.1、0.2和03，则可以得出结论：Ad3比Ad2更重要，而Ad2比Ad1更重要。此外，由于所有变量的大小相同，因此标准化和非标准化系数应该相同，并且我们可以进一步得出结论，就其对logit（对数奇数）水平的影响而言，Ad2比Ad1重要两倍。但是实际上，我们更关心如何根据p（购买概率）级别而不是logit（log-odds）水平比较和解释变量的相对重要性。因此，问题是：是否有任何方法可以根据p量化这些变量的相对重要性？

11 logistic importance

1

randomForest和变量重要性错误？

我不明白的之间的差异rfobject$importance，并importance(rfobject)在MeanDecreaseAccuracy列。例： > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 1.277324 …

10 r random-forest importance

2

可变重要性randomForest负值

我问自己，在回归上下文中删除负重要性重要性值（“％IncMSE”）的那些变量是否是一个好主意。如果能给我更好的预测？你怎么看？

10 machine-learning feature-selection random-forest importance

1

如何比较观察到的事件与预期的事件？

假设我有一个频率为4个可能的事件的样本： Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和（18），我可以计算事件的预期频率，对吗？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

Questions tagged «importance»