Questions tagged «feature-selection»

选择用于进一步建模的属性子集的方法和原理

5
使用正则化算法时,我们仍然需要进行特征选择吗?
关于运行统计学习算法之前是否需要使用特征选择方法(随机森林特征重要性值或单变量特征选择方法等),我有一个问题。 我们知道,为避免过度拟合,我们可以对权重向量引入正则化惩罚。 因此,如果要进行线性回归,则可以引入L2或L1甚至弹性网正则化参数。为了获得稀疏解,L1惩罚有助于特征选择。 然后,是否仍需要在运行L1正则化或回归(例如Lasso)之前进行特征选择?从技术上讲,套索正在帮助我减少L1损失,那么为什么在运行算法之前需要选择特征? 我读了一篇研究文章,说先做Anova再做SVM比单独使用SVM可以提供更好的性能。现在的问题是:SVM本质上使用L2规范进行正则化。为了最大化裕量,它正在最小化权重向量范数。因此,它正在对其目标函数进行正则化。那么从技术上讲,诸如SVM之类的算法就不应该困扰于特征选择方法吗?但是该报告仍然说,在普通SVM功能更强大之前进行Univariate Feature选择。 有想法的人吗?


2
选择LASSO变量后进行OLS有何意义?
最近,我发现在应用的计量经济学文献中,当处理特征选择问题时,通常会执行LASSO,然后使用所选变量进行OLS回归。 我想知道如何才能证明这种程序的有效性。会引起诸如变量遗漏之类的麻烦吗?有没有证据表明它更有效,或者结果更容易解释? 这里是一些相关的讨论: LASSO进行变量选择 使用套索/随机变量选择变量后使用树 如前所述,如果这样的程序总体上是不正确的,那么为什么还有如此多的研究呢?我可以说由于LASSO估算器的某些不可靠特性以及人们对OLS的偏爱,这只是一个经验法则,一个折衷的解决方案?

1
从该套索图得出的结论(glmnet)
以下是使用mtcarsR中设置的数据mpg作为DV以及其他变量作为预测变量的具有默认alpha(1,因此为lasso)的glmnet的图。 glmnet(as.matrix(mtcars[-1]), mtcars[,1]) 我们可以从这个图得出什么结论对于不同的变量,尤其是am,cyl和wt(红色,黑色和淡蓝色线)?我们将如何用输出表达要发布的报告中的内容? 我想到了以下几点: wt是的最重要的预测指标mpg。它对产品产生负面影响mpg。 cyl是的弱否定指标mpg。 am可能是的积极预测指标mpg。 其他变量不是的可靠预测指标mpg。 感谢您对此的想法。 (注意:cyl是黑线,直到非常接近它才达到0。) 编辑:以下是plot(mod,xvar ='lambda'),它按与上图相反的顺序显示x轴: (附言:如果您发现此问题有趣/重要,请对其进行投票;)

2
分类预测因子在逻辑回归中的意义
我在解释逻辑回归时无法解释类别变量的z值。在下面的示例中,我有3个类别的分类变量,根据z值,CLASS2可能是相关的,而其他则不相关。 但是现在这是什么意思呢? 我可以将其他班级合并成一个班级吗? 整个变量可能不是一个好的预测指标? 这仅是一个示例,此处的实际z值并非来自实际问题,我对其解释有困难。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

1
什么是“功能空间”?
“特征空间”的解释是什么? 例如,当阅读有关SVM的内容时,我阅读了有关“映射到要素空间”的信息。在阅读有关CART的文章时,我阅读了有关“分区到要素空间”的信息。 我了解正在发生的事情,尤其是对于CART,但是我认为我错过了一些定义。 有“特征空间”的一般定义吗? 是否有定义可以使我更深入地了解SVM内核和/或CART?


2
速度,PCA,LASSO,弹性网的计算费用
我正在尝试比较Hastie等人中区分的三组线性回归方法的计算复杂度/估计速度。“统计学习的要素”(第二版),第3章: 子集选择 收缩方式 使用派生输入方向的方法(PCR,PLS) 进行比较可能很粗略,只是为了给出一些想法。我认为答案可能取决于问题的严重程度以及如何适应计算机体系结构,因此举一个具体的例子,可以考虑样本量为500和50个候选回归变量。我最感兴趣的是计算复杂性/估计速度背后的动机,而不是对于给定示例而言,使用某个处理器需要多长时间。

1
模型选择中的悖论(AIC,BIC,是解释还是预测?)
阅读了加利特·斯穆利(Galit Shmueli)的“解释或预测”(2010),我为明显的矛盾感到困惑。一共有三个前提 基于AIC的与基于BIC的模型选择(第300页的结束-第301页的开始):简而言之,应使用AIC选择用于预测的模型,而应使用BIC选择用于解释的模型。另外(我们不在上面的文章中),我们知道在某些条件下BIC会在候选模型集中选择真实模型。真正的模型是我们在解释模型中寻求的(第293页末)。 简单的算法:对于大小为8或更大的样本,AIC将选择比BIC 更大的模型由于AIC与BIC的复杂度惩罚不同,因此满足)。ln(n)>2ln(n)>2\text{ln}(n)>2 在“真实”模型(即用正确的回归量和正确的函数形式,但不完全估计系数模型)可能不是预测的最佳模式(P 307):回归模型缺少的预测可能是一个更好的预测模型-由于缺少估计变量而导致的偏差可能会因估计不准确而导致方差减少而被抵消。 要点1.和2.表明较大的模型可能比较简约的模型更适合预测。同时,第3点给出了一个相反的例子,其中更简约的模型比较大的模型更适合预测。我感到困惑。 问题: 点之间如何出现明显的矛盾{1。和2.}和3.被解释/解决? 鉴于第3点,您能否就AIC选择的较大模型实际上比BIC选择的更简约模型更好地进行预测进行直观的解释?

4
如何根据图像分辨率计算特征数量?
只是覆盖安德鲁Ng的神经网络在建筑物的非线性假说,我们必须确定选择题的特点数为分辨率的图像100×100的grescale强度。 答案是5000万, x55510710710^7 但是,对于50 x 50像素的灰度图像,更早一些。功能数量为50x50(2500) 为什么是 x而不是?55510710710^710 ,00010,00010,000 但是,他确实表示将所有二次项()都包含为特征X一世XĴxixjx_ix_j 假设您正在学习从100×100像素图像(灰度而不是RGB)识别汽车。令特征为像素强度值。如果您将所有二次项()作为特征训练逻辑回归,那么您将拥有多少个特征?X一世XĴxixjx_ix_j 在有关100x100的较早幻灯片中,二次特征( x)= 3百万个特征,但我仍然无法。X一世xix_iXĴxjx_j

5
cv.glmnet结果的可变性
我cv.glmnet用来查找预测变量。我使用的设置如下: lassoResults&lt;-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda&lt;-lassoResults$lambda.min results&lt;-predict(lassoResults,s=bestlambda,type="coefficients") choicePred&lt;-rownames(results)[which(results !=0)] 为了确保结果是可重复我set.seed(1)。结果变化很大。我运行了完全相同的代码100,以查看结果的可变性。在98/100次运行中,总是选择一个特定的预测变量(有时仅靠预测变量);选择其他预测变量(系数非零)通常为50/100次。 因此对我来说,每次交叉验证运行时,都可能会选择一个不同的最佳lambda,因为折叠的初始随机性很重要。其他人已经看到了这个问题(CV.glmnet结果),但是没有建议的解决方案。 我在想,一个显示98/100的图像可能与所有其他图像高度相关吗?如果我只是运行LOOCV(),结果的确稳定,但是我很好奇为什么当时它们是如此可变。fold-size=nfold-size=n\text{fold-size} = nnfold&lt;nnfold&lt;n\text{nfold} < n


5
了解哪些功能对逻辑回归最重要
我建立了一个逻辑回归分类器,该分类器对我的数据非常准确。现在,我想更好地理解它为什么运行得如此出色。具体来说,我想对哪些功能做出最大的贡献(哪些功能最重要)进行排名,并且理想情况下,量化每个功能对整个模型的准确性有多大的贡献(或类似的东西)。我该怎么做呢? 我首先想到的是根据系数对它们进行排名,但是我怀疑这是不对的。如果我有两个同样有用的功能,但是第一个的散布是第二个的十倍,那么我希望第一个的系数要比第二个低。有没有更合理的方法来评估功能的重要性? 请注意,我不是要了解功能中的小变化会对结果的可能性产生多大的影响。相反,我试图了解每个功能在使分类器准确无误方面的价值。另外,我的目标不是执行特征选择或构建具有较少特征的模型,而是试图为学习的模型提供一些“可解释性”,因此分类器不仅仅是一个不透明的黑匣子。

3
使用套索进行变量选择后的推论
我正在使用Lasso在相对较低的尺寸设置(n &gt;&gt; p)中进行特征选择。拟合套索模型后,我想使用具有非零系数的协变量来拟合无惩罚的模型。我这样做是因为我想要无偏差的估计,而套索不能给我。我还希望无偏估计的p值和置信区间。 我很难找到有关该主题的文献。我发现的大多数文献都是关于将置信区间放在套索估计上,而不是重新拟合的模型。 根据我的阅读,仅使用整个数据集来重新拟合模型会导致不切实际的p值/ std错误。目前,样本分割(按照Wasserman和Roeder(2014年)或Meinshausen等人(2009年)的样式)似乎是一个不错的选择,但我正在寻找更多建议。 有没有人遇到这个问题?如果是这样,请您提供一些建议。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.