Questions tagged «feature-selection»

选择用于进一步建模的属性子集的方法和原理

2
根据p值选择特征是否错误?
关于如何选择功能,有几篇文章。一种方法描述了基于t统计量的特征重要性。在varImp(model)应用于具有标准化特征的线性模型的R中,使用每个模型参数的t统计量的绝对值。因此,基本上,我们基于特征的t统计量来选择特征,这意味着系数的精确度。但是系数的精确度是否可以告诉我有关特征的预测能力的信息? 我的特征的t统计量较低,但仍会提高模型的准确性吗?如果是,那么什么时候要基于t统计信息排除变量?还是只是作为检查非重要变量的预测能力的起点?

1
变量选择与模型选择
因此,我知道变量选择是模型选择的一部分。但是,模型选择究竟由什么组成?它不只是以下内容: 1)为您的模型选择一个分布 2)选择解释变量 我之所以这么问,是因为我正在阅读伯纳姆和安德森的文章:AIC与BIC,他们在模型选择中谈论AIC和BIC。阅读本文后,我意识到我一直在将“模型选择”视为“变量选择”(参考注释BIC是否试图找到一个真正的模型?) 从文章摘录中,他们讨论了“通用性”程度不断提高的12个模型,当针对12个模型绘制KL-Information时,这些模型显示出“渐缩效应”(图1): 不同的哲学和目标模型 ...尽管BIC的目标比AIC的目标模型更通用,但是BIC在这里最常选择的模型将不如Model 7通用,除非n非常大。它可能是模型5或模型6。众所周知(从大量的论文和模拟文献中),在渐缩效应的情况下(图1),AIC的性能优于BIC。如果这是真实数据分析的上下文,则应使用AIC。 如何BIC 曾经选择一个模型,模型选择我不明白,比AIC更复杂!什么是“模型选择”?什么时候BIC选择比AIC更“通用”的模型? 如果我们谈论的是变量选择,那么BIC必须确保始终选择变量数量最少的模型,对吗?BIC中的项总是比AIC中的项对附加变量的惩罚更多。但是,当“ BIC的目标是比AIC的目标模型更通用的模型 ”时,这是否合理?2ln(N)k2ln(N)k2ln(N)k2k2k2k 编辑: 从“意见”中评论的讨论中,是否有理由比其他更喜欢AIC或BIC?我们在评论中看到了@Michael Chernick和@ user13273之间的一小段讨论,这使我相信这并不是一件小事: 我认为将这种讨论称为“特征”选择或“协变量”选择更为合适。对我而言,模型选择范围更广,涉及到误差分布的规范,链接函数的形式以及协变量的形式。当我们谈论AIC / BIC时,通常会处于模型构建的所有方面都是固定的情况,除了协变量的选择。– user13273 2012年8月13日在21:17 确定要包含在模型中的特定协变量通常是用模型选择一词来完成的,书名中有许多带有模型选择的书主要决定了模型中应包含哪些模型协变量/参数。–迈克尔·切尔尼克(Michael Chernick)2012年8月24日14:44

5
术语频率/文档反向频率(TF / IDF):加权
我有一个数据集,代表1000个文档以及其中出现的所有单词。因此,行代表文档,列代表单词。因此,例如,单元格代表单词j在文档i中出现的时间。现在,我必须使用tf / idf方法找到单词的“权重”,但实际上我不知道该怎么做。有人可以帮我吗?(i,j)(i,j)(i,j)jjjiii

5
R中的功能选择包,可同时进行回归和分类
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我是R的新手。我正在学习机器学习。非常抱歉,如果这个问题看起来很基础。我试图在R中找到一个不错的功能选择包。我通过了Boruta包。这是一个很好的软件包,但我读到它仅对分类有用。 我想在R中为回归任务实现特征选择。我仔细阅读了插入符号包文档,但就我而言,这很难理解。 任何人都可以请我指向一个好的教程或在R中列出任何好的软件包或最常用的软件包进行功能选择。 任何帮助,将不胜感激。提前致谢。

2
为什么增加功能数量会降低性能?
我正试图了解为什么增加功能数量会降低性能。我目前正在使用LDA分类器,该分类器在某些功能中的双变量性能较好,但在查看更多功能时却较差。我的分类准确性是使用分层的10倍xval进行的。 是否存在一个简单的情况,即分类器在单维度上比双变量上更好地工作,以获得对这些更高维度中正在发生的事情的某种物理或空间直觉?

6
哪些机器学习算法可用于估计更重要的功能?
我的数据具有不变的最少数量的功能,以及一些可以更改并对结果产生重大影响的其他功能。我的数据集如下所示: 功能包括A,B,C(始终存在)和D,E,F,G,H(有时存在) A = 10, B = 10, C = 10 outcome = 10 A = 8, B = 7, C = 8 outcome = 8.5 A = 10, B = 5, C = 11, D = 15 outcome = 178 A = 10, B = 10, C = 10, …

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
如何在回归模型中选择变量?
传统的变量选择方法是找到对预测新响应贡献最大的变量。最近,我得知了一种替代方法。在确定治疗效果的变量建模中(例如在药物的临床试验中),该变量被定性地相互作用如果在其他条件不变的情况下进行治疗,则该变量的更改会导致最有效治疗的更改。这些变量并不总是有效的预测指标,但对于医师决定个体患者的治疗时可能很重要。莱西·甘特(Lacey Gunter)在其博士论文中开发了一种选择这些定性相互作用变量的方法,而这些变量可能会被基于预测的选择算法所遗漏。最近,我与她合作,将这些方法扩展到其他模型,包括逻辑回归和Cox比例风险回归模型。 我有两个问题: 您如何看待这些新方法的价值? 对于传统方法,您更喜欢哪种方法?诸如AIC,BIC,Mallows Cp,F测试之类的条件,用于逐步,向前和向后输入或删除变量... 有关此问题的第一篇论文发表在Gunter,L.,Zhu,J和Murphy,SA(2009)。定性相互作用的变量选择。统计方法论 doi:10,1016 / j.stamet.2009.05.003。 下一篇论文发表在Gunter,L.,Zhu,J.和Murphy,SA(2011)中。 在控制家庭错误率的同时个性化医学中定性相互作用的变量选择。Journal of Biopharmaceutical Statistics 21,1063-1078。 下一个出现在有关变量选择的特刊上,Gunter,L.,Chernick,MR和Sun,J.(2011)。关于治疗选择的回归变量选择的一种简单方法。巴基斯坦统计与运筹学杂志 7:363-380。 您可以在期刊网站上找到这些论文。您可能必须购买该物品。我可能有这些文章的pdf文件。莱西和我刚刚完成了有关此主题的专着,并将于今年晚些时候作为SpringerBrief出版。

2
保留语义的领域不可知特征工程?
特征工程通常是机器学习的重要组成部分(在2010年赢得了KDD杯冠军的过程中被大量使用)。但是,我发现大多数功能工程技术要么 破坏基本功能的任何直观含义,或 是特定于特定领域甚至特定类型的功能。 前者的经典示例是主成分分析。在我看来,主题专家将拥有的有关功能的任何知识都将通过将这些功能转换为主要组件而被破坏。 将其与将日期转换为“月中的某天”和“星期几”的特征的简单技术进行对比。潜在的含义仍然保留在新功能中,但是显然,此特定技术仅适用于日期,不适用于任意功能。 是否有任何标准的要素工程技术体系都没有破坏基本要素的含义,同时又适用于任意领域(或至少各种各样的领域)?

5
我可以使用PCA进行变量选择以进行聚类分析吗?
我必须减少变量数量以进行聚类分析。我的变量之间有很强的相关性,因此我考虑进行因素分析 PCA(主要成分分析)。但是,如果使用所得分数,则我的聚类不是很正确(与文献中以前的分类相比)。 题: 我可以使用旋转矩阵为每个组件/因子选择负荷最大的变量,而仅将这些变量用于聚类吗? 任何参考书目也将有所帮助。 更新: 一些澄清: 我的目标: 我必须通过SPSS使用两步算法进行聚类分析,但是我的变量不是独立变量,因此我考虑丢弃其中的一些变量。 我的数据集: 我正在研究100,000个案例的15个标量参数(我的变量)。一些变量具有高度相关性( Pearson)>0.9>0.9>0.9 我的疑问: 由于只需要独立变量,因此我想进行主成分分析(对不起:我在最初的问题中错误地谈到了因子分析,这是我的错误),并且只为每个组件选择负荷最大的变量。我知道PCA过程存在一些任意步骤,但是我发现此选择实际上类似于IT Jolliffe(1972&2002)提出的“ 方法B4 ”来选择变量,JR King和DA Jackson也在1999年提出了这种选择。 。 因此,我正在考虑以这种方式选择一些自变量子组。然后,我将使用这些组来运行不同的聚类分析,并将比较结果。

4
如何将迭代加权最小二乘(IRLS)方法应用于LASSO模型?
我已经使用IRLS算法对逻辑回归进行了编程。我想对LASSO进行处罚,以便自动选择正确的功能。在每次迭代中,解决了以下问题: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} 令为非负实数。我没有按照《The Elements of》中的建议对拦截进行处罚。统计学习。同为零的系数。否则,我从右边减去一个术语:λλ\lambda XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} 但是,我不确定IRLS算法的修改。这是正确的方法吗? 编辑:尽管我对此并不自信,但这是我最终想出的解决方案之一。有趣的是,此解决方案与我现在对LASSO的了解相对应。实际上,每次迭代有两个步骤,而不仅仅是一个步骤: 第一步与之前相同:我们对该算法进行迭代(就像上面梯度的公式中),λ=0λ=0\lambda=0 第二步是新步骤:我们对第一步获得的向量每个分量(分量,它对应于截距)应用一个软阈值。这称为迭代软阈值算法。 ββ0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)

4
是什么导致套索对于特征选择不稳定?
在压缩感知中,有一个定理保证 具有唯一的稀疏解c(有关更多详细信息,请参见附录)。argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc 套索有类似的定理吗?如果有这样一个定理,那么它不仅可以保证套索的稳定性,而且还可以为套索提供更有意义的解释: 套索可以发现稀疏回归系数向量ccc,该向量用于通过y = Xc生成响应y。yyyy=Xcy=Xcy = Xc 我问这个问题有两个原因: 我认为“套索偏爱稀疏解决方案”并不能解决为什么使用套索进行特征选择的问题,因为我们甚至无法分辨选择特征的优势。 我了解到套索因功能选择不稳定而臭名昭著。在实践中,我们必须运行引导程序样本以评估其稳定性。导致这种不稳定的最关键原因是什么? 附录: 给定XN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)。ccc是ΩΩ\Omega稀疏向量(Ω⩽MΩ⩽M\Omega \leqslant M)。过程y=Xcy=Xcy = Xc生成响应yyy。如果XXX具有\ Omega阶的NSP(零空间属性),ΩΩ\Omega并且X的协方差矩阵的XXX特征值都不接近零,则 argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y …

2
为什么ridge回归不能提供比LASSO更好的解释性?
我已经对ridge回归和LASSO的利弊有了一个想法。 对于LASSO,L1惩罚项将产生稀疏系数矢量,可以将其视为特征选择方法。但是,LASSO有一些限制。如果特征具有高度相关性,则LASSO将仅选择其中之一。此外,对于 >问题,LASSO将最多选择参数(和分别是观测值和参数的数量)。与岭回归相比,就可预测性而言,这些经验使LASSO成为次优方法。Ñ Ñ Ñ ppppnnnnnnnnnppp 对于岭回归,通常可以提供更好的可预测性。但是,它的可解释性不如LASSO。 上面的解释通常可以在机器学习/数据挖掘的教科书中找到。但是,我仍然对两件事感到困惑: 如果我们对特征范围进行归一化(例如,介于0和1之间,或者均值和单位方差为零),并进行岭回归,则仍可以通过对系数的绝对值进行排序来了解特征的重要性(最重要的特征具有系数的最大绝对值)。尽管我们没有明确选择功能,但使用ridge回归并不会丧失可解释性。同时,我们仍然可以实现较高的预测能力。那为什么我们需要LASSO?我在这里想念什么吗? LASSO是否因其特征选择特性而被首选?据我了解,我们之所以需要特征选择,是因为它具有泛化能力和易于计算的能力。 为了简化计算,如果我们要执行某些NLP任务,我们不想将所有一百万个特征都馈入模型,因此我们首先删除一些显然无用的特征以降低计算成本。但是,对于LASSO,只有在将所有数据输入模型后才能知道特征选择结果(稀疏矢量),因此就降低计算成本而言,我们没有从LASSO中受益。我们只能更快地进行预测,因为现在我们仅将特征子集(例如一百万个中的500个)馈入模型以生成预测结果。 如果LASSO因其具有泛化能力而被首选,那么我们也可以使用ridge回归(或任何其他类型的正则化)来实现相同的目标。为什么我们再次需要LASSO(或弹性网)?为什么我们不能只坚持岭回归? 有人可以请问一下吗?谢谢!

2
随机森林的特征选择和带有尖号的参数调整
我有具有数千个功能的数据,并且我想进行递归功能选择(RFE)以删除无信息的功能。我使用插入符号和RFE 进行此操作。但是,我开始思考,如果我想获得最佳的回归拟合(例如,随机森林),什么时候应该执行参数调整(mtry针对RF)?也就是说,据我所知,插入符号使用固定的mtry在不同的特征子集上反复训练RF。我想mtry应该在特征选择完成后找到最佳mtry值,但是插入符号使用的值会影响特征的所选子集吗?使用插入符号低mtry的速度要快得多,当然。 希望有人可以向我解释。

1
如何使用线性函数逼近将权重拟合到Q值
在强化学习中,当存在较大的状态空间时,通常使用线性函数逼近。(当查找表变得不可行时。) 线性函数近似的值的形式为问-Q−Q- Q (s ,a )= w1个F1个(s ,a )+ w2F2(s ,a )+ ⋯ ,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, 其中是权重,f i是特征。w一世wiw_iF一世fif_i 这些功能由用户预定义。我的问题是,权重如何分配? 我已经阅读/下载了一些有关学习函数逼近的讲座幻灯片。他们中的大多数人都跟随着线性回归的幻灯片。由于它们只是幻灯片,因此往往不完整。我想知道这两个主题之间的联系/关系是什么。问-Q−Q-

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.