2016年确实需要进行预测模型的变量选择吗?


67

几年前已经在简历上提出了这个问题,鉴于1)更好的计算技术(例如并行计算,HPC等)和2)更新的技术(例如[3]),似乎值得重新提出。

首先,一些背景。让我们假设目标不是假设检验,不是效果估计,而是对未见检验集的预测。因此,没有赋予任何可解释的利益以重量。其次,假设您不能排除任何预测因素在主题考虑方面的相关性,即 它们看起来单独或与其他预测变量组合似乎都合理。第三,您要面对数以百万计的预测变量。第四,假设您可以无限制地访问AWS,因此计算能力不受限制。

变量选择的常见原因是:1)效率;更快地适合较小的模型,便宜地收集较少的预测变量,2)解释;知道“重要”变量可以深入了解基本过程[1]。

众所周知,许多变量选择方法无效,而且常常是完全危险的(例如,逐步回归)[2]。

其次,如果选择的模型不错,那么根本不需要缩减预测变量的列表。该模型应该为您完成。套索就是一个很好的例子,它为所有不相关的变量分配了零系数。

我知道有些人主张使用“大象”模型,即。将所有可能的预测变量投入拟合并运行[2]。

如果目标是预测准确性,是否有任何根本原因进行变量选择?

[1] Reunanen,J.(2003)。在变量选择方法之间进行比较时过度拟合。机器学习研究杂志,3,1371-1382。

[2] Harrell,F.(2015)。回归建模策略:应用于线性模型,逻辑和序数回归以及生存分析。施普林格。

[3] Taylor,J.和Tibshirani,RJ(2015)。统计学习和选择性推理。美国国家科学院院刊,112(25),7629-7634。

[4] Zhou,J.,Foster,D.,Stine,R。和Ungar,L。(2005年8月)。使用Alpha投资进行流特征选择。在第十一届ACM SIGKDD国际会议上,进行数据挖掘中的知识发现(第384-393页)。ACM。


6
好的第一个问题-可能会重复出现,但我很高兴您付出了很多努力,提出了自己的与众不同之处。我建议您编辑标题,这样可以使您更明确地将注意力仅放在预测上。
银鱼

5
如果已经问过这个问题,但是您发现在一段时间后重新发布它很重要,那么您可能无法提供上一个问题的链接?能够比较先前的答案可能会很有趣。
蒂姆

1
@ qbert65536一种观点是你没有。特征选择本质上是不可靠的。
horaceT

8
自动选择稀疏特征子集的方法(例如l1惩罚模型)也在执行特征选择。因此,关键问题不是“特征选择是好是坏”,而是“区分好的特征选择方法和不好的特征是什么属性?”。与参数估计(例如套索)一起执行是一项属性,我们可以问一下这是否重要(以及许多其他属性)。
user20160

2
@ToussaintLouverture自从一年前我发布此问题以来,我有第二(和第三)想法。现在,我认为合适的问题是,将精力直接用于变量选择,而不是模型选择,以从实验的所有特征中概括出更强大的模型,这有多重要?
horaceT

Answers:


37

多年来一直有传言称Google使用所有可用功能来构建其预测算法。但是,到目前为止,还没有出现免责声明,解释或白皮书来澄清和/或质疑这一谣言。甚至他们的已公开专利也无法帮助理解。结果,据我所知,没有一个Google外部人员知道他们在做什么。

/ *更新于2019年9月,一位Google Tensorflow传播者在一次演讲中记录下来,称Google工程师会定期评估当前版本的PageRank超过50亿个参数。* /

正如OP所指出的那样,预测建模中的最大问题之一是经典假设检验与谨慎的模型规范与纯数据挖掘之间的融合。受过经典训练的模型设计和开发人员对于“严谨”的需求可以说是相当教条。事实是,当面对大量候选预测变量和多个可能的目标或因变量时,经典框架既不起作用,也不提供任何有用的指导。近期多篇论文描绘从Chattopadhyay和李碧菁的辉煌纸这种窘境数据碎:数据揭开潜伏订单 http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

关键瓶颈在于,当今大多数数据比较算法都依赖人类专家来指定哪些数据“特征”与比较相关。在这里,我们提出了一种新的原理,即不使用领域知识也不使用学习来估计任意数据流的源之间的相似性。

去年Kleinberg等人的AER关于预测政策问题的论文。https://www.aeaweb.org/articles?id=10.1257/aer.p20151023,其中列举了数据挖掘和预测作为经济政策制定中的有用工具的理由,并列举了“因果推理不是中心,甚至不是必要的”实例。 ”

事实是,更大的问题($ 64,000)是思维方式和向经典假设检验框架的挑战的广泛转变,例如,在Edge.org关于“过时”科学思维的研讨会上,https://www.edge.org/ 回应/即将退休的科学思想,以及埃里克·贝因霍克(Eric Beinhocker)最近在“新经济学”上的文章,提出了一些激进的建议,以整合行为经济学,复杂性理论,预测模型等广泛不同的学科开发,网络和投资组合理论作为政策实施和采用的平台https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/不用说,这些问题不仅限于经济问题,而且表明我们正在科学范式上发生根本性的转变。不断变化的观点就像还原论,奥卡姆的剃刀之类的模型构建与Epicurus的宽泛的宽恕原则或多种解释之间的区别一样是基本的,这些解释粗略地指出,如果有几个发现解释了某些内容,请保留所有这些…… https:// en。 wikipedia.org/wiki/Principle_of_plenitude

当然,像Beinhocker这样的人完全不拘泥于实用的,对这种不断发展的范式应用的统计解决方案的担忧。关于超高维变量选择的棘手问题,OP对于可能利用例如所有相关信息的套索,LAR,逐步算法或“象素模型”的可行的模型构建方法而言,是相对不确定的。现实情况是,即使使用AWS或超级计算机,您也无法同时使用所有可用信息-根本没有足够的RAM来加载所有信息。这意味着什么?例如,NSF 在复杂或海量数据集中发现:共同的统计主题“分割和征服”大规模数据挖掘算法,例如,Wang等人的论文《大数据的统计方法和计算概览》 http://arxiv.org/pdf/1502.07989.pdf以及Leskovec等人的论文本书海量数据集的挖掘 http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

现在,实际上有数百篇(甚至数千篇)论文涉及这些挑战的各个方面,所有论文都提出了以“分而治之”算法为核心的差异很大的分析引擎。无监督的“深度学习”模型;随机矩阵理论应用于大规模协方差构建;贝叶斯张量模型可用于经典,监督逻辑回归等。大约十五年前,辩论主要集中在关于层次贝叶斯解决方案与频频有限混合模型的相对优点的问题。在针对这些问题的论文中,Ainslie等人。http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf得出的结论是,在实践中,不同的理论方法产生了大致相同的结果,但涉及稀疏和/或高维数据的问题除外,其中HB模型具有优势。如今,随着D&C解决方案的出现,历史上可能享有的任何套利HB模型都将被淘汰。

这些D&C解决方法的基本逻辑总体上是对Breiman著名的随机森林技术的扩展,该技术依赖于对观测值和特征的自举重采样。Breiman于90年代后期在单个CPU上完成了工作,当时海量数据意味着几十个演出和数千个功能。在当今的大规模并行,多核平台上,可以运行算法来分析数兆兆字节的数据,其中包含数以千万计的功能,这些数据可以在数小时内构建数百万个“ RF”微型模型。

所有这些都涉及许多重要问题。由于这些变通办法的近似性质,人们不得不担心精度损失。Chen和Xie在其论文《大数据分析中的分而治之方法》中 已经解决了这个问题,网址为http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf,他们在此总结近似值与“完整信息”模型没有明显区别。

据我所知,文献中还没有充分解决第二个问题,即解决方法后,可能会从数百万个预测小型模型中得到的结果(即“参数”)已汇总和总结。换句话说,如何执行像对这些数据“评分”一样简单的事情?微型模型系数是否要保存和存储,还是只是对新数据重新运行d&c算法?

冯嘉iser(Kaiser Fung)在他的《数字统治你的世界》一书中,描述了Netflix面临的困境,当时竞赛的获胜者只交出了104个模型。获胜者的确将MSE与其他所有竞争对手相比减至最小,但这转化为他们的电影推荐系统使用的5点,李克特式评分量表的准确性仅提高了小数点。此外,这种模型集成所需的IT维护成本远远超过了“提高”模型精度所带来的节省。

然后,有一个完整的问题,就是使用这种数量级的信息是否还可能实现“优化”。例如,物理学家兼金融工程师伊曼纽尔·德曼(Emmanuel Derman)在他的《量化的生活》一书中提出,至少在金融工程领域,优化是不可持续的神话。

最后,关于具有大量特征的相对特征重要性的重要问题尚未解决。

关于变量选择的必要性和当前伊壁鸠鲁解决方案所带来的新挑战,没有简单的答案。最重要的是,我们现在都是数据科学家。

****编辑*** 参考

  1. Chattopadhyay I,Lipson H.,2014年数据粉碎:发现数据中的潜伏次序。JR Soc。接口11:20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. 克莱恩伯格,乔恩,詹斯·路德维希,森希尔·穆兰纳坦和齐亚德·奥伯麦耶。2015年。“预测政策问题”。美国经济评论,105(5):491-95。DOI:10.1257 / aer.p20151023

  3. Edge.org,2014年年度问题:哪些科学思想准备退役? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement

  4. 埃里克·贝因霍克(Eric Beinhocker),经济学的深刻变化如何使左派辩论与右派辩论无关紧要,2016年,Evonomics.org。 https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. 伊壁鸠鲁原理有多种解释:保留所有模型。维基百科 https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF,《发现复杂或大规模数据集:通用统计主题》,美国国家科学基金会资助的研讨会,2007年10月16日至17日, https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. 大数据的统计方法和计算,工作论文,王春,陈明慧,伊丽莎白·希法诺,吴静,严军,2015年10月29日, http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec,Anand Rajaraman,Jeffrey David Ullman,海量数据集挖掘,剑桥大学出版社;2版(2014年12月29日)ISBN:978-1107077232

  9. 大样本协方差矩阵和高维数据分析(统计和概率数学中的剑桥系列),姚建峰,郑树荣,白志东,剑桥大学出版社;1版(2015年3月30日)ISBN:978-1107065178

  10. RICK L. ANDREWS,ANDREW AINSLIE和IMRAN S. CURRIM,具有异质性与连续性连续表示的Logit选择模型的经验比较,《市场研究》,第479卷。XXXIX(2002年11月),479-487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. 一种分析和处理大型数据的方法,陈雪莹和谢明格,DIMACS技术报告2012-01,2012年1月 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

  12. 冯凯泽(Kaiser Fung),《数字统治着你的世界:概率论和统计学对你所做的一切的隐藏影响》,麦格劳-希尔教育。1版(2010年2月15日)ISBN:978-0071626538

  13. 伊曼纽尔·德曼(Emmanuel Derman),《我的定量生活:对物理和金融的思考》,威利(Wiley);1版(2016年1月11日)ISBN:978-0470192733

* 2017年11月更新*

内森·库兹(Nathan Kutz)在2013年出版的《数据驱动的建模与科学计算:复杂系统和大数据的方法》一书是针对变量选择以及降维方法和工具的以数学和PDE为重点的课程。在2017年6月的Youtube视频动态系统和PDE的数据驱动发现中,可以找到关于他的思想的出色的1小时入门。在其中,他引用了该领域的最新发展。 https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop


1
几年前,在机器学习暑期学校,来自Google的一位研究员发表了演讲(忘了名字)。他提到了生产中的几个(二进制分类)模型,涉及在大约30 Tb的数据集上批量训练的大约2亿个特征;其中大多数可能是二进制功能。我不记得他曾经提到过变量选择。
horaceT '16

1
很棒的评论(尽管其中有一部分是切线的)。我特别喜欢这样一种观点,即在大数据时代,许多老式的想法都需要重新审视。
horaceT '16

1
@horaceT非常有趣。至少这证实了谣言。谢谢。那是哪个机器学习程序?
迈克·亨特

1
加州大学圣克鲁斯分校的MLSS 2012。演讲者是Tushar Chandra,这是幻灯片,users.soe.ucsc.edu
〜niejiazhong /

2
@Glen_b感谢您的评论。我以为是因为链接断开问题,所以为参考提供了名称和标题。无论如何,我将在最后添加一个参考部分。让我知道是否有任何遗漏。
Mike Hunter

14

在预测方面,您可能需要考虑模型学习重要特征的速度有多快的问题。即使考虑到OLS,如果有足够的数据,这也会为您提供诸如模型选择之类的东西。但是我们知道它不能足够快地收敛到该解决方案-因此我们在寻找更好的东西。

大多数方法都对即将遇到的贝塔系数/系数的类型做出了假设(例如贝叶斯模型中的先验分布)。当这些假设成立时,它们会发挥最佳作用。例如,岭/套索回归假设大多数beta处于相同比例,并且大多数接近零。对于大多数beta为零且某些beta值非常大(即标度非常不同)的“大海捞针”回归,它们不能很好地工作。功能选择在这里可能会更好地工作-套索可能会陷入不断缩小的噪声和保持信号不变之间。功能选择更加易变-效果是“信号”或“噪声”。

在决策方面,您需要对自己拥有的预测变量种类有所了解。你有几个真的很好吗?还是所有变量都很弱?这将推动您拥有的Beta的配置文件。以及您使用哪种惩罚/选择方法(课程和其他所有方法)。

特征选择也不错,但是由于计算限制,一些较旧的近似值不再适用(逐步,向前)。使用特征选择进行模型平均(所有1个var模型,2个var模型等按其性能加权)将在预测方面做得很好。但是,从本质上讲,这是通过赋予模型排除权重的beta来惩罚beta的-只是不直接-而不是以某种形式的凸优化问题。


12

我给你行业的观点。

行业不喜欢在传感器和监控系统上花钱,他们不知道将从中受益多少。

例如,我不想命名,因此想象一下一个组件,该组件每分钟有10个传感器收集数据。资产所有者转向我,问我如何利用来自10个传感器的这些数据来预测组件的性能?然后他们进行成本效益分析。

然后,他们具有20个传感器的相同组件,他们再次问我,如何利用20个传感器的这些数据预测我的组件的性能?他们执行另一项成本效益分析。

在每种情况下,他们都将收益与传感器安装带来的投资成本进行了比较。(这不仅是向组件添加10美元的传感器。还有许多因素在起作用)。在这里可以进行变量选择分析。


1
好点子。但是,你不会不知道10米的传感器不够好,或者需要另一个10,直到你有从20的一些数据
horaceT

是的,您总是可以根据一些研究来推测。您应为每个传感器安装一个目标,以免发生故障。如果故障率很低或您已经涵盖了组件的重要部分,则知道添加1个传感器不会带来很大的回报。因此,您无需安装这些传感器,收集数据并进行研究即可知道这些附加传感器是否真的足够好。
PeyM87 '16

“传感器”可能并不意味着传感器-在我公司中,我们订阅了所有数据,因此确实有机会发现对任何事情都没有帮助的功能,并通过从订阅服务中删除它们来降低成本(很明显,订阅率的计算要比各个列的级别高,但是可以肯定的是,可以想象订阅的一个元素为最终模型贡献了一个功能,并且可以在无法提高性能的情况下停止使用)
Robert de Graaf

9

作为用于学习纯预测模型的算法的一部分,从性能的角度来看,变量选择不一定是不好的,也不是自动危险的。但是,有些问题是应该意识到的。

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβ

k=1,,min(N,p)kk

这种变量选择过程的危险在于,许多标准分布结果在变量选择上有条件地无效。这适用于标准测试和置信区间,这是Harrell [2]警告的问题之一。Breiman还警告了有关基于例如Little Bootstrap ... Mallows进行模型选择的信息。锦葵的或AIC 不能解释模型的选择,它们会给出过于乐观的预测误差。CpCp

但是,交叉验证可用于估计预测误差和选择,变量选择可以在偏差和方差之间实现良好的平衡。如果具有一些较大的坐标,而其余坐标几乎都为零,则尤其如此如@probabilityislogic所述。kβ

诸如岭回归和套索之类的收缩方法可以在偏差和方差之间实现良好的折衷,而无需明确的变量选择。但是,正如OP所述,套索会进行隐式变量选择。并不是真正的模型,而是用于拟合模型的方法来进行变量选择。从这个角度来看,变量选择(隐式或显式)只是将模型拟合到数据的方法的一部分,应该这样考虑。

用于计算套索估计量的算法可受益于变量选择(或筛选)。在“ 稀疏的统计学习:套索和概论”的第5.10节中,它描述了如中所述实施筛选的glmnet有用性。这可以导致套索估计器的计算更快。

一个个人经验来自一个示例,在该示例中,变量选择可以使用所选变量拟合更复杂的模型(广义加性模型)。交叉验证的结果表明,该模型优于许多替代方案尽管不优于随机森林。如果gamsel存在将广义加性模型与变量选择集成在一起我可能也考虑过尝试一下。

编辑:自从我写了这个答案以来,有一篇关于我所想到的特定应用程序的论文。可提供用于再现论文结果的R代码。

总之我会说,变量选择(在一个形式或其他)是和将保持是有用的即使对于纯粹预测目的的一种方式控制偏置方差折衷。如果不是由于其他原因,那么至少是因为更复杂的模型可能无法立即处理非常大量的变量。但是,随着时间的流逝,我们自然会看到像gamsel这样的发展,它将变量选择集成到估计方法中。

当然,始终必须将变量选择作为估算方法的一部分。危险是要相信变量选择的表现就像是预言家,并且可以识别正确的变量集。如果我们相信这一点,并且就好像没有根据数据选择变量一样进行操作,那么我们就有犯错误的风险。


1
我不清楚变量选择如何使其适合更复杂的模型。使用变量选择时,您仍在估计相同数量的参数。您只是估计其中一些为零。选择变量后拟合的条件模型的稳定性可能是一个海市rage楼。
弗兰克·哈雷尔

1
@Harrell,在特定示例中,使用套索结合模型中的所有变量均线性输入的稳定性选择来进行变量选择。然后使用选定的变量对游戏进行拟合。我完全同意,变量选择只是将某些参数估计为零,并且该应用程序通过两步过程在gam模型中做到了这一点。我敢肯定,gamsel提供了一种更系统的方法。我的观点是,没有这种方法,变量选择可能是有用的捷径。
NRH

1
使用非惩罚方法来重新拟合在较早的惩罚阶段中选择的变量是不合适的。这将大有偏见。而且,无罚变量选择不是一个好的捷径。
弗兰克·哈雷尔

1
稳定性选择比使用套索选择变量并在不受到惩罚的情况下重新拟合更为保守。从预测的角度来看(以交叉验证的方式衡量),后者确实效果不佳。当我在一个具体案例中通过交叉验证发现变量选择+ gam比ridge或套索估计器具有更好的预测性能时,那么这就是我对该程序是否良好的衡量。
NRH

1
请定义“稳定性选择”。而且无需惩罚即可进行重新拟合是保守的。
弗兰克·哈雷尔

4

请允许我对以下语句发表评论:“ ...将k个参数拟合为n <k个观测值只是不会发生。”

在化学计量学中,我们通常对预测模型感兴趣,并且经常遇到k >> n的情况(例如,在光谱数据中)。通常可以通过在回归(例如主成分回归)之前将观测值投影到较低维度的子空间a(其中a <n)来简单地解决此问题。使用偏最小二乘回归可以同时进行投影和回归,从而有利于预测质量。所提及的方法例如通过奇异值分解来找到(奇异)协方差或相关矩阵的最优伪逆。

经验表明,去除噪声变量后,多变量模型的预测性能会提高。因此,即使我们以一种有意义的方式能够估计仅具有n个方程式(n <k)的k个参数,我们也会努力建立简约模型。为了这个目的,变量选择变得重要,并且许多化学计量学文献致力于该主题。

尽管预测是一个重要的目标,但同时投影方法还提供了对数据模式和变量相关性等有价值的见解。这主要是通过不同的模型图来实现的,例如得分,载荷,残差等。

化学计量技术被广泛使用,例如在可靠可靠的预测真正重要的行业中。


3

是的,在几种众所周知的情况下,不需要选择变量。正是由于这个原因,深度学习变得有点夸张。

例如,当卷积的神经网络(http://cs231n.github.io/convolutional-networks/)试图预测居中的图像是否包含人脸时,图像的四角往往具有最小的预测值。传统的建模和变量选择将使建模者删除角点像素作为预测变量。然而,卷积神经网络足够智能,可以自动丢弃这些预测变量。对于大多数深度学习模型而言,这都是正确的,这些模型试图预测图像中某些对象的存在(例如,自驾车“预测”车道标记,障碍物或车载流视频帧中的其他车)。

对于许多传统问题(例如,数据集较小或领域知识丰富的地方),深度学习可能会显得过于矫kill过正,因此,至少在某些领域,传统的变量选择可能会长期保持相关性。尽管如此,当您想以最少的人工干预将“相当好的”解决方案组合在一起时,深度学习还是很棒的。手工制作和选择预测变量来识别图像中的手写数字可能要花费我很多时间,但是借助复杂的神经网络和零变量选择,我可以在不到20分钟的时间内使用Google的TensorFlow获得最先进的模型(https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html)。


3
我非常喜欢DL的这种观点。在《计算机视觉》中,您遇到的数据矩阵是扁平的2D图像,其中特定列的含义取决于观察结果。例如,像素147在27号图像中可能是猫的脸,但是在42号图像中却是背景墙。因此,我们知道的特征选择会严重失败。这就是ConvNet之所以如此强大的原因,因为它具有内置的平移/旋转不变性。
horaceT '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.