Questions tagged «model-selection»

模型选择是判断某个集合中哪个模型效果最好的问题。流行的方法包括,AIC和BIC标准,测试集和交叉验证。在某种程度上,特征选择是模型选择的一个子问题。 R2



3
如何知道您的机器学习问题是没有希望的?
想象一下标准的机器学习场景: 您面临着庞大的多元数据集,并且您对它的理解很模糊。您需要做的是根据所拥有的东西对一些变量进行预测。像往常一样,您清理数据,查看描述性统计信息,运行某些模型,对其进行交叉验证等,但是经过几次尝试,来回尝试多个模型后,似乎没有任何效果,而且您​​的结果很可悲。您可能会花费数小时,数天或数周的时间解决此类问题... 问题是:何时停止?您怎么知道您的数据实际上是绝望的,所有花哨的模型对预测所有案例或其他琐碎解决方案的平均结果都不会带来什么好处? 当然,这是一个可预测性问题,但是据我所知,在尝试对多变量数据进行评估之前很难评估它。还是我错了? 免责声明:这个问题是受这个问题启发的。 我什么时候停止寻找模特儿了?并没有引起太多关注。对此问题有详细的答案以供参考是很好的。

8
自动模型选择算法
我想实现一种用于自动模型选择的算法。我正在考虑进行逐步回归,但是任何事情都会做(尽管它必须基于线性回归)。 我的问题是我找不到方法论或开源实现(我正在用Java唤醒)。我想到的方法如下: 计算所有因素的相关矩阵 选择彼此之间相关性较低的因素 删除t统计量较低的因素 添加其他因素(仍基于2中找到的低相关因素)。 重复几次,直到某个条件(例如AIC)超过某个阈值或无法达到或无法找到更大的值。 我意识到有一个R实现(stepAIC),但是我发现代码很难理解。另外,我还没有找到描述逐步回归的文章。

6
k折交叉验证后如何选择预测模型?
我想知道在进行K折交叉验证后如何选择预测模型。 这句话可能有些尴尬,所以让我更详细地解释一下:每当我进行K折交叉验证时,我都会使用K个训练数据子集,最后得到K个不同的模型。 我想知道如何选择K个模型中的一个,以便可以将其呈现给某人并说“这是我们可以生产的最好的模型”。 可以选择K个型号中的任何一个吗?还是涉及某种最佳实践,例如选择实现中位数测试误差的模型?

5
在交叉验证后使用完整数据集进行训练?
在交叉验证后训练整个数据集总是一个好主意吗?换一种说法,它是确定与培训所有在我的数据集的样本,不能够检查这个特定的装置overfits? 问题的一些背景: 假设我有一个由→ α参数化的模型系列。还说我有一组N个数据点,并且我通过k倍交叉验证进行模型选择,以选择最能概括数据的模型。α⃗ α→\vec\alphaNNN 对于模型选择,我可以例如通过对每个候选者进行k倍交叉验证来在上进行搜索(例如,网格搜索)。在每个交叉验证的褶皱的,我结束了学习的模型β α。α⃗ α→\vec\alpha βαβα\beta_\alpha 交叉验证的重点是,对于每个折叠,我都可以通过在“看不见的数据”上进行测试来检查学习的模型是否过拟合。根据结果,我可以选择的型号的参数了解到→交通α最好的网格中的搜索交叉验证过程中广义最好的。βbestβbest\beta_\text{best}α⃗ bestα→best\vec\alpha_\text{best} NNNα⃗ bestα→best\vec\alpha_{best}βfullβfull\beta_{full} βfullβfull\beta_{full} 在任何看不见的数据上。解决此问题的正确方法是什么?

2
我们对“野外” p黑客了解多少?
短语“ p- hacking”(也称为“数据挖掘”,“监听”或“钓鱼”)是指各种统计不良行为,其结果在人工上具有统计学意义。有许多方法可以取得“更重要的”结果,包括但绝不限于: 仅分析发现模式的数据的“有趣”子集; 未针对多项测试进行适当调整,尤其是事后测试,并且未报告所进行的无关紧要的测试; 尝试对同一假设进行不同的检验,例如参数检验和非参数检验(此线程对此进行了一些讨论),但仅报告了最重要的检验; 试验数据点的包含/排除,直到获得所需的结果。一个机会来自“数据清理异常值”,但也适用于模棱两可的定义(例如在对“发达国家”的计量经济学研究中,不同的定义产生了不同的国家集)或定性的纳入标准(例如在荟萃分析中) ,某个特定研究的方法是否足够健壮到可以包括在内可能是一个很好的平衡论点); 前面的示例与可选停止有关,即,分析数据集并根据到目前为止收集的数据来决定是否收集更多数据(“这几乎是重要的,让我们再测量三名学生!”),而无需对此进行考虑。在分析中; 模型拟合期间的实验,尤其是要包含的协变量,还涉及数据转换/功能形式。 因此,我们知道可以进行p- hacking。它经常被列为“ p值的危险”之一,并且在ASA报告中提到了具有统计意义的意义,在此处通过Cross Validated进行了讨论,因此我们也知道这是一件坏事。尽管有一些可疑的动机和(特别是在学术出版物竞争中)适得其反的动机,但我怀疑无论是故意的渎职行为还是简单的无知,都很难弄清楚这样做的原因。有人从逐步回归中报告p值(因为他们发现逐步过程“产生了良好的模型”,但没有意识到所谓的p-values无效)位于后一个阵营中,但在上面我最后一个要点下,效果仍然是p -hacking。 当然,有证据表明p- hacking已经“存在”,例如Head等人(2015年)正在寻找能够感染科学文献的明显迹象,但是我们目前的证据基础是什么?我知道,Head等人采取的方法并非没有争议,因此,当前的文学状态或学术界的一般思维将很有趣。例如,我们是否有以下想法: 它的流行程度如何,以及在多大程度上可以将它的出现与出版偏见区分开来?(这种区别甚至有意义吗?) 在边界处,效果是否特别严重?例如,是否在处看到了类似的效果,还是我们看到p值的整个范围都受到影响?p ≈ 0.01p ≈ 0.05p≈0.05p \approx 0.05p ≈ 0.01p≈0.01p \approx 0.01 p- hacking的模式在各个学术领域是否有所不同? 我们是否知道p- hacking的哪种机制最常见(上面的要点中列出了其中的一些机制)?是否已证明某些形式比“其他形式”更难发现? 参考文献 负责人ML,Holman,L.,Lanfear,R.,Kahn,AT,&Jennions,MD(2015)。p- hacking在科学领域的范围和后果。PLoS Biol,13(3),e1002106。

3
嵌套交叉验证,用于模型选择
如何使用嵌套交叉验证进行模型选择? 根据我在网上阅读的内容,嵌套的简历的工作方式如下: 在内部CV循环中,我们可以进行网格搜索(例如,对每种可用模型进行K折运算,例如,超参数/功能的组合) 在外部CV循环中,我们在一个单独的外部折叠中测量在内部折叠中获胜的模型的性能。 在此过程结束时,我们得到模型(是外部循环中的折叠数)。这些模型是在内部CV的网格搜索中获胜的模型,并且它们可能是不同的(例如,具有不同内核的SVM,根据网格搜索而训练有可能具有不同的功能)。KKKKKK 如何从此输出中选择模型?在我看来,从这获胜的模型中选择最佳模型并不是一个公平的比较,因为每个模型都是在数据集的不同部分进行训练和测试的。KKK 那么如何使用嵌套的简历进行模型选择呢? 我也阅读了一些有关讨论嵌套模型选择对分析学习过程如何有用的话题。我从外部K折中得到的分数可以进行哪些类型的分析/检查?

14
为什么没有可靠(和可靠)的统计数据代替经典技术?
当使用数据解决业务问题时,通常至少有一个关键的假设支撑经典统计数据是无效的。在大多数情况下,没有人会去检查那些假设,所以您永远不会真正知道。 例如,到目前为止,有如此多的常见Web指标是“长尾的”(相对于正态分布),有据可查,因此我们将其视为理所当然。另一个例子是在线社区,即使在拥有成千上万成员的社区中,也有据可查的是,到目前为止,在许多此类社区中,对贡献/参与的最大贡献是由微不足道的“超级贡献者”群体造成的。(例如,几个月前,SO API在Beta中可用后,StackOverflow成员发布了他通过API收集的数据的简要分析;他的结论- 不到百分之一的SO成员占了大部分SO上的活动 (大概是提问,然后回答),剩下的1-2%占了绝大多数,绝大多数成员无所事事。 这类分布(通常是规则而不是例外)通常最好用幂律密度函数建模。对于这些类型的分布,甚至中心极限定理也难以应用。 因此,鉴于分析师对此感兴趣的人口众多,并且鉴于经典模型在这些数据上的表现明显较差,并且鉴于健壮且可靠的方法已经存在了一段时间(我相信至少有20年),为什么他们不经常使用吗?(我也想知道为什么我不经常使用它们,但这对CrossValidated来说并不是真正的问题。) 是的,我知道有些教科书章节专门介绍了可靠的统计信息,并且我知道有(一些)R程序包(robustbase是我熟悉和使用的R程序包),等等。 然而,鉴于这些技术的明显优势,它们通常显然是工作的更好工具- 为什么它们使用得不多?我们难道不希望看到与经典类似物相比,更可靠(更可靠)的统计数据使用得更多(也许甚至是推定)吗? 我听到的唯一实质性(即技术性)解释是,健壮的技术(同样适用于抗性方法)缺乏经典技术的功能/敏感性。我不知道在某些情况下是否确实如此,但是我确实在很多情况下都不是正确的。 最后的优先权:是的,我知道这个问题没有一个可以证明的正确答案;本网站上的问题很少。而且,这个问题是真正的询问。这不是提出观点的借口-我在这里没有观点,只是我希望为其提供一些有见地答案的问题。


6
2016年确实需要进行预测模型的变量选择吗?
几年前已经在简历上提出了这个问题,鉴于1)更好的计算技术(例如并行计算,HPC等)和2)更新的技术(例如[3]),似乎值得重新提出。 首先,一些背景。让我们假设目标不是假设检验,不是效果估计,而是对未见检验集的预测。因此,没有赋予任何可解释的利益以重量。其次,假设您不能排除任何预测因素在主题考虑方面的相关性,即 它们看起来单独或与其他预测变量组合似乎都合理。第三,您要面对数以百万计的预测变量。第四,假设您可以无限制地访问AWS,因此计算能力不受限制。 变量选择的常见原因是:1)效率;更快地适合较小的模型,便宜地收集较少的预测变量,2)解释;知道“重要”变量可以深入了解基本过程[1]。 众所周知,许多变量选择方法无效,而且常常是完全危险的(例如,逐步回归)[2]。 其次,如果选择的模型不错,那么根本不需要缩减预测变量的列表。该模型应该为您完成。套索就是一个很好的例子,它为所有不相关的变量分配了零系数。 我知道有些人主张使用“大象”模型,即。将所有可能的预测变量投入拟合并运行[2]。 如果目标是预测准确性,是否有任何根本原因进行变量选择? [1] Reunanen,J.(2003)。在变量选择方法之间进行比较时过度拟合。机器学习研究杂志,3,1371-1382。 [2] Harrell,F.(2015)。回归建模策略:应用于线性模型,逻辑和序数回归以及生存分析。施普林格。 [3] Taylor,J.和Tibshirani,RJ(2015)。统计学习和选择性推理。美国国家科学院院刊,112(25),7629-7634。 [4] Zhou,J.,Foster,D.,Stine,R。和Ungar,L。(2005年8月)。使用Alpha投资进行流特征选择。在第十一届ACM SIGKDD国际会议上,进行数据挖掘中的知识发现(第384-393页)。ACM。

2
为什么只有三个分区?(培训,验证,测试)
当您尝试将模型适合大型数据集时,通常的建议是将数据分为三个部分:训练,验证和测试数据集。 这是因为模型通常具有三个“级别”的参数:第一个“参数”是模型类(例如SVM,神经网络,随机森林),第二个参数集是“正则化”参数或“超参数”(例如套索罚分系数,核的选择,神经网络结构)和第三组通常被认为是“参数”(例如协变量的系数)。 给定一个模型类和一组超参数,就可以通过选择使训练集上的误差最小的参数来选择参数。给定一个模型类,可以通过最小化验证集上的误差来调整超参数。一个人根据测试集的性能选择模型类别。 但是为什么不增加分区呢?通常,一个人可以将超参数分为两组,并使用“验证1”适合第一个,使用“验证2”适合第二个。或者甚至可以将训练数据/验证数据分割的大小视为要调整的超参数。 在某些应用程序中这已经是普遍的做法吗?关于数据的最佳分区,是否有任何理论上的工作?

2
关于变量选择的更明确的讨论
背景 我正在从事医学临床研究,并参加了一些统计学课程。我从未发表过使用线性/逻辑回归的论文,而是想正确地进行变量选择。可解释性很重要,因此没有花哨的机器学习技术。我总结了我对变量选择的理解-有人介意消除任何误解吗?我发现有两(1)个与此(2 )类似的简历,但他们并未完全回答我的担忧。任何想法将不胜感激!最后我有3个主要问题。 问题与讨论 我的典型回归/分类问题有200-300个观察值,不良事件发生率为15%(如果分类),以及40个变量中的25个的信息,这些变量在文献中被认为具有“统计学上的显着”效果或具有说服力。领域知识。 我用引号表示“具有统计意义”,因为似乎每个人及其母亲都使用逐步回归,但是出于许多充分的理由,Harrell(3)和Flom(4)似乎并不喜欢它。Gelman博客文章讨论进一步支持了这一点(5)。似乎唯一可以接受的实时步骤是真正的探索性分析,或者是对预测感兴趣并且涉及交叉验证方案。尤其是由于许多医学上的合并症都存在共线性,而研究的样本量却很小,所以我的理解是,文献中会出现很多假阳性。这也使我不太可能相信文献中可能包含的变量。 另一种流行的方法是使用预测变量和自变量之间的一系列单变量回归/关联作为起点。低于特定阈值(例如,p <0.2)。由于本StackExchange帖子(6)中概述的原因,这似乎不正确或至少具有误导性。 最后,一种在机器学习中流行的自动化方法是使用惩罚,例如L1(Lasso),L2(Ridge)或L1 + L2组合(Elastic Net)。我的理解是,它们没有像OLS或逻辑回归那样简单的解释。 Gelman + Hill提出以下建议: 在统计课程中,我还记得使用F检验或“偏差分析”来比较完整模型和嵌套模型,以逐个变量地进行模型/变量选择。这似乎是合理的,但系统地拟合顺序嵌套模型以查找导致每df偏差最大下降的变量似乎很容易实现自动化(因此我有点担心),而且似乎还遇到了以下问题:您测试变量包含。我的理解是,还应该通过研究多重共线性和残差图(残差图与预测图)来补充这一点。 问题: 盖尔曼摘要是要走的路吗?您会在他的拟议策略中增加或改变什么? 除了纯粹考虑潜在的交互作用和转换(似乎很容易产生偏见/错误/遗漏)之外,还有另一种方法来发现潜在的交互作用和转变吗?向我推荐了多变量自适应回归样条(MARS),但我得知非线性/变换在标准回归模型中不会转化为相同的变量。 假设我的目标非常简单:说:“我想估计X1与Y的关联,仅考虑X2”。简单地使Y〜X1 + X2回归,报告结果,而不参考实际的预测能力是否足够(可以通过交叉验证RMSE或准确性度量来测量)是否足够?是否会根据事件发生率或样本大小或R ^ 2是否过低而改变(我知道R ^ 2不好,因为您总是可以通过过度拟合来增加它)?通常,我对推理/可解释性比优化预测能力更感兴趣。 结论示例: “控制X2,相对于X1的参考水平,X1与Y在统计上没有显着相关。” (逻辑回归系数) “ X1并不是Y的统计显着预测因子,因为在模型中相对于df的变化,偏差的下降还不够。” (偏差分析) 是否总是需要交叉验证?在这种情况下,可能还需要通过SMOTE,采样等对类进行某种平衡。

3
AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC —是否可以互换使用?
在第 他的PRNN的第 34页Brian Ripley评论说:“ AIC被Akaike(1974)命名为“信息准则”,尽管似乎通常认为A代表Akaike。实际上,在介绍AIC统计信息时,Akaike(1974,p.719)解释说: "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". 将此报价视为1974年的预测,有趣的是,在短短的四年中,Akaike(1977,1978)和Schwarz(1978)提出了两种类型的BIC统计量(贝叶斯统计量)。Spiegelhalter等人。(2002)提出DIC(Deviance IC)的时间更长。尽管Akaike(1974)并没有预测CIC标准的出现,但相信从未考虑过这一点是天真的。它是由Carlos C. Rodriguez在2005年提出的。(请注意,R。Tibshirani和K. Knight的CIC(协方差通胀标准)是另一回事。) 我知道EIC(经验IC)是Monash大学的人们在2003年左右提出的。我刚刚发现了聚焦信息标准(FIC)。有些书将Hannan和Quinn IC称为HIC,请参阅例如本)。我知道应该有GIC(通用IC),而且我刚刚发现了信息投资标准(IIC)。有NIC,TIC等。 我想我可能会覆盖其余的字母,所以我不问序列AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC,...的停靠点,或字母表中的哪些字母未被使用或至少被使用过两次(例如,EIC中的E可以表示扩展的或经验的)。我的问题更简单,希望对实际更有用。我是否可以互换使用这些统计信息,而忽略它们所依据的特定假设,它们应适用的特定情况等等? 这个问题部分是由Burnham&Anderson(2001)提出的,其动机是: ...the comparison of AIC and BIC model selection ought to be based on their performance properties such as …

3
具有对数转换响应的线性模型与带对数链接的广义线性模型
在这篇题为“适用于医学数据的广义线性模型之间的选择”的论文中,作者写道: 在广义线性模型中,均值是通过链接函数转换的,而不是转换响应本身的。两种转换方法可能导致完全不同的结果。例如, 对数转换后的响应的平均值与均值响应的对数不同。通常,前者不能轻易转化为平均反应。因此,转换均值通常可以更容易地解释结果,特别是在均值参数与测量响应保持相同范围的情况下。 他们似乎建议使用带有对数链接的广义线性模型(GLM)代替具有对数转换响应的线性模型(LM)。我不了解这种方法的优势,对我来说似乎很不寻常。 我的响应变量看起来呈对数正态分布。无论采用哪种方法,在系数及其标准误差方面,我都得到类似的结果。 不过我在想:如果一个变量具有对数正态分布,不是平均的对数变换变量最好在日志的平均未转换的变量,作为均值是正态分布的自然总结和日志-transformed变量是正态分布的,而变量本身不是吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.