Questions tagged «model-selection»

模型选择是判断某个集合中哪个模型效果最好的问题。流行的方法包括,AIC和BIC标准,测试集和交叉验证。在某种程度上,特征选择是模型选择的一个子问题。 R2

1
从模型中删除项后的适当剩余自由度
我正在反思有关该问题的讨论,尤其是弗兰克·哈雷尔(Frank Harrell)的评论,即简化模型(即已测试并拒绝了许多解释变量的模型)中的方差估计应使用Ye的广义自由度。哈雷尔教授指出,与最终模型(其中许多变量已被拒绝)相比,这将更接近原始“完全”模型(包含所有变量)的剩余自由度。 问题1。如果我想对简化模型中的所有标准摘要和统计数据使用适当的方法(但未全面实施广义自由度),一种合理的方法是仅使用来自以下模型的剩余自由度:我的剩余方差估算中的完整模型等? 问题2。如果上述情况是正确的,并且我想在中进行操作R,那么它可能像设置一样简单 finalModel$df.residual <- fullModel$df.residual 在模型拟合练习中的某个时刻,使用lm()或类似函数创建了finalModel和fullModel。之后,诸如summary()和confint()之类的函数似乎可以与所需的df.residual一起使用,尽管返回的错误消息表明有人显然已经对finalModel对象进行了修改。

3
AIC可以在不同类型的模型之间进行比较吗?
我正在使用AIC(Akaike的信息标准)来比较R中的非线性模型。比较不同类型的模型的AIC是否有效?具体来说,我正在比较glm拟合的模型与glmer(lme4)拟合的带有随机效应项的模型。 如果没有,有没有办法进行这种比较?还是这个想法完全无效?

4
使用CART时如何衡量/排列“可变重要性”?(特别是使用R中的{rpart})
当使用rpart(在R中)构建CART模型(特别是分类树)时,通常很有趣的一点是,了解引入模型的各种变量的重要性。 因此,我的问题是: 对于CART模型中的参与变量的排名/衡量变量重要性,存在哪些常用措施?以及如何使用R来计算(例如,使用rpart包时) 例如,下面是一些伪代码,它们是创建的,以便您可以在上面显示解决方案。此示例经过结构设计,很明显变量x1和x2是“重要的”,而(在某种意义上)x1比x2更重要(因为x1应该适用于更多情况,因此对数据结构的影响更大,然后x2)。 set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- rnorm(n) x5 <- rnorm(n) X <- data.frame(x1,x2,x3,x4,x5) y <- sample(letters[1:4], n, T) y <- ifelse(X[,2] < -1 , "b", y) y <- ifelse(X[,1] < 0 , "a", y) require(rpart) fit <- …

3
AIC模型比较的先决条件
要使AIC模型比较正常工作,必须满足哪些先决条件? 当我像这样进行比较时,我只是遇到了这个问题: > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 这样我就证明了log变量的转换usili。但是我不知道在例如因变量不同的情况下是否可以对模型进行AIC比较? 理想的答案应包括先决条件(数学假设)列表。

4
解决模型不确定性
我想知道在CrossValidated社区中的贝叶斯主义者如何看待模型不确定性问题,以及他们希望如何处理它?我将尝试分两个部分提出我的问题: (根据您的经验/观点)处理模型不确定性有多重要?我在机器学习社区中没有找到任何有关此问题的论文,所以我只是想知道为什么。 处理模型不确定性(奖励点,如果提供参考)的常用方法是什么?我听说过贝叶斯模型平均,但是我不熟悉这种方法的特定技术/局限性。还有哪些?为什么您偏爱另一个?

5
在混合模型中将因素视为随机因素有什么好处?
我出于某些原因而无法接受将模型因子标记为随机变量的好处。在我看来,似乎在几乎所有情况下,最佳解决方案都是将所有因素视为固定的。 首先,固定与随机的区别是任意的。标准解释是,如果一个人对特定的实验单位本身感兴趣,则应使用固定效应,而如果一个人对实验单位所代表的种群感兴趣,则应使用随机效应。这没有太大帮助,因为这意味着即使数据和实验设计保持相同,也可以在固定视图和随机视图之间进行切换。同样,此定义引起一种错觉,即如果将因子标记为随机,则从模型得出的推论比将因子标记为固定的情况更适用于总体。最后,盖尔曼(Gelman)表明,固定随机的区别令人困惑 甚至在定义级别,因为还有四个关于固定效应和随机效应的定义。 其次,混合模型的估计非常复杂。与“纯固定”模型相反,有多种方法可以获取p值,在R的lme4程序包中实现REML估计的贝茨教授甚至拒绝完全报告p值。 。 第三,存在一个模糊的问题,即随机因素会引入多少个隐式参数。以下示例是我对Burnham&Anderson,“ 模型选择”和“多模型推理:一种实用的信息理论方法”的改编。从偏差方差折衷的角度来看,随机效应的作用可以说明如下。考虑采用处理和主因子效应的单向方差分析,其中是可估计的。错误项具有分布。如果观察次数固定,则随着的增加,偏差方差折衷将恶化。假设我们说ķ ķ - 1 Ñ(0 ,σ 2)ķ ķKKKKKKK−1K−1K - 1N(0,σ2)N(0,σ2)\mathcal N(0, \sigma^2)KKKKKK主要效果来自分布。相应的模型将具有介于固定(过度拟合)版本和仅包含截距的欠拟合模型之间的复杂性。固定模型中有效参数的数量为N(0,σK)N(0,σK)\mathcal N(0, \sigma_K) 1intercept+(K−1)maineffects+1σ=K+1.1intercept+(K−1)maineffects+1σ=K+1.1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + 1 \:\:\sigma = K + 1. 随机模型中有效参数的数量至少为三个:。另外,随机模型具有许多“隐藏”参数,这些参数是对主要效果施加的分布(在这种情况下为正常)限制所隐含的。intercept,σ,σKintercept,σ,σK \mathrm{intercept}, \sigma, \sigma_K 尤其是,如果存在一个具有两个水平的因子,则将其称为随机是没有意义的,即使我们确定知道它的水平是从某些人群中随机抽样的也是如此。这是因为固定效果版本具有三个参数,而随机效果版本具有三个以上参数。在这种情况下,随机模型比固定版本具有更高的复杂性。显然,从固定版本到随机版本的切换更适合更大的KKK。但是,随机模型中“隐藏”参数的数量是未知的,因此无法根据信息标准(例如AIC)比较固定版本和随机版本。因此,尽管该示例阐明了随机效应的贡献(更好的偏差-方差权衡的可能性),但它也表明,很难说何时可以合理地将因子从固定重新标记为随机。 “完全固定”模型中没有上述问题。因此,我愿意问: 谁能提供一个示例,说明在使用随机因子(如固定因子)时发生了非常糟糕的事情吗?我认为应该进行一些模拟研究来明确解决该问题。 是否有行之有效的定量方法来决定何时从固定标签转换为随机标签?

4
您对这些分析技术是否有全球视野?
我目前正在一个项目上,就像我们所有人一样,我基本上需要了解输出与输入。这里的特殊性是一次将数据提供给我,因此我想在每次收到新的时更新分析。我相信这被称为“在线”处理,而不是“批处理”,在批处理中,您拥有所需的所有数据,并同时使用所有数据进行计算。x (y ,x )(y ,x )yyyxxx(y,x)(y,x)(y,x)(y,x)(y,x)(y,x) 因此,我四处寻找想法,最后得出的结论是,世界分为三个部分: 第一部分是统计和计量经济学领域。人们在那里进行OLS,GLS,仪器变量,ARIMA,测试,差异差异,PCA等。该焊盘主要由线性决定,并且仅进行“批处理”。 第二部分是机器学习和诸如人工智能,有监督和无监督学习,神经网络和SVM之类的词汇的孤岛。“批处理”和“在线”处理都在这里完成。 第三部分是我刚刚发现的整个大陆,似乎大部分由电气工程师组成。在那里,人们经常在他们的工具中添加“过滤器”一词,他们发明了很棒的东西,例如Widrow-Hoff算法,递归最小二乘,Wiener过滤器,Kalman过滤器,以及可能还没有发现的其他东西。显然,他们主要进行“在线”处理,因为它可以更好地满足他们的需求。 所以我的问题是,您是否对这一切抱有全球视野?我的印象是,世界上这三个部分彼此之间的交谈不多。我错了吗?有一个统一的大理论来理解与吗?您是否知道可以为该理论奠定基础的任何资源?XYYYXXX 我不确定这个问题是否真的有意义,但是在所有这些理论之间我有点迷茫。我想象对“我应该使用这个还是那个?”这个问题的答案。将是“这取决于您要做什么(以及您的数据)”。但是,我觉得这三个世界试图回答同一问题(?),因此应该有可能对这一切有更高的了解,并深刻理解每种技术的特殊性。y=f(x)y=f(x)y=f(x)

2
主题模型中的主题稳定性
我正在一个项目中,我要提取有关一系列开放式论文内容的信息。在这个特定的项目中,作为大型实验的一部分,有148人撰写了有关假设的学生组织的文章。尽管在我的领域(社会心理学),分析这些数据的典型方法是手工编写论文,但我想定量地进行此操作,因为手工编码既费工又过于主观味道。 在对定量分析免费响应数据的方法进行调查期间,我偶然发现了一种称为主题建模(或潜在Dirichlet分配或LDA)的方法。主题建模采用数据的单词袋表示(术语文档矩阵),并使用有关单词共现的信息来提取数据的潜在主题。这种方法对我的应用程序似乎很完美。 不幸的是,当我将主题建模应用于数据时,我发现了两个问题: 主题建模发现的主题有时很难解释 当我使用其他随机种子重新运行主题模型时,主题似乎发生了巨大变化 我特别关心第2期。因此,我有两个相关的问题: 在LDA程序中,我可以做些什么来优化我的模型拟合程序的可解释性和稳定性?就我个人而言,我不太关心寻找具有最低困惑度和/或最佳模型拟合度的模型-我主要是想使用此过程来帮助我理解和表征本研究参与者在论文中写的内容。但是,我当然不希望我的结果成为随机种子的假象! 与上述问题相关,LDA是否需要多少数据的标准?我见过的大多数使用这种方法的论文都分析了大型语料库(例如,过去20年中所有科学论文的档案),但是,由于我使用的是实验数据,因此我的文档语料库要小得多。 我在这里张贴了论文数据,以供任何想弄脏他或她的手的人使用,并且我在下面粘贴了我正在使用的R代码。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the LIWC function …

3
时间序列中的AIC与交叉验证:小样本案例
我对时间序列设置中的模型选择感兴趣。具体来说,假设我要从具有不同滞后顺序的ARMA模型池中选择一个ARMA模型。最终目的是预测。 型号选择可以通过 交叉验证, 使用信息标准(AIC,BIC), 在其他方法中。 Rob J. Hyndman提供了一种对时间序列进行交叉验证的方法。对于相对较小的样本,交叉验证中使用的样本大小可能与原始样本大小在质量上有所不同。例如,如果原始样本大小为200个观测值,则可以考虑通过获取前101个观测值并将窗口扩展到102、103,...,200个观测值来获得100个交叉验证结果,从而开始交叉验证。显然,对于200个观测值而言,合理地简约的模型对于100个观测值而言可能太大,因此其验证误差将很大。因此,交叉验证可能会系统地偏爱过于简约的模型。由于样本大小不匹配,这是不希望的效果。 交叉验证的替代方法是使用信息标准进行模型选择。由于我关心预测,因此我将使用AIC。尽管AIC渐近等效于最小化时间序列模型的样本外一步预测MSE(根据Rob J.Hyndman的帖子),但我怀疑这与样本有关在这里是否有意义我关心的尺寸不是很大... 问题:对于中/小样本,我应该在时间序列交叉验证中选择AIC吗? 一些相关的问题可以在这里,这里和这里找到。

2
为什么Wilks 1938年的证明不适用于错误指定的模型?
在1938年著名的论文中(“ 用于检验复合假设的似然比的大样本分布 ”,《数学统计年鉴》 9:60-62),塞缪尔·威尔克斯推导了(对数似然比)的渐近分布。对于嵌套假设,在正确指定了较大假设的前提下。极限分布为(卡方),具有自由度,其中是较大假设中的参数数,χ 2 ħ - 米ħ 米2 × L L R2×大号大号[R2 \times LLRχ2χ2\chi^2ħ - 米H-米h-mHHh米米m是嵌套假设中自由参数的数量。然而,众所周知,当假设被错误指定时(即,当较大的假设不是采样数据的真实分布时),该结果将不成立。 谁能解释为什么?在我看来,Wilks的证明应该仍然可以进行较小的修改。它依靠最大似然估计(MLE)的渐近正态性,但对于错误指定的模型仍然适用。唯一的不同是有限多元法线的协方差矩阵:对于正确指定的模型,我们可以使用反Fisher信息矩阵来近似协方差矩阵,而使用错误指定,可以使用协方差矩阵的三明治估计()。正确指定模型后,后者简化为Fisher信息矩阵的逆矩阵(因为 J − 1 K J − 1 J = KĴ− 1Ĵ-1个J^{-1}Ĵ− 1ķĴ− 1Ĵ-1个ķĴ-1个J^{-1} K J^{-1}Ĵ= KĴ=ķJ = K)。在AFAICT中,只要我们具有MLE的多元正态的可逆渐近协方差矩阵(Wilks论文中的),Wilks证明并不关心协方差矩阵的估计值从哪里来。 C− 1C-1个c^{-1}

1
在适当的评分规则中进行选择
有关正确评分规则的大多数资源都提到了许多不同的评分规则,例如对数损失,Brier评分或球形评分。但是,它们之间通常没有太多指导。(图表A:维基百科。) 选择使对数得分最大的模型对应于选择最大似然模型,这似乎是使用对数评分的一个很好的论据。对于Brier或球形评分或其他评分规则是否有类似的理由?为什么有人使用这些评分之一而不是对数评分?

3
处理大,小问题时的模型稳定性
介绍: 我有一个经典的“大p,小n问题”数据集。可用样本数n = 150,而可能的预测变量数p = 400。结果是一个连续变量。 我想找到最“重要”的描述符,即那些最能解释结果并帮助建立理论的描述符。 经过对该主题的研究,我发现LASSO和Elastic Net通常用于大p小n的情况。我的一些预测变量具有高度相关性,因此我想在重要性评估中保留它们的分组,因此,我选择使用Elastic Net。我想我可以使用回归系数的绝对值来衡量重要性(如果我错了,请纠正我;我的数据集是标准化的)。 问题: 由于样本数量少,如何获得稳定的模型? 我目前的方法是在90%的数据集上以10倍的交叉验证平均MSE分数在网格搜索中找到最佳调整参数(λ和alpha)。然后,我在整个数据集的90%上使用最佳调整参数训练模型。我可以在数据集的10%保留率(仅占15个样本)上使用R平方来评估我的模型。 反复运行此过程,我发现R平方评估存在很大差异。同样,非零预测变量的数量及其系数也会变化。 如何获得对预测变量重要性的更稳定评估以及对最终模型性能的更稳定评估? 我可以重复运行我的程序来创建多个模型,然后平均回归系数吗?还是应该使用模型中预测变量的出现次数作为其重要性得分? 目前,我得到40-50个非零预测变量。为了更好的稳定性,我应该更严厉地惩罚一些预测变量吗?

2
选择贝叶斯模型或交叉验证的最佳方法?
当尝试在各种模型或要包括的特征数量中进行选择时,比如说预测,我可以想到两种方法。 将数据分为训练集和测试集。更好的是,使用自举或k折交叉验证。每次都在训练集中进行训练,并计算测试集中的误差。绘制测试误差与参数数量的关系图。通常,您会得到以下内容: 通过对参数值进行积分来计算模型的可能性。即,计算,并将其与参数数量相对应。然后,我们得到如下内容:∫θP(D | θ )P(θ )dθ∫θP(d|θ)P(θ)dθ\int_\theta P(D|\theta)P(\theta)d \theta 所以我的问题是: 这些方法是否适合解决此问题(确定模型中要包含多少参数,或在多个模型中进行选择)? 它们相等吗?可能不会。他们会在某些假设下还是在实践中给出相同的最佳模型? 除了在贝叶斯模型等中指定先验知识的通常的哲学差异之外,每种方法的优缺点是什么?您会选择哪一个? 更新: 我还发现了有关比较AIC和BIC 的相关问题。看来我的方法1与AIC渐近等效,而方法2与BIC渐近相关。但我在那里也读到,BIC等同于“留一法”简历。这意味着在LOO CV等于K倍CV的情况下,训练误差最小值和贝叶斯似然最大值相等。邵军的一篇也许非常有趣的论文“ 线性模型选择的渐近理论 ”与这些问题有关。


3
AIC或p值:选择哪种模型进行选择?
我是这R产品的新手,但不确定要选择哪种型号。 我进行了逐步前向回归,根据最低AIC选择每个变量。我提出了3个不确定的模型,这些模型是“最好的”。 Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 我倾向于使用Model#3,因为它的AIC最低(我听过可以接受负值),并且p值仍然很低。 我已经运行了8个变量作为孵化质量的预测变量,发现这三个变量是最好的预测变量。 我的下一个前进方向是选择模型2,因为即使AIC稍大,p值也都较小。您是否同意这是最好的? Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.