Questions tagged «model-selection»

模型选择是判断某个集合中哪个模型效果最好的问题。流行的方法包括,AIC和BIC标准,测试集和交叉验证。在某种程度上,特征选择是模型选择的一个子问题。 R2

1
对数链接的Gamma GLM与对数链接的高斯GLM与对数转换的LM
从我的结果来看,GLM Gamma似乎可以满足大多数假设,但这是否是对数转换后的LM值得的改进?我发现的大多数文献都涉及泊松或二项式GLM。我发现使用随机化对广义线性模型假设进行评估非常有用,但是缺少用于做出决策的实际图。希望有经验的人可以为我指明正确的方向。 我想对响应变量T的分布进行建模,其分布如下图所示。如您所见,这是正偏度: 。 我要考虑两个类别因素:METH和CASEPART。 请注意,该研究主要是探索性的,本质上是在对模型进行理论化并围绕模型进行DoE之前作为试点研究。 我在R中具有以下模型及其诊断图: LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat) GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log')) GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log')) 我还通过Shapiro-Wilks残差检验获得了以下P值: LM.LOG: 2.347e-11 GLM.GAMMA: 0.6288 GLM.GAUS: 0.6288 我计算了AIC和BIC值,但是如果我是正确的话,由于GLM / LM中的族不同,它们并不能告诉我太多。 另外,我注意到了极端值,但是由于没有明确的“特殊原因”,因此无法将它们分类为异常值。

1
只要模型基于相同的数据集,您可以比较AIC值吗?
我正在使用Rob Hyndman的预测包在R中进行一些预测。属于包装的纸张可以在这里找到。 在解释了自动预测算法后,作者在相同的数据集上实现了这些算法。但是,在估计了指数平滑和ARIMA模型后,他们做出了我不理解的声明(第17页): 请注意,信息标准不可比较。 我认为使用AIC进行模型选择的优势在于,只要使用相同数据集对AIC值进行估算,我们就可以比较它们。这不正确吗? 因为我计划使用所谓的Akaike权重来组合来自不同模型类(例如指数平滑和ARIMA)的预测(请参阅Burnham和Anderson,2002,有关Akaike权重的讨论),这对我来说尤其有意义。 参考文献 Burnham,KP和Anderson,DR(2002)。模型选择和多模型推理:一种实用的信息理论方法。施普林格出版社。

1
相互作用项和高阶多项式
如果我有兴趣拟合线性解释变量和与因变量具有二次关系的另一个解释变量之间的双向相互作用,我是否必须同时包括与二次分量的相互作用和与线性变量的相互作用模型中的组件?例如: 反过来在我之前的线程上构建: 曲率项和模型选择,如果这是在R中使用的模型选择分析,其中包含许多解释变量,则输出的模型包含交互项,其中包括二次项aaabbbyyyy∼a+b+b2+ab+ab2y∼a+b+b2+ab+ab2 y\sim a+b+b^2+ab+ab^2 MuMIna:b2a:b2a:b^2仅当在同一模型中还存在与线性成分的相互作用项以及,和作为直接效应时才有效吗?a:ba:ba:baaabbbb2b2b^2


1
变量选择与模型选择
因此,我知道变量选择是模型选择的一部分。但是,模型选择究竟由什么组成?它不只是以下内容: 1)为您的模型选择一个分布 2)选择解释变量 我之所以这么问,是因为我正在阅读伯纳姆和安德森的文章:AIC与BIC,他们在模型选择中谈论AIC和BIC。阅读本文后,我意识到我一直在将“模型选择”视为“变量选择”(参考注释BIC是否试图找到一个真正的模型?) 从文章摘录中,他们讨论了“通用性”程度不断提高的12个模型,当针对12个模型绘制KL-Information时,这些模型显示出“渐缩效应”(图1): 不同的哲学和目标模型 ...尽管BIC的目标比AIC的目标模型更通用,但是BIC在这里最常选择的模型将不如Model 7通用,除非n非常大。它可能是模型5或模型6。众所周知(从大量的论文和模拟文献中),在渐缩效应的情况下(图1),AIC的性能优于BIC。如果这是真实数据分析的上下文,则应使用AIC。 如何BIC 曾经选择一个模型,模型选择我不明白,比AIC更复杂!什么是“模型选择”?什么时候BIC选择比AIC更“通用”的模型? 如果我们谈论的是变量选择,那么BIC必须确保始终选择变量数量最少的模型,对吗?BIC中的项总是比AIC中的项对附加变量的惩罚更多。但是,当“ BIC的目标是比AIC的目标模型更通用的模型 ”时,这是否合理?2ln(N)k2ln(N)k2ln(N)k2k2k2k 编辑: 从“意见”中评论的讨论中,是否有理由比其他更喜欢AIC或BIC?我们在评论中看到了@Michael Chernick和@ user13273之间的一小段讨论,这使我相信这并不是一件小事: 我认为将这种讨论称为“特征”选择或“协变量”选择更为合适。对我而言,模型选择范围更广,涉及到误差分布的规范,链接函数的形式以及协变量的形式。当我们谈论AIC / BIC时,通常会处于模型构建的所有方面都是固定的情况,除了协变量的选择。– user13273 2012年8月13日在21:17 确定要包含在模型中的特定协变量通常是用模型选择一词来完成的,书名中有许多带有模型选择的书主要决定了模型中应包含哪些模型协变量/参数。–迈克尔·切尔尼克(Michael Chernick)2012年8月24日14:44

1
我何时应该担心贝叶斯模型选择中的Jeffreys-Lindley悖论?
我正在考虑使用RJMCMC探索各种复杂性的大型(但有限)模型。每个模型的参数向量的先验是非常有用的。 在哪种情况下(如果有),当更复杂的模型之一更适合时,我应该担心Jeffreys-Lindley悖论偏爱更简单的模型吗? 有没有简单的例子可以突出贝叶斯模型选择中的悖论问题? 我已经读了几篇文章,分别是西安的博客和安德鲁·盖尔曼的博客,但是我仍然不太了解这个问题。


3
贝叶斯vs MLE,过度拟合问题
他在Bishop的PRML书中说,过度拟合是最大似然估计(MLE)的问题,贝叶斯可以避免这种情况。 但是我认为,过度拟合问题更多地与模型选择有关,而不是与用于参数估计的方法有关。也就是说,假设我有一个数据集,它是通过,现在我可以选择不同的模型来拟合数据并找出哪一个是最好的。所考虑的模型是具有不同阶数的多项式,是阶数1,是阶数2,是阶数9。DDDf(x)=sin(x),x∈[0,1]f(x)=sin(x),x∈[0,1]f(x)=sin(x),\;x\in[0,1]HiHiH_iH1H1H_1H2H2H_2H3H3H_3 现在,我尝试以适应数据与各3款,每个模型都有其paramters,表示为的。DDDwiwiw_iHiHiH_i 使用ML,我将获得模型参数的点估计,并且太简单了,总是会拟合数据,而太复杂了,会拟合数据,只有会很好地拟合数据。wwwH1H1H_1H3H3H_3H2H2H_2 我的问题是 1)模型将使数据过拟合,但我认为这不是ML的问题,而是模型本身的问题。因为将ML用于不会导致过拟合。我对吗?H3H3H_3H1,H2H1,H2H_1,H_2 2)与贝叶斯算法相比,机器学习确实有一些缺点,因为它仅给出模型参数的点估计,并且过于自信。贝叶斯不仅仅依赖于参数的最可能值,而且还依赖于给定观测数据所有可能参数值,对吗?wwwDDD 3)为什么贝叶斯可以避免或减少过度拟合?据我了解,我们可以使用贝叶斯模型进行模型比较,也就是说,给定数据,我们可以找出所考虑的每种模型的边际可能性(或模型证据),然后选择边际可能性最高的模型(对) ?如果是这样,那为什么呢?DDD

1
非嵌套模型的AIC:归一化常数
AIC定义为,其中是最大似然估计量,是参数空间的维数。对于的估计,通常会忽略密度的常数因子。这就是不依赖参数的因素,以简化可能性。另一方面,该因素对于AIC的计算非常重要,因为在比较非嵌套模型时,该因素并不常见,如果不考虑,则相应AIC的顺序可能会有所不同。θ p θAIC=−2log(L(θ^))+2pAIC=−2log⁡(L(θ^))+2pAIC=-2 \log(L(\hat\theta))+2pθ^θ^\hat\thetapppθθ\theta 我的问题是,比较非嵌套模型时,是否需要计算包括所有密度项的?log(L(θ^))log⁡(L(θ^))\log(L(\hat\theta))

4
使用AIC(或BIC)选择PCA模型
我想使用Akaike信息准则(AIC)选择要在PCA中提取的适当数量的因子。唯一的问题是我不确定如何确定参数数量。 考虑一个矩阵,其中代表变量数,代表观察数,这样。由于协方差矩阵是对称的,因此的最大似然估计可以将AIC中的参数数量设置为。X Ñ Ť X 〜Ñ (0 ,Σ ) Σ Ñ (Ñ + 1 )Ť× NT×NT\times NXXXñNNŤTTX〜ñ(0 ,Σ )X∼N(0,Σ)X\sim \mathcal N\left(0,\Sigma\right)ΣΣ\Sigmañ(N+ 1 )2N(N+1)2\frac{N\left(N+1\right)}{2} 可选地,在PCA,可以提取第一特征向量和特征值,叫他们和,然后计算 ,其中是平均残差。据我统计,如果你有因素,那么你会在参数,在参数,和参数。Σ β ˚F Λ ˚F Σ = β ˚F Λ ˚F β ' ˚F + 我σ 2 - [R σ 2 - [R ˚F ˚F Λ …

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
如何使用主成分分析选择变量进行回归?
我目前正在使用主成分分析来选择要在建模中使用的变量。目前,我在实验中进行了A,B和C测量-我真正想知道的是:我可以减少测量并停止记录C和/或B以节省时间和精力吗? 我发现所有这三个变量都在我的第一个主成分上加重了,这占我数据差异的60%。组件得分告诉我,如果我将这些变量按一定比率(aA + bB + cC)加在一起。我可以在数据集中为每种情况在PC1上获得一个分数,并且可以将此分数用作建模中的变量,但这不能让我停止测量B和C。 如果我对PC1上的A,B和C的负载求平方,我发现变量A占PC1方差的65%,变量B占PC1方差的50%,变量C也占50%,即有些每个变量A,B和C所占PC1方差的一个变量与另一个变量共享,但是A占更大的比例。 认为我可以选择变量A或在模型中使用变量(可能是aA + bB)是错误的,因为该变量描述了PC1中很大一部分的方差,而这又描述了PC1中很大一部分的方差。数据? 您过去采用哪种方法? 即使有其他重型装载机,单个变量在PC1上的负载也最重? 使用所有变量在PC1上的组件得分,即使它们都是重型装载机?

1
非嵌套模型的测试等效性
假设是和虚拟d的线性函数。我的假设是d本身就像其他变量Z的向量的享乐主义索引。我有一个这种支持MANOVA的ž(即Z_1,Z_2,...,z_n)上d。有什么方法可以测试这两个模型的等效性:yyyxxxddddddZZZMANOVAMANOVAMANOVAZZZz1z1z_1z2z2z_2znznz_nddd 模型1:y=b0+b1⋅x+b2⋅d+e1y=b0+b1⋅x+b2⋅d+e1y = b_0 + b_1 \cdot x + b_2\cdot d + e_1 模型2:y=g0+Z⋅G+e2y=g0+Z⋅G+e2y = g_0 + Z\cdot G + e_2 其中GGG是参数的列向量。

2
模型选择或正则化后的GLM
我想分两个部分提出这个问题。两者都处理广义线性模型,但是前者处理模型选择,而其他则处理正则化。 背景:我利用GLM(线性,逻辑,伽马回归)模型进行预测和描述。当我提到“ 正常情况下,人们会做回归 ”时,我主要是指这样的描述:(i)系数周围的置信区间,(ii)预测周围的置信区间和(iii)与系数线性组合有关的假设检验,例如“是治疗A和治疗B有什么区别?”。 您是否在以下每种情况下使用正常理论合理地丧失了做这些事情的能力?如果是这样,这些事情真的只对用于纯预测的模型有用吗? I.当通过某种模型选择过程拟合了GLM时(具体来说,它是基于AIC的逐步过程)。 二。通过正则化方法拟合GLM时(例如在R中使用glmnet)。 我的感觉是,对我来说,答案是技术上来说,您应该对“ 使用回归进行的正常操作 ”使用引导程序,但是没有人真正遵守。 添加: 在收到一些答复并在其他地方阅读后,这是我的看法(对其他人有益并能得到纠正)。 I. A)RE:错误概括。为了概括新数据的错误率,在没有保留集的情况下,可以进行交叉验证,但是您需要为每个折叠完全重复该过程-使用嵌套循环-因此必须进行任何功能选择,参数调整等。每次独立完成。这个想法应该适用于任何建模工作(包括惩罚方法)。 B)RE:假设检验和GLM的置信区间。当对广义线性模型使用模型选择(特征选择,参数调整,变量选择)并且存在保留集时,可以在分区上训练模型,然后将模型拟合到其余数据或完整数据集上并使用该模型/数据执行假设检验等。如果不存在保留集,则可以使用引导程序,只要对每个引导程序样本重复完整的过程即可。但这限制了可以进行的假设检验,因为例如可能不一定总是选择一个变量。 C)RE:不对未来数据集进行预测,然后在理论和一些假设检验的指导下,建立一个有目的的模型,甚至考虑在模型中保留所有变量(无论是否有意义)(沿Hosmer和Lemeshow的思路)。这是回归模型的小变量集经典类型,然后允许使用CI和假设检验。 D)RE:惩罚回归。没有建议,也许认为这仅适合于预测(或作为特征选择的一种,然后应用于上述B中的另一数据集),因为引入的偏差使CI和假设检验变得不明智-即使使用自举。

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.