Questions tagged «bic»

BIC是贝叶斯信息标准的缩写。BIC是模型比较的一种方法。另请参阅


3
AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC —是否可以互换使用?
在第 他的PRNN的第 34页Brian Ripley评论说:“ AIC被Akaike(1974)命名为“信息准则”,尽管似乎通常认为A代表Akaike。实际上,在介绍AIC统计信息时,Akaike(1974,p.719)解释说: "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". 将此报价视为1974年的预测,有趣的是,在短短的四年中,Akaike(1977,1978)和Schwarz(1978)提出了两种类型的BIC统计量(贝叶斯统计量)。Spiegelhalter等人。(2002)提出DIC(Deviance IC)的时间更长。尽管Akaike(1974)并没有预测CIC标准的出现,但相信从未考虑过这一点是天真的。它是由Carlos C. Rodriguez在2005年提出的。(请注意,R。Tibshirani和K. Knight的CIC(协方差通胀标准)是另一回事。) 我知道EIC(经验IC)是Monash大学的人们在2003年左右提出的。我刚刚发现了聚焦信息标准(FIC)。有些书将Hannan和Quinn IC称为HIC,请参阅例如本)。我知道应该有GIC(通用IC),而且我刚刚发现了信息投资标准(IIC)。有NIC,TIC等。 我想我可能会覆盖其余的字母,所以我不问序列AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC,...的停靠点,或字母表中的哪些字母未被使用或至少被使用过两次(例如,EIC中的E可以表示扩展的或经验的)。我的问题更简单,希望对实际更有用。我是否可以互换使用这些统计信息,而忽略它们所依据的特定假设,它们应适用的特定情况等等? 这个问题部分是由Burnham&Anderson(2001)提出的,其动机是: ...the comparison of AIC and BIC model selection ought to be based on their performance properties such as …

5
AIC选型指南
我通常使用BIC,因为我的理解是与AIC相比,它更重视简约。但是,我现在决定使用一种更全面的方法,并且也希望使用AIC。我知道Raftery(1995)为BIC差异提出了很好的指导原则:0-2弱,2-4是一个模型更好的积极证据,依此类推。 我在教科书上看过,它们在AIC上似乎很奇怪(看起来差异较大,AIC差异较小意味着一个模型更好)。这违背了我所学的知识。我的理解是您希望降低AIC。 有谁知道Raftery的指南是否也适用于AIC,或者我会在哪里引用某个模型相对于另一个模型的“证据强度”指南? 是的,临界值并不是很好(我觉得它们很恼人),但是在比较不同种类的证据时它们很有用。

3
是否可以为套索回归模型计算AIC和BIC?
是否可以为套索回归模型和其他正则化模型(参数仅部分进入方程式)计算AIC或BIC值。如何确定自由度? 我正在使用R将套索回归模型与程序包中的glmnet()函数进行拟合glmnet,并且我想知道如何计算模型的AIC和BIC值。通过这种方式,我可以将值与没有正则化的模型拟合进行比较。这可能吗?
31 r  model-selection  lasso  aic  bic 

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
如何在R中凭经验证明AIC和BIC等效于哪种交叉验证方法?
在该站点上其他地方的问题中,有几个答案提到AIC等同于留一法(LOO)交叉验证,而BIC等同于K倍交叉验证。有没有一种方法可以在R中以经验方式证明这一点,从而弄清楚LOO和K折中涉及的技术并证明它们与AIC和BIC值等效?注释良好的代码将在这方面有所帮助。另外,在演示BIC时,请使用lme4软件包。请参阅下面的示例数据集... library(lme4) #for the BIC function generate.data <- function(seed) { set.seed(seed) #Set a seed so the results are consistent (I hope) a <- rnorm(60) #predictor b <- rnorm(60) #predictor c <- rnorm(60) #predictor y <- rnorm(60)*3.5+a+b #the outcome is really a function of predictor a and b but not predictor …
26 r  aic  cross-validation  bic 

3
AIC和BIC号码解释
我正在寻找有关如何解释AIC(赤池信息标准)和BIC(贝叶斯信息标准)估计值的示例。 BIC之间的负差可以解释为一种模型相对于另一种模型的后验几率吗?我该如何说呢?例如,BIC = -2可能暗示较好模型相对于其他模型的几率约为?Ë2= 7.4Ë2=7.4e^2= 7.4 任何新手都会受到这个新手的赞赏。

1
模型选择中的悖论(AIC,BIC,是解释还是预测?)
阅读了加利特·斯穆利(Galit Shmueli)的“解释或预测”(2010),我为明显的矛盾感到困惑。一共有三个前提 基于AIC的与基于BIC的模型选择(第300页的结束-第301页的开始):简而言之,应使用AIC选择用于预测的模型,而应使用BIC选择用于解释的模型。另外(我们不在上面的文章中),我们知道在某些条件下BIC会在候选模型集中选择真实模型。真正的模型是我们在解释模型中寻求的(第293页末)。 简单的算法:对于大小为8或更大的样本,AIC将选择比BIC 更大的模型由于AIC与BIC的复杂度惩罚不同,因此满足)。ln(n)>2ln(n)>2\text{ln}(n)>2 在“真实”模型(即用正确的回归量和正确的函数形式,但不完全估计系数模型)可能不是预测的最佳模式(P 307):回归模型缺少的预测可能是一个更好的预测模型-由于缺少估计变量而导致的偏差可能会因估计不准确而导致方差减少而被抵消。 要点1.和2.表明较大的模型可能比较简约的模型更适合预测。同时,第3点给出了一个相反的例子,其中更简约的模型比较大的模型更适合预测。我感到困惑。 问题: 点之间如何出现明显的矛盾{1。和2.}和3.被解释/解决? 鉴于第3点,您能否就AIC选择的较大模型实际上比BIC选择的更简约模型更好地进行预测进行直观的解释?

1
BIC是否试图找到一个真实的模型?
这个问题是后续工作,还是试图消除关于主题I的可能混淆,以及其他许多问题,涉及AIC和BIC之间的区别,这有点困难。@Dave Kellen在有关此主题的一个非常好的答案中(/stats//a/767/30589)阅读: 您的问题暗示AIC和BIC试图回答同一问题,这是不正确的。AIC试图选择最能充分描述未知的高维现实的模型。这意味着现实永远不会在所考虑的候选模型集中。相反,BIC试图在一组候选者中找到TRUE模型。我发现在研究人员沿途建立的模型之一中实例化了现实这一假设很奇怪。对于BIC来说,这是一个真正的问题。 在下面的评论中,@ gui11aume,我们读到: (-1)很好的解释,但我想挑战一个断言。@Dave Kellen能否请您参考一下BIC必须包含TRUE模型的想法?我想对此进行调查,因为在本书中作者给出了令人信服的证据,证明事实并非如此。– gui11aume12年5月27日在21:47 似乎该断言来自Schwarz本人(1978),尽管断言不是必需的:同一位作者(如@ gui11aume的链接),我们从他们的文章“多模型推断:在模型选择中理解AIC和BIC”中阅读(伯纳姆和安德森(2004): BIC的推导是假设存在真实模型,还是更狭义地讲,使用BIC时假设真实模型在模型集中?(Schwarz的推导指定了这些条件。)……答案……不。即,可以在不假设推导基础的模型为真的情况下推导BIC(作为对某个贝叶斯积分的近似的基础)(参见,例如,Cavanaugh和Neath 1999; Burnham和Anderson 2002:293-5)。当然,在应用BIC时,模型集不需要包含表示完整现实的(不存在)真实模型。而且,从BIC选择的模型到targbet模型的概率收敛(在iid样本理想化的情况下)在逻辑上并不意味着该目标模型必须是真实的数据生成分布。 因此,我认为值得对此主题进行讨论或澄清(如果需要更多说明)。目前,我们所收到的只是@ gui11aume的评论(谢谢!),该评论针对AIC和BIC之间的差异进行了高度投票。

4
关于乔治·博克斯(George Box),加利特·斯穆利(Galit Shmueli)和科学方法?
(这个问题似乎更适合于哲学SE。我希望统计学家可以澄清我对Box和Shmueli陈述的误解,因此我将其张贴在这里)。 ARIMA名望的George Box说: “所有模型都是错误的,但有些是有用的。” Galit Shmueli在她著名的论文“ To Explain or Predict”中指出(并引用了其他同意她的观点): 解释和预测并不相同,尽管某些模型在预测方面做得不好,但有些模型在解释方面做得很好。 我觉得这些与原则有些矛盾。 如果模型预测不好,是否有用? 更重要的是,如果模型能够很好地解释(但不一定能很好地预测),那么它在某种程度上必须是正确的(即没有错)。那么,这与Box的“所有模型都错了”又有什么关系呢? 最后,如果一个模型能够很好地解释但不能很好地预测,那么它如何科学?大多数科学标界标准(验证论,证伪论等)都暗示科学陈述必须具有预测能力,或者口语化:只有经过实证检验(或证伪)的理论或模型才是正确的。必须预测未来的结果。 我的问题: Box的陈述与Shmueli的观点是否确实矛盾,或者我是否缺少某些东西,例如,一种没有预测能力的模型仍然有用吗? 如果Box和Shmueli的陈述不矛盾,那么对一个模型错误并不能很好地预测却仍然具有解释力意味着什么?换句话说:如果一个人既丧失了正确性又缺乏预测能力,那么模型还剩下什么? 当模型具有解释力但没有预测力时,可以进行哪些经验验证?Shmueli提到了类似的事情:使用AIC进行解释,使用BIC进行预测,等等,但是我不知道这是如何解决问题的。对于预测模型,您可以使用AIC,BIC或R2R2R^2或L1L1L1正则化等,但是最终出于样本测试和生产性能的决定因素决定了模型的质量。但是对于解释得很好的模型,我看不到任何损失函数如何能够真正评估模型。在科学哲学中,存在不确定性的概念对于任何给定的数据集,总可以明智地选择某种分布(或分布的混合)和损失函数LLL,使其适合数据(因此可以声称可以解释它)。此外,对于有人声称模型足以解释数据的情况,LLL应当处于的阈值是任意的(类似p值,为什么p&lt;0.05p&lt;0.05p < 0.05而不是p&lt;0.1p&lt;0.1p < 0.1或p&lt;0.01p&lt;0.01p < 0.01?)。 基于以上所述,由于不可能进行样本外测试,因此如何客观地验证可以很好地解释但不能很好地预测的模型?


1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model&lt;-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

2
AIC,BIC和GCV:在惩罚回归方法中做出决策的最佳方法是什么?
我的一般理解是AIC处理模型的拟合优度和模型的复杂性之间的权衡。 一个我C= 2 k - 2 l n (L )AIC=2k−2ln(L)AIC =2k -2ln(L) ķkk =模型中的参数数量 大号LL =可能性 贝叶斯信息准则BIC与AIC密切相关.AIC对参数数量的惩罚程度不如BIC。我可以看到这两个在历史上到处都有使用。但是广义交叉验证(GCV)对我来说是新的。GCV如何与BIC或AIC相关?这些标准如何一起或单独用于在像ridge这样的面板回归中选择惩罚项? 编辑: 这是一个思考和讨论的示例: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE) p &lt;- pentrace(ridgefits, seq(0,1,by=.01)) effective.df(ridgefits,p) out &lt;- p$results.all par(mfrow=c(3,2)) plot(out$df, out$aic, col = "blue", type = "l", ylab = …

1
AIC / BIC:排列计数多少个参数?
假设我有一个模型选择问题,我正在尝试使用AIC或BIC评估模型。这是简单的有一些数量模型的实值参数。ķkk 但是,如果我们的模型之一(例如Mallows模型)具有置换,加上一些实值参数而不是实值参数,该怎么办?我仍然可以使模型参数的似然性最大化,例如获得置换和参数。但是,为计算AIC / BIC计入多少个参数?p πππ\pipppππ\pi

2
使用BIC估算KMEANS中的k个数
我目前正在尝试为我的玩具数据集(ofc iris(:))计算BIC。我想重现如图所示的结果(图5)。该论文也是我BIC公式的来源。 我对此有2个问题: 符号: ninin_i我 =群集的元素数iii CiCiC_i我 =群集中心坐标iii xjxjx_j我 =分配给群集数据点iii mmm =簇数 1)方程式中定义的方差 (2): ∑i=1ni−m∑j=1ni∥xj−Ci∥2∑i=1ni−m∑j=1ni‖xj−Ci‖2 \sum_i = \frac{1}{n_i-m}\sum_{j=1}^{n_i}\Vert x_j - C_i \Vert^2 据我所知,这是有问题的,并且当簇mmm大于簇中的元素时,方差可能为负。它是否正确? 2)我只是无法使我的代码能够计算出正确的BIC。希望没有错误,但是如果有人可以检查,将不胜感激。整个方程可以在等式中找到。(5)在论文中。我现在正在使用scikit学习所有内容(以证明关键字:P合理)。 from sklearn import cluster from scipy.spatial import distance import sklearn.datasets from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt import numpy as np def compute_bic(kmeans,X): """ Computes …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.