统计和大数据 aic

5

我出于某些原因而无法接受将模型因子标记为随机变量的好处。在我看来，似乎在几乎所有情况下，最佳解决方案都是将所有因素视为固定的。首先，固定与随机的区别是任意的。标准解释是，如果一个人对特定的实验单位本身感兴趣，则应使用固定效应，而如果一个人对实验单位所代表的种群感兴趣，则应使用随机效应。这没有太大帮助，因为这意味着即使数据和实验设计保持相同，也可以在固定视图和随机视图之间进行切换。同样，此定义引起一种错觉，即如果将因子标记为随机，则从模型得出的推论比将因子标记为固定的情况更适用于总体。最后，盖尔曼（Gelman）表明，固定随机的区别令人困惑甚至在定义级别，因为还有四个关于固定效应和随机效应的定义。其次，混合模型的估计非常复杂。与“纯固定”模型相反，有多种方法可以获取p值，在R的lme4程序包中实现REML估计的贝茨教授甚至拒绝完全报告p值。。第三，存在一个模糊的问题，即随机因素会引入多少个隐式参数。以下示例是我对Burnham＆Anderson，“ 模型选择”和“多模型推理：一种实用的信息理论方法”的改编。从偏差方差折衷的角度来看，随机效应的作用可以说明如下。考虑采用处理和主因子效应的单向方差分析，其中是可估计的。错误项具有分布。如果观察次数固定，则随着的增加，偏差方差折衷将恶化。假设我们说ķ ķ - 1 Ñ（0 ，σ 2）ķ ķKKKKKKK−1K−1K - 1N(0,σ2)N(0,σ2)\mathcal N(0, \sigma^2)KKKKKK主要效果来自分布。相应的模型将具有介于固定（过度拟合）版本和仅包含截距的欠拟合模型之间的复杂性。固定模型中有效参数的数量为N(0,σK)N(0,σK)\mathcal N(0, \sigma_K) 1intercept+(K−1)maineffects+1σ=K+1.1intercept+(K−1)maineffects+1σ=K+1.1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + 1 \:\:\sigma = K + 1. 随机模型中有效参数的数量至少为三个：。另外，随机模型具有许多“隐藏”参数，这些参数是对主要效果施加的分布（在这种情况下为正常）限制所隐含的。intercept,σ,σKintercept,σ,σK \mathrm{intercept}, \sigma, \sigma_K 尤其是，如果存在一个具有两个水平的因子，则将其称为随机是没有意义的，即使我们确定知道它的水平是从某些人群中随机抽样的也是如此。这是因为固定效果版本具有三个参数，而随机效果版本具有三个以上参数。在这种情况下，随机模型比固定版本具有更高的复杂性。显然，从固定版本到随机版本的切换更适合更大的KKK。但是，随机模型中“隐藏”参数的数量是未知的，因此无法根据信息标准（例如AIC）比较固定版本和随机版本。因此，尽管该示例阐明了随机效应的贡献（更好的偏差-方差权衡的可能性），但它也表明，很难说何时可以合理地将因子从固定重新标记为随机。 “完全固定”模型中没有上述问题。因此，我愿意问：谁能提供一个示例，说明在使用随机因子（如固定因子）时发生了非常糟糕的事情吗？我认为应该进行一些模拟研究来明确解决该问题。是否有行之有效的定量方法来决定何时从固定标签转换为随机标签？

24 model-selection random-effects-model aic fixed-effects-model mixed-model

3

时间序列中的AIC与交叉验证：小样本案例

我对时间序列设置中的模型选择感兴趣。具体来说，假设我要从具有不同滞后顺序的ARMA模型池中选择一个ARMA模型。最终目的是预测。型号选择可以通过交叉验证，使用信息标准（AIC，BIC），在其他方法中。 Rob J. Hyndman提供了一种对时间序列进行交叉验证的方法。对于相对较小的样本，交叉验证中使用的样本大小可能与原始样本大小在质量上有所不同。例如，如果原始样本大小为200个观测值，则可以考虑通过获取前101个观测值并将窗口扩展到102、103，...，200个观测值来获得100个交叉验证结果，从而开始交叉验证。显然，对于200个观测值而言，合理地简约的模型对于100个观测值而言可能太大，因此其验证误差将很大。因此，交叉验证可能会系统地偏爱过于简约的模型。由于样本大小不匹配，这是不希望的效果。交叉验证的替代方法是使用信息标准进行模型选择。由于我关心预测，因此我将使用AIC。尽管AIC渐近等效于最小化时间序列模型的样本外一步预测MSE（根据Rob J.Hyndman的帖子），但我怀疑这与样本有关在这里是否有意义我关心的尺寸不是很大... 问题：对于中/小样本，我应该在时间序列交叉验证中选择AIC吗？一些相关的问题可以在这里，这里和这里找到。

23 time-series forecasting cross-validation model-selection aic

3

AIC和BIC号码解释

我正在寻找有关如何解释AIC（赤池信息标准）和BIC（贝叶斯信息标准）估计值的示例。 BIC之间的负差可以解释为一种模型相对于另一种模型的后验几率吗？我该如何说呢？例如，BIC = -2可能暗示较好模型相对于其他模型的几率约为？Ë2= 7.4Ë2=7.4e^2= 7.4 任何新手都会受到这个新手的赞赏。

23 interpretation aic bic

2

如何比较和验证混合效应模型？

通常如何比较（线性）混合效果模型？我知道可以使用似然比检验，但是如果一个模型不是另一个正确模型的“子集”，这将不起作用？模型df的估算是否总是简单明了？固定效应数量+估计的方差成分数量？我们是否忽略随机效应估计？验证呢？我的第一个想法是交叉验证，但是考虑到数据的结构，随机折叠可能不起作用。“遗漏一个主题/集群”的方法是否合适？那把一个观察结果留在外面怎么办？锦葵Cp可解释为模型预测误差的估计。通过AIC进行模型选择会尝试最大程度地减少预测误差（因此，如果误差是高斯型，我相信Cp和AIC应该选择相同的模型）。这是否意味着AIC或Cp可以用于根据预测误差从一些非嵌套模型的集合中选择“最佳”线性混合效应模型？（前提是它们适合相同的数据）BIC是否仍然更有可能在候选人中选择“真实”模型？我还给人的印象是，在通过AIC或BIC比较混合效果模型时，我们仅将固定效果计算为“参数”，而不是实际模型df。关于这些主题有没有好的文献？是否值得研究cAIC或mAIC？他们在AIC之外是否有特定的应用程序？

22 hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

3

AIC或p值：选择哪种模型进行选择？

我是这R产品的新手，但不确定要选择哪种型号。我进行了逐步前向回归，根据最低AIC选择每个变量。我提出了3个不确定的模型，这些模型是“最好的”。 Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 我倾向于使用Model＃3，因为它的AIC最低（我听过可以接受负值），并且p值仍然很低。我已经运行了8个变量作为孵化质量的预测变量，发现这三个变量是最好的预测变量。我的下一个前进方向是选择模型2，因为即使AIC稍大，p值也都较小。您是否同意这是最好的？ Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: …

22 model-selection aic stepwise-regression

1

Firth Logistic回归模型选择

在我正在使用的小型数据集（）中，几个变量为我提供了理想的预测/分离效果。因此，我使用Firth Logistic回归来处理该问题。ñ 〜100n∼100n\sim100 如果我通过AIC或BIC选择最佳模型，那么在计算这些信息标准时是否应该在可能性中包括Firth惩罚项？

21 logistic model-selection aic separation

3

AIC中“参数数量”的含义

在计算AIC时，一个我C= 2 k - 2 l n L一种一世C=2ķ-2升ñ大号AIC = 2k - 2 ln L k表示“参数数量”。但是什么算作参数呢？因此，例如在模型中 ÿ= a x + bÿ=一种X+by = ax + b a和b总是算作参数吗？如果我不在乎拦截的值怎么办，我可以忽略它还是可以算数呢？如果 ÿ= 一个˚F（c ，x ）+ bÿ=一种F（C，X）+by = a f(c,x) + b 哪里是c和x的函数，我现在算3个参数吗？FFf

21 aic

3

将非嵌套模型与AIC进行比较

假设我们必须使用GLMM mod1 <- glmer(y ~ x + A + (1|g), data = dat) mod2 <- glmer(y ~ x + B + (1|g), data = dat) 这些模型不是通常意义上的嵌套： a <- glmer(y ~ x + A + (1|g), data = dat) b <- glmer(y ~ x + A + B + (1|g), data …

19 r mixed-model aic lme4-nlme nested-models

1

模型选择中的悖论（AIC，BIC，是解释还是预测？）

阅读了加利特·斯穆利（Galit Shmueli）的“解释或预测”（2010），我为明显的矛盾感到困惑。一共有三个前提基于AIC的与基于BIC的模型选择（第300页的结束-第301页的开始）：简而言之，应使用AIC选择用于预测的模型，而应使用BIC选择用于解释的模型。另外（我们不在上面的文章中），我们知道在某些条件下BIC会在候选模型集中选择真实模型。真正的模型是我们在解释模型中寻求的（第293页末）。简单的算法：对于大小为8或更大的样本，AIC将选择比BIC 更大的模型由于AIC与BIC的复杂度惩罚不同，因此满足）。ln(n)>2ln(n)>2\text{ln}(n)>2 在“真实”模型（即用正确的回归量和正确的函数形式，但不完全估计系数模型）可能不是预测的最佳模式（P 307）：回归模型缺少的预测可能是一个更好的预测模型-由于缺少估计变量而导致的偏差可能会因估计不准确而导致方差减少而被抵消。要点1.和2.表明较大的模型可能比较简约的模型更适合预测。同时，第3点给出了一个相反的例子，其中更简约的模型比较大的模型更适合预测。我感到困惑。问题：点之间如何出现明显的矛盾{1。和2.}和3.被解释/解决？鉴于第3点，您能否就AIC选择的较大模型实际上比BIC选择的更简约模型更好地进行预测进行直观的解释？

18 forecasting model-selection feature-selection aic bic

1

逐步AIC-关于此主题是否存在争议？

我在该网站上阅读了无数帖子，这些帖子令人难以置信地反对使用任何类型的标准（无论是基于p值，AIC，BIC等）逐步选择变量。我理解为什么这些程序通常比较笼统，而变量选择却很差。龚可能在这里著名的帖子清楚地说明了原因；最终，我们将在用于得出假设的同一数据集上验证假设，即数据挖掘。此外，p值还受共线性和离群值之类的量的影响，这些结果会严重偏斜等。但是，最近我一直在研究时间序列预测，并且遇到了Hyndman备受推崇的教科书，他在这里提到使用逐步选择来找到ARIMA模型的最佳顺序。实际上，在forecastR包中，众所周知auto.arima的默认算法默认使用逐步选择（对于AIC，不是p值）。他还批评了基于p值的功能选择，该功能与该网站上的多个帖子非常吻合。最终，如果目标是开发用于预测/预测的良好模型，则最终应始终以某种方式进行交叉验证。但是，在确定p值以外的评估指标的过程本身时，在这里肯定有一些分歧。在这种情况下，或者在这种情况下，对于使用逐步式AIC，有人是否有任何意见？我被教导要相信任何逐步的选择都是不好的，但是老实说，auto.arima(stepwise = TRUE)与样本相比，我给了我更好的结果，auto.arima(stepwise = FALSE)但是也许这只是巧合。

17 forecasting predictive-models arima aic stepwise-regression

1

BIC是否试图找到一个真实的模型？

这个问题是后续工作，还是试图消除关于主题I的可能混淆，以及其他许多问题，涉及AIC和BIC之间的区别，这有点困难。@Dave Kellen在有关此主题的一个非常好的答案中（/stats//a/767/30589）阅读：您的问题暗示AIC和BIC试图回答同一问题，这是不正确的。AIC试图选择最能充分描述未知的高维现实的模型。这意味着现实永远不会在所考虑的候选模型集中。相反，BIC试图在一组候选者中找到TRUE模型。我发现在研究人员沿途建立的模型之一中实例化了现实这一假设很奇怪。对于BIC来说，这是一个真正的问题。在下面的评论中，@ gui11aume，我们读到：（-1）很好的解释，但我想挑战一个断言。@Dave Kellen能否请您参考一下BIC必须包含TRUE模型的想法？我想对此进行调查，因为在本书中作者给出了令人信服的证据，证明事实并非如此。– gui11aume12年5月27日在21:47 似乎该断言来自Schwarz本人（1978），尽管断言不是必需的：同一位作者（如@ gui11aume的链接），我们从他们的文章“多模型推断：在模型选择中理解AIC和BIC”中阅读（伯纳姆和安德森（2004）： BIC的推导是假设存在真实模型，还是更狭义地讲，使用BIC时假设真实模型在模型集中？（Schwarz的推导指定了这些条件。）……答案……不。即，可以在不假设推导基础的模型为真的情况下推导BIC（作为对某个贝叶斯积分的近似的基础）（参见，例如，Cavanaugh和Neath 1999； Burnham和Anderson 2002：293-5）。当然，在应用BIC时，模型集不需要包含表示完整现实的（不存在）真实模型。而且，从BIC选择的模型到targbet模型的概率收敛（在iid样本理想化的情况下）在逻辑上并不意味着该目标模型必须是真实的数据生成分布。因此，我认为值得对此主题进行讨论或澄清（如果需要更多说明）。目前，我们所收到的只是@ gui11aume的评论（谢谢！），该评论针对AIC和BIC之间的差异进行了高度投票。

17 model-selection aic bic

2

比较模型及其对数转换版本的AIC

我的问题的实质是：让Y∈RnY∈RnY \in \mathbb{R}^n与平均值的多元正态随机变量μμ\mu和协方差矩阵ΣΣ\Sigma。让Z:=log(Y)Z:=log⁡(Y)Z := \log(Y)，即Zi=log(Yi),i∈{1,…,n}Zi=log⁡(Yi),i∈{1,…,n}Z_i = \log(Y_i), i \in \{1,\ldots,n\}。如何比较适合观察到的实现模型的AIC YYY与适合观察到的实现模型的AIC ZZZ？我最初的问题和稍长的问题：让Y∼N(μ,Σ)Y∼N(μ,Σ)Y \sim \mathcal{N}(\mu,\Sigma)是一个多变量正态随机变量。如果我想比较适合于YYY的模型与适合对的模型log(Y)log⁡(Y)\log(Y)，可以看看它们的对数似然性。但是，由于这些模型不是嵌套的，因此我无法直接比较对数可能性（以及诸如AIC之类的东西），但必须对其进行转换。我知道如果X1,…,XnX1,…,XnX_1,\ldots,X_n是具有联合pdf 随机变量，g(x1,…,xn)g(x1,…,xn)g(x_1,\ldots,x_n)并且Yi=ti(X1,…,Xn)Yi=ti(X1,…,Xn)Y_i = t_i(X_1,\ldots,X_n)进行一对一转换titit_i和i∈{1,…,n}i∈{1,…,n}i \in \{1,\ldots,n\}，则PDF的Y1,…,YnY1,…,YnY_1,\ldots,Y_n其中 J是与变换关联的雅可比行列式。f(y1,…,yn)=g(t−11(y),…,t−1n(y))det(J)f(y1,…,yn)=g(t1−1(y),…,tn−1(y))det(J)f(y_1,\ldots,y_n)=g(t_1^{-1}(y),\ldots,t_n^{-1}(y))\det(J)JJJ 我是否只需要使用转换规则进行比较到 l （log （Y ））= log （n ∏ i = 1 ϕ （log （y i）; μ ，Σ ））l(Y)=log(∏i=1nϕ(yi;μ,Σ))l(Y)=log⁡(∏i=1nϕ(yi;μ,Σ))l(Y) = \log(\prod_{i=1}^{n}\phi(y_i;\mu,\Sigma))l(log(Y))=log(∏i=1nϕ(log(yi);μ,Σ))l(log⁡(Y))=log⁡(∏i=1nϕ(log⁡(yi);μ,Σ))l(\log(Y))=\log(\prod_{i=1}^{n}\phi(\log(y_i);\mu,\Sigma)) 还是我还能做些什么？ [edit]忘记将对数放在最后两个表达式中。

17 data-transformation aic likelihood

4

关于乔治·博克斯（George Box），加利特·斯穆利（Galit Shmueli）和科学方法？

（这个问题似乎更适合于哲学SE。我希望统计学家可以澄清我对Box和Shmueli陈述的误解，因此我将其张贴在这里）。 ARIMA名望的George Box说： “所有模型都是错误的，但有些是有用的。” Galit Shmueli在她著名的论文“ To Explain or Predict”中指出（并引用了其他同意她的观点）：解释和预测并不相同，尽管某些模型在预测方面做得不好，但有些模型在解释方面做得很好。我觉得这些与原则有些矛盾。如果模型预测不好，是否有用？更重要的是，如果模型能够很好地解释（但不一定能很好地预测），那么它在某种程度上必须是正确的（即没有错）。那么，这与Box的“所有模型都错了”又有什么关系呢？最后，如果一个模型能够很好地解释但不能很好地预测，那么它如何科学？大多数科学标界标准（验证论，证伪论等）都暗示科学陈述必须具有预测能力，或者口语化：只有经过实证检验（或证伪）的理论或模型才是正确的。必须预测未来的结果。我的问题： Box的陈述与Shmueli的观点是否确实矛盾，或者我是否缺少某些东西，例如，一种没有预测能力的模型仍然有用吗？如果Box和Shmueli的陈述不矛盾，那么对一个模型错误并不能很好地预测却仍然具有解释力意味着什么？换句话说：如果一个人既丧失了正确性又缺乏预测能力，那么模型还剩下什么？当模型具有解释力但没有预测力时，可以进行哪些经验验证？Shmueli提到了类似的事情：使用AIC进行解释，使用BIC进行预测，等等，但是我不知道这是如何解决问题的。对于预测模型，您可以使用AIC，BIC或R2R2R^2或L1L1L1正则化等，但是最终出于样本测试和生产性能的决定因素决定了模型的质量。但是对于解释得很好的模型，我看不到任何损失函数如何能够真正评估模型。在科学哲学中，存在不确定性的概念对于任何给定的数据集，总可以明智地选择某种分布（或分布的混合）和损失函数LLL，使其适合数据（因此可以声称可以解释它）。此外，对于有人声称模型足以解释数据的情况，LLL应当处于的阈值是任意的（类似p值，为什么p<0.05p<0.05p < 0.05而不是p<0.1p<0.1p < 0.1或p<0.01p<0.01p < 0.01？）。基于以上所述，由于不可能进行样本外测试，因此如何客观地验证可以很好地解释但不能很好地预测的模型？

16 predictive-models aic bic philosophical explanatory-models

1

为什么Akaike信息标准在机器学习中没有更多使用？

我刚遇到“赤池信息准则”，并且注意到大量关于模型选择的文献（似乎还存在BIC之类的东西）。为什么当代的机器学习方法不利用这些BIC和AIC模型选择标准？

16 machine-learning model-selection aic bic

2

何时停止完善模型？

在过去的三年中，我一直在研究许多书籍中的统计数据，并且由于这个站点，我学到了很多东西。然而，对于我来说，一个基本问题仍然没有答案。它可能有一个非常简单或非常困难的答案，但我可以肯定地知道它需要对统计数据有一定的了解。在将模型拟合到数据时（无论是常客方法还是贝叶斯方法），我们提出一个模型，该模型可能包括似然函数，先验函数或核（非参数）等的函数形式。问题在于任何模型使样品具有一定的优度。与当前的模型相比，总是可以找到更好或更坏的模型。在某个时候，我们停止并开始得出结论，推广到总体参数，报告置信区间，计算风险等。因此，无论得出什么结论，总是以我们决定采用的模型为条件。即使我们使用诸如AIC，MDL等之类的工具来估计预期的KL距离，也并没有说绝对的立场，而只是相对改善了我们的估计。现在假设我们想定义一个逐步过程，以在构建模型时应用于任何数据集。我们应该指定什么作为停止规则？我们是否可以至少限制模型误差，该误差将为我们提供一个客观的停止点（这与使用验证样本停止训练不同，因为它还会在评估的模型类内提供停止点，而不是真正的DGP）？

15 modeling inference aic

Questions tagged «aic»