统计和大数据 model-selection

4

邵军在他的论文中通过交叉验证选择线性模型，表明对于多元线性回归中的变量选择问题，留一法交叉验证（LOOCV）的方法“渐近不一致”。用简单的英语来说，它倾向于选择变量太多的模型。Shao在模拟研究中表明，即使只有40个观察结果，LOOCV的表现也不能胜过其他交叉验证技术。这篇论文有些争议，有些忽略了（发表10年后，我的化学计量学同事从未听说过，并且很乐意使用LOOCV进行变量选择...）。还有一种信念（对此我有罪），其结果超出了最初的有限范围。那么问题是：这些结果延伸到多远？它们适用于以下问题吗？逻辑回归/ GLM的变量选择？ Fisher LDA分类的变量选择？使用具有有限（或无限）内核空间的SVM进行变量选择？比较模型中的分类，比如说使用不同内核的SVM？比较线性回归模型，比如说将MLR与Ridge回归进行比较？等等

22 classification model-selection cross-validation

3

分析ACF和PACF图

我想看看我是否在分析我的ACF和PACF曲线的正确轨道上：背景：（参考文献：菲利普·汉斯·弗朗西斯，1998年）由于ACF和PACF都显示出重要的价值，因此我认为ARMA模型将满足我的需求 ACF可用于估计MA部分，即q值，PACF可用于估计AR部分，即p值为了估计模型阶数，我查看了a。）ACF值是否足够消亡，b。）ACF信号是否过度差分，以及c。）ACF和PACF在某些滞后是否显示任何明显且易于解释的峰值 ACF和PACF可能不仅建议一种模型，而且在考虑其他诊断工具后需要从许多模型中进行选择考虑到这一点，我继续说，最明显的模型似乎是ARMA（4,2），因为ACF值在滞后4处消失，而PACF在1和2处出现尖峰。另一种分析方法是ARMA（2,1），因为我看到我的PACF中出现两个明显的峰值，而我的ACF中出现一个明显的峰值（此后，值从更低的点（0.4）开始消失。查看我的样本内预测结果（使用简单的平均绝对百分比误差），ARMA（2,1）的结果要比ARMA（4,2）好得多。所以我使用ARMA（2,1）！您能否确认我的分析ACF和PACF图的方法和发现？帮助赞赏！编辑：描述性统计： count 252.000000 mean 29.576151 std 7.817171 min -0.920000 25% 26.877500 50% 30.910000 75% 34.915000 max 47.430000 Skewness of endog_var: [-1.35798399] Kurtsosis of endog_var: [ 5.4917757] Augmented Dickey-Fuller Test for endog_var: (-3.76140904255411, 0.0033277703768345287, {'5%': -2.8696473721448728, '1%': -3.4487489051519011, '10%': …

21 time-series model-selection arma statsmodels

1

Firth Logistic回归模型选择

在我正在使用的小型数据集（）中，几个变量为我提供了理想的预测/分离效果。因此，我使用Firth Logistic回归来处理该问题。ñ 〜100n∼100n\sim100 如果我通过AIC或BIC选择最佳模型，那么在计算这些信息标准时是否应该在可能性中包括Firth惩罚项？

21 logistic model-selection aic separation

2

选择模型后进行交叉验证（错误归纳）

注意：大小写为n >> p 我正在阅读《统计学习的元素》，关于交叉验证的“正确”方法有很多提及（例如，第60页，第245页）。具体来说，我的问题是在进行模型搜索时，如何使用k倍CV或自举法评估最终模型（没有单独的测试集）？似乎在大多数情况下（没有嵌入式功能选择的ML算法）功能选择步骤元参数选择步骤（例如，SVM中的成本参数）。我的问题：我已经看到，可以在整个训练集上进行特征选择并放在一边的情况下，进行特征选择步骤。然后，使用k折CV，在每折中使用特征选择算法（获得每次可能选择的不同特征）并平均误差。然后，您将使用通过所有数据（预留的数据）选择的特征来训练最终模式，但是将交叉验证中的错误用作模型未来性能的估计。它是否正确？当您使用交叉验证选择模型参数时，随后如何估算模型性能？您是使用第54页（pdf）所示的嵌套简历还是其他方法，还是上面＃1的相同过程？当您同时执行两个步骤（功能和参数设置）时.....然后您会做什么？复杂的嵌套循环？如果您有单独的保留样本，那么担心会消失吗，您可以使用交叉验证来选择功能和参数（不必担心，因为您的性能估算将来自保留集）？

21 machine-learning model-selection data-mining cross-validation

4

如何将新向量投影到PCA空间上？

执行主成分分析（PCA）之后，我想将一个新向量投影到PCA空间上（即在PCA坐标系中找到其坐标）。我已经使用R计算了R语言的PCA prcomp。现在，我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

6

何时从回归模型中删除一项？

任何人都可以建议以下是否有意义：我正在处理具有4个预测变量的普通线性模型。我有两种想法是否放弃最不重要的任期。它的 -值超过0.05一点点。我主张将其沿以下方向删除：将这个术语的估计值乘以（例如）该变量的样本数据的四分位数范围，可以使保持这个术语对整个模型的临床效果具有一定意义。由于此数字非常低，大约等于该变量在临床环境中进行测量时可以在典型的日内值范围内，因此我认为该变量在临床上不具有重大意义，因此可以删除以给出更简化的模型，甚至尽管降低它会稍微降低调整后的R 2。pppR2R2R^2

20 regression model-selection

4

边缘情况下精度和召回率的正确值是多少？

精度定义为： p = true positives / (true positives + false positives) 对不对，作为true positives和false positives做法0，精度接近1？召回相同的问题： r = true positives / (true positives + false negatives) 我目前正在实施统计测试，需要计算这些值，有时分母为0，我想知道在这种情况下应返回哪个值。 PS：请原谅，不恰当的标签，我想用recall，precision和limit，但我不能创造新的标签呢。

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

如果我们只对建模感兴趣，而对预测不感兴趣，则正则化功能会有所帮助吗？

如果我们仅对估计（和解释）模型参数感兴趣，而对预测或预测不感兴趣，则正则化功能会有所帮助吗？如果您的目标是对新数据做出良好的预测，我将看到正则化/交叉验证非常有用。但是，如果您正在做传统经济学，而您所关心的只是估计呢？在这种情况下，交叉验证是否也有用？我在概念上遇到的困难是，我们实际上可以在测试数据上计算，但我们永远无法计算因为根据定义，从未观察到真实的。（假设存在一个真实的，即我们知道从中生成数据的模型族。）ββ\beta大号（ ÿ，Y^）大号（ÿ，ÿ^）\mathcal{L}\left(Y, \hat{Y}\right)大号（ β，β^）大号（β，β^）\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta 假设您的损失是。您将面临偏差方差的折衷，对吗？因此，从理论上讲，您最好进行一些正则化。但是，如何选择正则化参数呢？大号（ β，β^） = ∥ β-β^∥大号（β，β^）=‖β-β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 我很高兴看到一个线性回归模型的简单数值示例，其系数为β≡ （β1个，β2，… ，βķ）β≡（β1个，β2，…，βķ）\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)，其中研究人员的损失函数为∥ β- β^∥‖β-β^‖\lVert \beta - \hat{\beta} \rVert，或什至（β1个- β^1个）2（β1个-β^1个）2(\beta_1 - \hat{\beta}_1)^2。在实践中，如何在这些示例中使用交叉验证来改善预期损失？编辑：约翰逊（DJohnson）将我指向https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf，与该问题相关。作者写道机器学习技术...提供了一种预测\ hat {Y}的有条理的方法， ÿ^ÿ^\hat{Y}该方法（i）使用数据本身来决定如何进行偏差方差的权衡，并且（ii）可以搜索非常丰富的变量和函数形式。但是，一切都是有代价的：必须始终牢记，因为它们针对\ hat {Y}进行了调整，所以它们ÿ^ÿ^\hat{Y} （在没有其他许多假设的情况下）不会为\ hat {\ beta}提供非常有用的保证β^β^\hat{\beta}。再次感谢DJohnson，这是另一篇相关论文：http ://arxiv.org/pdf/1504.01132v3.pdf 。本文解决了我在上面遇到的问题：将现成的回归树等机器学习方法应用于因果推理问题的一个根本挑战是，基于交叉验证的正则化方法通常依赖于观察“基本事实”，即实际结果在交叉验证样本中。但是，如果我们的目标是最小化治疗效果的均方误差，则会遇到[11]所说的“因果推理的基本问题”：没有观察到因果关系的任何个体，因此我们不会直接有一个基本的事实。我们通过提出用于构建治疗因果效应的均方误差的无偏估计的方法来解决此问题。

19 cross-validation econometrics model-selection interpretation regularization

2

如何在线性混合模型中选择随机效应和固定效应结构？

请从主题设计的两个方面考虑以下数据： df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 6 6 Jim Cued Pos 10 我想使用混合线性模型对此进行分析。考虑到所有可能的固定效应和随机效应，有多种可能的模型： …

19 mixed-model repeated-measures model-selection lme4-nlme likelihood-ratio

7

衡量模型复杂性

我们如何比较具有相同数量参数的两个模型的复杂性？编辑09/19：为澄清起见，模型复杂度是衡量从有限数据中学习的难易程度的一种度量。当两个模型均能很好地拟合现有数据时，具有较低复杂度的模型将为将来的数据提供较低的误差。当使用近似值时，从技术上讲这可能并不总是正确的，但是如果在实践中倾向于正确的话就可以了。各种近似给出不同的复杂度度量

19 model-selection

1

模型选择中的悖论（AIC，BIC，是解释还是预测？）

阅读了加利特·斯穆利（Galit Shmueli）的“解释或预测”（2010），我为明显的矛盾感到困惑。一共有三个前提基于AIC的与基于BIC的模型选择（第300页的结束-第301页的开始）：简而言之，应使用AIC选择用于预测的模型，而应使用BIC选择用于解释的模型。另外（我们不在上面的文章中），我们知道在某些条件下BIC会在候选模型集中选择真实模型。真正的模型是我们在解释模型中寻求的（第293页末）。简单的算法：对于大小为8或更大的样本，AIC将选择比BIC 更大的模型由于AIC与BIC的复杂度惩罚不同，因此满足）。ln(n)>2ln(n)>2\text{ln}(n)>2 在“真实”模型（即用正确的回归量和正确的函数形式，但不完全估计系数模型）可能不是预测的最佳模式（P 307）：回归模型缺少的预测可能是一个更好的预测模型-由于缺少估计变量而导致的偏差可能会因估计不准确而导致方差减少而被抵消。要点1.和2.表明较大的模型可能比较简约的模型更适合预测。同时，第3点给出了一个相反的例子，其中更简约的模型比较大的模型更适合预测。我感到困惑。问题：点之间如何出现明显的矛盾{1。和2.}和3.被解释/解决？鉴于第3点，您能否就AIC选择的较大模型实际上比BIC选择的更简约模型更好地进行预测进行直观的解释？

18 forecasting model-selection feature-selection aic bic

4

从线性，指数和对数函数中确定最佳拟合曲线拟合函数

内容：在有关数学堆栈交换的问题（我可以构建一个程序）上，某人有一组点，并希望为其拟合曲线（线性，指数或对数）。通常的方法是从选择其中一种（指定模型）开始，然后进行统计计算。x − yX-ÿx-y 但是真正需要的是从线性，指数或对数中找到“最佳”曲线。表面上，一个人可以尝试所有三个，然后根据最佳相关系数选择三个中的最佳拟合曲线。但是不知何故，我觉得这还不够洁。通常公认的方法是先选择模型，然后选择这三个模型之一（或其他链接函数），然后从数据中计算系数。事实上，事后采摘是樱桃采摘。但是对我而言，无论您是从数据确定函数还是系数，这仍然是同一回事，您的过程正在发现最好的东西（例如，发现哪个函数也是另一个系数）。问题：根据拟合统计量的比较，从线性，指数和对数模型中选择最佳拟合模型是否合适？如果是这样，最合适的方法是什么？如果回归有助于在函数中找到参数（系数），为什么不能有一个离散的参数来选择三个最佳曲线系列中的哪一个呢？

18 regression predictive-models model-selection curve-fitting

1

BIC是否试图找到一个真实的模型？

这个问题是后续工作，还是试图消除关于主题I的可能混淆，以及其他许多问题，涉及AIC和BIC之间的区别，这有点困难。@Dave Kellen在有关此主题的一个非常好的答案中（/stats//a/767/30589）阅读：您的问题暗示AIC和BIC试图回答同一问题，这是不正确的。AIC试图选择最能充分描述未知的高维现实的模型。这意味着现实永远不会在所考虑的候选模型集中。相反，BIC试图在一组候选者中找到TRUE模型。我发现在研究人员沿途建立的模型之一中实例化了现实这一假设很奇怪。对于BIC来说，这是一个真正的问题。在下面的评论中，@ gui11aume，我们读到：（-1）很好的解释，但我想挑战一个断言。@Dave Kellen能否请您参考一下BIC必须包含TRUE模型的想法？我想对此进行调查，因为在本书中作者给出了令人信服的证据，证明事实并非如此。– gui11aume12年5月27日在21:47 似乎该断言来自Schwarz本人（1978），尽管断言不是必需的：同一位作者（如@ gui11aume的链接），我们从他们的文章“多模型推断：在模型选择中理解AIC和BIC”中阅读（伯纳姆和安德森（2004）： BIC的推导是假设存在真实模型，还是更狭义地讲，使用BIC时假设真实模型在模型集中？（Schwarz的推导指定了这些条件。）……答案……不。即，可以在不假设推导基础的模型为真的情况下推导BIC（作为对某个贝叶斯积分的近似的基础）（参见，例如，Cavanaugh和Neath 1999； Burnham和Anderson 2002：293-5）。当然，在应用BIC时，模型集不需要包含表示完整现实的（不存在）真实模型。而且，从BIC选择的模型到targbet模型的概率收敛（在iid样本理想化的情况下）在逻辑上并不意味着该目标模型必须是真实的数据生成分布。因此，我认为值得对此主题进行讨论或澄清（如果需要更多说明）。目前，我们所收到的只是@ gui11aume的评论（谢谢！），该评论针对AIC和BIC之间的差异进行了高度投票。

17 model-selection aic bic

3

使用Hosmer等人的模型建立和选择。2013。R中的应用逻辑回归

这是我在StackExchange上的第一篇文章，但是我已经将它用作一种资源已经有一段时间了，我将尽我所能来使用适当的格式并进行适当的编辑。另外，这是一个多部分的问题。我不确定是否应该将问题分为几个不同的帖子，或者只是一个。由于所有问题均来自同一文本的一个部分，因此我认为将其发布为一个问题更为相关。我正在研究大型哺乳动物物种的栖息地用途，以作为硕士论文。该项目的目的是为森林管理者（最有可能不是统计学家）提供一个实用的框架，以评估他们管理的与该物种有关的土地上的栖息地质量。这种动物相对难以捉摸，是栖息地专家，通常位于偏远地区。关于物种的分布，尤其是在季节方面，进行的研究相对较少。数只动物装有GPS项圈，为期一年。从每只动物的GPS项圈数据中随机选择一百个位置（夏季50个，冬季50个）。此外，在每只动物的家园范围内随机产生50个点，以作为“可用”或“伪缺”位置。对于每个位置，都在田间采样了几个栖息地变量（树木直径，水平覆盖物，粗糙的木屑等），并通过GIS远程采样了一些变量（海拔，道路距离，崎ness性等）。该变量除具有7个级别的1个类别变量外，大部分都是连续的。我的目标是使用回归建模来构建资源选择函数（RSF），以对资源单元使用的相对概率进行建模。我想为动物种群（设计类型I）以及每只动物种群（设计类型III）建立一个季节性（冬季和夏季）RSF。我正在使用R进行统计分析。我一直在使用的主要文字是… “ Hosmer，DW，Lemeshow，S.和Sturdivant，RX2013。应用逻辑回归。Wiley，Chicester”。 Hosmer等人的大多数示例。使用STATA，我也一直在使用以下2个文本作为R的参考。 “ Crawley，MJ，2005年。统计数据：使用RJ Wiley的介绍，Chichester，西萨塞克斯郡，英格兰。” “植物，RE2012。使用R. CRC出版社，GBR，伦敦的生态和农业空间数据分析。” 我目前正在按照Hosmer等人的第4章中的步骤进行操作。进行“有目的的协变量选择”，并对该过程有一些疑问。我在下面的文字中概述了前几个步骤，以帮助回答我的问题。步骤1：对每个自变量进行单变量分析（我使用了单变量logistic回归）。单变量检验的p值小于0.25的任何变量都应包含在第一个多变量模型中。步骤2：拟合包含所有在步骤1中确定要包含的协变量的多变量模型，并使用其Wald统计量的p值评估每个协变量的重要性。在传统意义上不起作用的变量应予以消除，并采用新模型。应使用偏似然比检验将新的较小模型与旧的较大模型进行比较。步骤3：将较小模型中的估计系数值与大型模型中的相应值进行比较。任何系数的幅度发生显着变化的变量都应重新添加到模型中，因为从提供需要调整模型中剩余变量影响的意义上来说，这一点很重要。循环执行步骤2和3，直到似乎所有重要变量都包含在模型中，而排除的变量在临床和/或统计学上并不重要。Hosmer等。使用“ delta-beta-hat-percent ”来衡量系数幅度的变化。他们提出了显着的变化，即> 20％的delta-beta-hat-percent。Hosmer等。将delta-beta-hat-percent定义为。其中θ1是从较小的模型系数和β1是从较大的模型系数。Δβ^%=100θ^1−β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} 步骤4：将步骤1中未选择的每个变量一次添加到步骤3结束时获得的模型中，并通过Wald统计p值或偏似然比检验检验其重要性，如果它是分类的具有两个以上级别的变量。这一步对于识别与结果没有显着关系但在存在其他变量的情况下起重要作用的变量至关重要。我们将第4步末的模型称为主要主效应模型。步骤5-7：我现在还没有进展，所以我暂时不做这些步骤，或者将它们保存下来以解决其他问题。我的问题：在第2步中，什么是传统的显着性水平，p值<0.05或更大，例如<.25？再次在第2步中，我要确保用于部分似然测试的R代码正确无误，并且要确保我正确解释了结果。这是我一直在做的...anova(smallmodel,largemodel,test='Chisq')如果p值显着（<0.05），则将变量添加回模型，如果不重要，则继续删除吗？ Δβ^%Δβ^%\Delta\hat{\beta}\%Δβ^%Δβ^%\Delta\hat{\beta}\% Δβ^%Δβ^%\Delta\hat{\beta}\% is correct. I have been using the following code. If there is a package that will do this for me or …

17 r logistic model-selection regression-strategies

1

即使在具有适当相关结构的模型中，自相关残差模式仍然存在吗？如何选择最佳模型？

语境该问题使用R，但与一般统计问题有关。我正在分析死亡率因素（由于疾病和寄生虫引起的死亡率百分比）对蛾类种群随时间推移的增长率的影响，其中每年从12个地点采样幼虫种群，为期8年。人口增长率数据显示出随时间变化的清晰但不规则的周期性趋势。一个简单的广义线性模型的残差（增长率〜％疾病+％寄生病+年）随着时间的推移显示出相似的清晰但不规则的周期性趋势。因此，同样形式的广义最小二乘模型也适用于具有适当相关结构的数据，以处理时间自相关，例如复合对称性，自回归过程阶数1和自回归移动平均相关结构。所有模型均包含相同的固定效果，使用AIC进行比较，并通过REML进行拟合（以允许通过AIC比较不同的相关结构）。我正在使用R软件包nlme和gls函数。问题1 当相对于时间绘制时，GLS模型的残差仍显示几乎相同的周期性模式。即使在精确说明自相关结构的模型中，这种模式也会一直存在吗？我在第二个问题下面模拟了R中的一些简化但相似的数据，该问题基于我目前对评估模型残差中的时间自相关模式所需的方法的了解而显示，现在我知道这是错误的（请参阅答案）。问题2 我已经为GLS模型拟合了所有可能的合理相关结构，但是实际上没有一个比没有任何相关结构的GLM更好：只有一个GLS模型略胜一筹（AIC分数= 1.8低），而其余所有模型更高的AIC值。但是，只有当所有模型都由REML拟合时才是这种情况，而GLS模型显然要好得多，而不是ML，但是我从统计资料中了解到，出于某些原因，您只能使用REML来比较具有不同相关结构和相同固定效果的模型我不会在这里详述。鉴于数据具有明显的时间自相关性质，如果没有模型比简单的GLM更好，那么假设我使用的是合适的方法，那么最合适的方法来决定使用哪个模型进行推断（我最终想使用AIC比较不同的变量组合）？ Q1“模拟”探索具有和没有适当相关结构的模型中的残差模式生成具有“时间”的循环效应和“ x”的正线性效应的模拟响应变量： time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) y应该在“时间”上显示出具有随机变化的周期性趋势： plot(time,y) 与带有随机变化的'x'的正线性关系： plot(x,y) 创建一个简单的线性加法模型“ y〜time + x”： require(nlme) m1 <- gls(y ~ time + x, method="REML") 如预期的那样，该模型在针对“时间”绘制时，在残差中显示出清晰的周期性模式： plot(time, m1$residuals) …

17 model-selection autocorrelation residuals panel-data spatio-temporal

Questions tagged «model-selection»