Questions tagged «stepwise-regression»

逐步回归(通常称为正向或反向回归)涉及拟合回归模型,并基于统计量,或信息标准添加或删除预测变量,从而以“逐步”的方式到达最终模型。该标签还可用于正向选择,向后消除和最佳子集变量选择策略。 t[R2

8
自动模型选择算法
我想实现一种用于自动模型选择的算法。我正在考虑进行逐步回归,但是任何事情都会做(尽管它必须基于线性回归)。 我的问题是我找不到方法论或开源实现(我正在用Java唤醒)。我想到的方法如下: 计算所有因素的相关矩阵 选择彼此之间相关性较低的因素 删除t统计量较低的因素 添加其他因素(仍基于2中找到的低相关因素)。 重复几次,直到某个条件(例如AIC)超过某个阈值或无法达到或无法找到更大的值。 我意识到有一个R实现(stepAIC),但是我发现代码很难理解。另外,我还没有找到描述逐步回归的文章。


5
从许多自变量中检测出重要的预测变量
在两个非重叠人群(患者和健康人群,总计n=60n=60n=60)的数据集中,我想(从300300300独立变量中)找到连续因变量的重要预测因子。存在预测变量之间的相关性。我有兴趣了解是否有任何预测变量与“现实中”的因变量相关(而不是尽可能准确地预测因变量)。当我对众多可能的方法不知所措时,我想问一问最推荐哪种方法。 根据我的理解,不建议逐步加入或排除预测变量 例如,对每个预测变量分别运行线性回归,并使用FDR校正p值以进行多次比较(可能非常保守?) 主成分回归:难以解释,因为我无法讲述单个预测变量的预测能力,而只能讲述成分。 还有其他建议吗?


3
AIC或p值:选择哪种模型进行选择?
我是这R产品的新手,但不确定要选择哪种型号。 我进行了逐步前向回归,根据最低AIC选择每个变量。我提出了3个不确定的模型,这些模型是“最好的”。 Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 我倾向于使用Model#3,因为它的AIC最低(我听过可以接受负值),并且p值仍然很低。 我已经运行了8个变量作为孵化质量的预测变量,发现这三个变量是最好的预测变量。 我的下一个前进方向是选择模型2,因为即使AIC稍大,p值也都较小。您是否同意这是最好的? Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: …

1
逐步回归引起的咆哮
我很了解回归模型中逐步/向前/向后选择的问题。有许多研究人员谴责这些方法并指出更好的选择。我很好奇是否存在任何统计分析的故事: 使用逐步回归; 根据最终模型得出了一些重要结论 结论是错误的,对个人,研究或组织产生负面影响 我的想法是,如果逐步方法不好,那么使用它们在“现实世界”中应该会有后果。

2
从惩罚回归模型估计R平方和统计显着性
我使用受罚的R包来获取数据集的压缩系数估计,在该数据集中,我有很多预测变量,而对于哪些预测变量很重要则知之甚少。在选择了调整参数L1和L2并且对系数感到满意之后,是否有一种统计上合理的方法来汇总模型拟合度(如R平方)? 此外,我对测试模型的整体重要性感兴趣(即R²= 0还是全部= 0)。 我已仔细阅读了此处提出的类似问题的答案,但并没有完全回答我的问题。我在这里使用的R包有一个很好的教程,作者Jelle Goeman在教程的最后有关于注释式回归模型的置信区间的以下注释: 要求回归系数或其他估计量的标准误差是一个很自然的问题。原则上,这种标准误差可以很容易地计算出来,例如使用引导程序。 尽管如此,该程序包还是故意不提供它们。这样做的原因是,标准误差对于严重偏差的估算(例如由惩罚估算方法产生的估算)不是很有意义。惩罚估计是一种通过引入实质性偏差来减少估计量方差的过程。因此,每个估计量的偏差都是其均方误差的主要组成部分,而其方差可能只占很小的一部分。 不幸的是,在惩罚回归的大多数应用中,不可能获得偏差的足够精确的估计。任何基于引导程序的计算都只能评估估计值的方差。仅当可获得可靠的无偏估计时,才可以使用偏差的可靠估计,而在使用罚分估计的情况下,情况通常并非如此。 因此,报告惩罚性估计的标准误差只能说明部分情况。它可能会给人以非常高的精度的错误印象,而完全忽略了由偏差引起的不准确性。做出仅基于估计方差评估的置信度声明,例如基于引导程序的置信区间,确实是一个错误。


1
逐步AIC-关于此主题是否存在争议?
我在该网站上阅读了无数帖子,这些帖子令人难以置信地反对使用任何类型的标准(无论是基于p值,AIC,BIC等)逐步选择变量。 我理解为什么这些程序通常比较笼统,而变量选择却很差。龚可能在这里著名的帖子清楚地说明了原因;最终,我们将在用于得出假设的同一数据集上验证假设,即数据挖掘。此外,p值还受共线性和离群值之类的量的影响,这些结果会严重偏斜等。 但是,最近我一直在研究时间序列预测,并且遇到了Hyndman备受推崇的教科书,他在这里提到使用逐步选择来找到ARIMA模型的最佳顺序。实际上,在forecastR包中,众所周知auto.arima的默认算法默认使用逐步选择(对于AIC,不是p值)。他还批评了基于p值的功能选择,该功能与该网站上的多个帖子非常吻合。 最终,如果目标是开发用于预测/预测的良好模型,则最终应始终以某种方式进行交叉验证。但是,在确定p值以外的评估指标的过程本身时,在这里肯定有一些分歧。 在这种情况下,或者在这种情况下,对于使用逐步式AIC,有人是否有任何意见?我被教导要相信任何逐步的选择都是不好的,但是老实说,auto.arima(stepwise = TRUE)与样本相比,我给了我更好的结果,auto.arima(stepwise = FALSE)但是也许这只是巧合。

2
LASSO / LARS与一般到特定(GETS)方法
我一直在想,为什么LASSO和LARS模型选择方法如此受欢迎,即使它们基本上只是逐步向前选择的变体(并因此受到路径依赖性)? 同样,为什么通用到特定(GETS)方法用于模型选择,尽管它们比LARS / LASSO更好,因为它们没有逐步回归问题,因此为什么大多数该模型被忽略?(关于GETS的基本参考资料:http ://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-其中的最新算法从避免路径依赖的广泛模型和树搜索开始,并且已经证明可以通常比LASSO / LARS更好。 似乎很奇怪,LARS / LASSO似乎比General to Specific(GETS)获得了更多的曝光和引用,有人对此有何想法? 并非试图引发激烈的辩论,而是寻找合理的解释,以解释为什么文学似乎确实集中在LASSO / LARS而不是GETS上,很少有人指出LASSO / LARS的缺点。

2
逐步回归是否提供总体r平方的有偏估计?
在心理学和其他领域,通常采用逐步回归的形式,涉及以下内容: 查看其余的预测变量(最初在模型中没有),并确定导致最大r平方变化的预测变量; 如果r平方变化的p值小于alpha(通常为.05),则包括该预测变量并返回步骤1,否则停止。 例如,请参阅SPSS中的此过程。 出于各种原因,通常会对该程序进行批判(请参阅Stata网站上的讨论并提供参考资料)。 特别是,Stata网站总结了Frank Harrell的一些评论。我对索赔感兴趣: [逐步回归]产生严重偏高的R平方值。 具体来说,我目前的一些研究集中在估计总体r平方。通过总体r平方,我指的是总体中由总体数据生成方程式解释的方差百分比。我正在审查的许多现有文献都使用了逐步回归程序,我想知道所提供的估计数是否有偏差,以及有多少偏差。特别是,典型的研究将有30个预测变量,n = 200,输入的alpha为0.05,r平方估计约为0.50。 我所知道的: 渐近地,具有非零系数的任何预测变量将是统计上显着的预测变量,并且r平方将等于调整后的r平方。因此,渐进式逐步回归应该估计真实的回归方程和真实的总体r平方。 对于较小的样本量,与模型中所有预测变量相比,某些预测变量的可能省略将导致较小的r平方。但是,通常r平方对样本数据的偏见也会增加r平方。因此,我天真的想法是,这两个相反的力在一定条件下可能导致无偏的r平方。更一般而言,偏差的方向将取决于数据的各种特征和alpha包含标准。 设置更严格的alpha包含准则(例如.01,.001等)应会降低预期的估计r平方,因为在任何数据生成中包含任何预测变量的可能性都较小。 通常,r平方是总体r平方的向上偏差估计,并且随着更多的预测变量和较小的样本量,该偏差的程度也会增加。 题 最后,我的问题是: 逐步回归的r平方在多大程度上导致总体r平方的估计偏差? 这种偏差在多大程度上与样本数量,预测变量数量,alpha包含标准或数据属性有关? 是否有关于此主题的参考?

2
Sane逐步回归?
假设我要构建一个二进制分类器。我有数千个功能,而样本只有几十个。从领域知识来看,我有充分的理由相信仅使用一些功能就可以准确预测类标签,但是我不知道哪个功能可以正确预测。我还希望最终决策规则易于解释/解释,从而进一步需要少量功能。我功能的某些子集高度相关,因此,独立选择最具预测性的几个子集将行不通。我还希望能够对我的功能进行有意义的假设检验。 在这些条件下,以下逐步回归程序是否合理: 给定模型中已经存在的特征(或仅在第一次迭代中截取),选择添加到模型中时产生最大对数似然比的特征。使用似然比卡方检验为在此选择中执行的每个假设检验计算名义P值。这里的无效之处在于,将额外的变量添加到模型中不会提供任何额外的预测能力。另一种选择是,它确实提高了预测能力 将每个迭代的步骤1中测试的假设作为一个族来对待,并使用Benjamini-Hochberg之类的东西为最小P值(针对所选特征)计算错误发现率。 除非满足某些停止条件,否则转到1。 报告对个人特征的错误发现率,但不能用于模型作为一个整体的P值(因为这将是大规模膨胀)。给定先前添加到模型中的所有特征,这些多个测试校正的P值中的每一个均代表该特征的统计显着性。 在这种情况下这样做是否能成功避免所有典型的逐步回归批评?以这种方式计算的错误发现率是否合理?

2
解释R中的drop1输出
在R中,drop1命令输出整洁的东西。 这两个命令应该为您提供一些输出: example(step)#-> swiss drop1(lm1, test="F") 我的看起来像这样: > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC F value Pr(F) <none> 2105.0 190.69 Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 * Examination 1 53.03 2158.1 189.86 …

5
逐步逻辑回归和抽样
我正在对SPSS中的一组数据进行逐步逻辑回归。在此过程中,我将模型拟合到一个随机子集,该子集约为。样本总数的60%,约330例。 我发现有趣的是,每次重新采样数据时,最终模型中都会弹出不同的变量。最终模型中总是存在一些预测变量,但其他预测变量会根据样本而突然出现。 我的问题是这个。处理此问题的最佳方法是什么?我希望看到预测变量的收敛,但事实并非如此。从操作的角度来看,某些模型更具直觉意义(并且更容易向决策者解释),而其他模型则更适合数据。 简而言之,既然变数乱七八糟,那么您将如何建议我呢? 提前谢谢了。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.