Questions tagged «regression-strategies»

回归建模策略


7
分解一个连续的预测变量有什么好处?
我想知道在模型中使用它之前,取一个连续的预测变量并将其分解(例如分解为五分位数)的价值是什么。 在我看来,通过对变量进行分类,我们会丢失信息。 这样是否可以为非线性效应建模? 如果我们保持变量连续并且不是真正的线性关系,我们是否需要提出某种曲线以最适合数据?



1
从模型中删除项后的适当剩余自由度
我正在反思有关该问题的讨论,尤其是弗兰克·哈雷尔(Frank Harrell)的评论,即简化模型(即已测试并拒绝了许多解释变量的模型)中的方差估计应使用Ye的广义自由度。哈雷尔教授指出,与最终模型(其中许多变量已被拒绝)相比,这将更接近原始“完全”模型(包含所有变量)的剩余自由度。 问题1。如果我想对简化模型中的所有标准摘要和统计数据使用适当的方法(但未全面实施广义自由度),一种合理的方法是仅使用来自以下模型的剩余自由度:我的剩余方差估算中的完整模型等? 问题2。如果上述情况是正确的,并且我想在中进行操作R,那么它可能像设置一样简单 finalModel$df.residual <- fullModel$df.residual 在模型拟合练习中的某个时刻,使用lm()或类似函数创建了finalModel和fullModel。之后,诸如summary()和confint()之类的函数似乎可以与所需的df.residual一起使用,尽管返回的错误消息表明有人显然已经对finalModel对象进行了修改。

3
评估Hosmer-Lemeshow拟合优度的逻辑回归和解释
众所周知,有两种评估逻辑回归模型的方法,它们正在测试非常不同的事物 预测能力: 获取一个统计数据,该统计数据可衡量您可以基于自变量预测因变量的程度。众所周知的伪R ^ 2是McFadden(1974)和Cox and Snell(1989)。 拟合优度统计 该测试告诉您是否可以通过使模型更复杂来做得更好,实际上是在测试是否存在任何非线性或相互作用。 我在模型上实施了两个测试, 已经添加了二次和交互: >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 …

2
最终(生产准备就绪)模型应该在完整数据上还是仅在训练集中进行训练?
假设我在训练集上训练了多个模型,请使用交叉验证集选择最佳模型,并在测试集上测量性能。所以现在我有了一个最终的最佳模型。我应该在所有可用数据上对其进行再培训还是仅在培训集中接受培训的船舶解决方案?如果是后者,那为什么呢? 更新:正如@ P.Windridge所指出的,交付经过重新训练的模型基本上意味着未经验证就交付了模型。但是我们可以报告测试集的性能,然后正确地在完整数据上对模型进行训练,以期期望性能更好-因为我们使用了最好的模型加上更多的数据。这种方法会引起什么问题?


2
贝叶斯关于过度拟合的思考
我花了很多时间来开发用于验证传统的频繁统计领域中的预测模型的方法和软件。将更多的贝叶斯思想付诸实践和教学时,我发现需要拥抱一些关键差异。首先,贝叶斯预测模型要求分析人员认真考虑可能针对候选特征进行定制的先验分布,这些先验将拉近模型(即,针对不同的预测特征对缩略/惩罚/正则化进行不同程度的惩罚) )。其次,“真实”贝叶斯方法不会产生单个模型,而是会获得整个后验分布以进行预测。 考虑到这些贝叶斯特征,过度拟合意味着什么?我们应该评估一下吗?如果是这样,怎么办?我们如何知道贝叶斯模型何时可用于现场?还是当我们使用我们为预测而开发的模型时,后验将带有所有谨慎的不确定性,这是一个有争议的问题吗? 如果我们强制将贝叶斯模型提炼为单个数字,例如后均值/众数/中位数风险,那么思维将如何改变? 我在这里看到一些相关的想法。在这里可以找到平行讨论。 后续问题::如果我们完全是贝叶斯模型,并且在查看数据之前花了一些时间在先验上,并且我们在适当地指定了数据似然性的情况下拟合了模型,那么我们是否必须对模型过度拟合感到满意?还是我们需要做一些我们在常人世界中所做的事情,在该世界中,随机选择的主题在平均水平上可能会被很好地预测,但是如果我们选择一个预测值非常低或预测值非常高的主题,则会出现回归是什么意思?



3
使用Hosmer等人的模型建立和选择。2013。R中的应用逻辑回归
这是我在StackExchange上的第一篇文章,但是我已经将它用作一种资源已经有一段时间了,我将尽我所能来使用适当的格式并进行适当的编辑。另外,这是一个多部分的问题。我不确定是否应该将问题分为几个不同的帖子,或者只是一个。由于所有问题均来自同一文本的一个部分,因此我认为将其发布为一个问题更为相关。 我正在研究大型哺乳动物物种的栖息地用途,以作为硕士论文。该项目的目的是为森林管理者(最有可能不是统计学家)提供一个实用的框架,以评估他们管理的与该物种有关的土地上的栖息地质量。这种动物相对难以捉摸,是栖息地专家,通常位于偏远地区。关于物种的分布,尤其是在季节方面,进行的研究相对较少。数只动物装有GPS项圈,为期一年。从每只动物的GPS项圈数据中随机选择一百个位置(夏季50个,冬季50个)。此外,在每只动物的家园范围内随机产生50个点,以作为“可用”或“伪缺”位置。 对于每个位置,都在田间采样了几个栖息地变量(树木直径,水平覆盖物,粗糙的木屑等),并通过GIS远程采样了一些变量(海拔,道路距离,崎ness性等)。该变量除具有7个级别的1个类别变量外,大部分都是连续的。 我的目标是使用回归建模来构建资源选择函数(RSF),以对资源单元使用的相对概率进行建模。我想为动物种群(设计类型I)以及每只动物种群(设计类型III)建立一个季节性(冬季和夏季)RSF。 我正在使用R进行统计分析。 我一直在使用的主要文字是… “ Hosmer,DW,Lemeshow,S.和Sturdivant,RX2013。应用逻辑回归。Wiley,Chicester”。 Hosmer等人的大多数示例。使用STATA,我也一直在使用以下2个文本作为R的参考。 “ Crawley,MJ,2005年。统计数据:使用RJ Wiley的介绍,Chichester,西萨塞克斯郡,英格兰。” “植物,RE2012。使用R. CRC出版社,GBR,伦敦的生态和农业空间数据分析。” 我目前正在按照Hosmer等人的第4章中的步骤进行操作。进行“有目的的协变量选择”,并对该过程有一些疑问。我在下面的文字中概述了前几个步骤,以帮助回答我的问题。 步骤1:对每个自变量进行单变量分析(我使用了单变量logistic回归)。单变量检验的p值小于0.25的任何变量都应包含在第一个多变量模型中。 步骤2:拟合包含所有在步骤1中确定要包含的协变量的多变量模型,并使用其Wald统计量的p值评估每个协变量的重要性。在传统意义上不起作用的变量应予以消除,并采用新模型。应使用偏似然比检验将新的较小模型与旧的较大模型进行比较。 步骤3:将较小模型中的估计系数值与大型模型中的相应值进行比较。任何系数的幅度发生显着变化的变量都应重新添加到模型中,因为从提供需要调整模型中剩余变量影响的意义上来说,这一点很重要。循环执行步骤2和3,直到似乎所有重要变量都包含在模型中,而排除的变量在临床和/或统计学上并不重要。Hosmer等。使用“ delta-beta-hat-percent ”来衡量系数幅度的变化。他们提出了显着的变化,即> 20%的delta-beta-hat-percent。Hosmer等。将delta-beta-hat-percent定义为 。其中θ1是从较小的模型系数和β1是从较大的模型系数。Δβ^%=100θ^1−β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} 步骤4:将步骤1中未选择的每个变量一次添加到步骤3结束时获得的模型中,并通过Wald统计p值或偏似然比检验检验其重要性,如果它是分类的具有两个以上级别的变量。这一步对于识别与结果没有显着关系但在存在其他变量的情况下起重要作用的变量至关重要。我们将第4步末的模型称为主要主效应模型。 步骤5-7:我现在还没有进展,所以我暂时不做这些步骤,或者将它们保存下来以解决其他问题。 我的问题: 在第2步中,什么是传统的显着性水平,p值<0.05或更大,例如<.25? 再次在第2步中,我要确保用于部分似然测试的R代码正确无误,并且要确保我正确解释了结果。这是我一直在做的...anova(smallmodel,largemodel,test='Chisq')如果p值显着(<0.05),则将变量添加回模型,如果不重要,则继续删除吗? Δβ^%Δβ^%\Delta\hat{\beta}\%Δβ^%Δβ^%\Delta\hat{\beta}\% Δβ^%Δβ^%\Delta\hat{\beta}\% is correct. I have been using the following code. If there is a package that will do this for me or …

5
我可以忽略线性模型中非重要因素水平的系数吗?
在这里寻求关于线性模型系数的澄清之后,我有一个关于因子水平系数的非有效值(高p值)的后续问题。 示例:如果我的线性模型包含一个具有10个水平的因子,并且其中只有3个水平具有与之相关的显着p值,那么当使用该模型预测Y时,如果受试者属于以下情况之一,我可以选择不包括系数项:非重要级别? 更彻底地讲,将7个不重要的级别合并为一个级别并重新分析是错误的吗?

4
哪些变量解释了哪些PCA组件,反之亦然?
使用此数据: head(USArrests) nrow(USArrests) 我可以这样进行PCA: plot(USArrests) otherPCA <- princomp(USArrests) 我可以在中获得新组件 otherPCA$scores 和方差的比例由组件解释 summary(otherPCA) 但是,如果我想知道哪些变量主要由哪些主要成分来解释?反之亦然:例如PC1或PC2是否主要由解释murder?我怎样才能做到这一点? 例如,我可以说PC1是由murder或解释的80%assault吗? 我认为载荷在这里对我有帮助,但它们显示的是方向性,而不是我理解的方差,例如 otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.