Questions tagged «regression-strategies»

回归建模策略

3
模型选择:Logistic回归
假设我们有协变量和二进制结果变量。这些协变量中的一些属于多个级别。其他是连续的。您将如何选择“最佳”模型?换句话说,您如何选择要在模型中包含哪些协变量?x 1,… ,x n yñnnX1个,… ,xñx1,…,xnx_1, \dots, x_nÿyy 您是否会使用简单的逻辑回归分别对每个协变量建模并选择具有显着关联的变量?ÿyy

3
在逻辑回归(或其他形式的回归)中测试非线性
Logistic回归的一种假设是logit中的线性。因此,一旦我建立了模型并开始运行,就可以使用Box-Tidwell测试来测试非线性。我的一个连续预测变量(X)对非线性进行了正面测试。我接下来该怎么办? 因为这违反了假设,所以我应该摆脱预测变量(X)或包括非线性变换(X * X)。还是将变量转换为分类变量?如果您有参考,也可以给我指出吗?


4
在逻辑回归分析中,对于连续自变量,我应如何检查对数线性的假设?
我对逻辑回归分析中连续预测变量的logit线性假设感到困惑。在使用单变量logistic回归分析筛选潜在预测指标时,我们是否需要检查线性关系? 就我而言,我正在使用多元逻辑回归分析来确定参与者中与营养状况(二分结果)相关的因素。连续变量包括年龄,Charlson合并症评分,Barthel指数评分,握力,GDS评分,BMI等。我的第一步是使用简单的逻辑回归筛选重要变量。在每个连续变量的简单逻辑回归分析过程中,是否需要检查线性假设?还是应该在最终的多元逻辑回归模型中进行检查? 此外,据我了解,我们需要先将非线性连续变量转化为模型,然后再进行转换。我可以对非线性连续变量进行分类而不是进行转换吗?

2
Logistic回归何时合适?
我目前正在自学如何进行分类,特别是正在研究三种方法:支持向量机,神经网络和逻辑回归。我想了解的是为什么逻辑回归会比其他两个更好。 根据我对逻辑回归的理解,这个想法是使逻辑函数适合整个数据。因此,如果我的数据是二进制的,则我所有带有标签0的数据都应映射到值0(或接近它),而我所有带有值1的数据都应映射到值1(或接近它)。现在,由于逻辑函数是连续且平滑的,因此执行此回归需要我所有的数据拟合曲线。决策边界附近的数据点没有受到更大的重视,所有数据点对损失的贡献程度不同。 但是,对于支持向量机和神经网络,只有决策边界附近的那些数据点才重要。只要数据点保留在决策边界的同一侧,它将造成相同的损失。 因此,为什么逻辑回归会比支持向量机或神经网络更胜一筹,原因是逻辑回归会“浪费资源”来使曲线拟合许多不重要的(易于分类的)数据,而不是只关注决策周围的困难数据边界?

4
认为问题非常适合线性回归
我正在使用Montgomery,Peck和Vining的《线性回归分析简介》学习线性回归。我想选择一个数据分析项目。 我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。然而线性回归如此普遍。 经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。

1
Logistic回归中的拟合优度检验;我们要测试哪个“合适”?
我指的是这个问题及其答案:如何比较通过Logistic回归开发的模型的(概率)预测能力?@Clark Chong发表,@ Frank Harrell回答/评论。并在Hosmer-Lemeshow测试和评论中质疑的自由度χ2χ2\chi^2。 我已经阅读了DW Hosmer,T. Hosmer,S. Le Cessie,S. Lemeshow的论文,“ Logistic回归模型的拟合优度检验比较”,《医学统计》,第1卷。16,965-980(1997)。 阅读后,我感到困惑,因为我提到的问题明确要求“(概率)预测能力”,我认为这与上述论文的拟合优度检验旨在: 如我们大多数人所知,逻辑回归假设解释变量和成功概率之间呈S形联系,S形的函数形式为 P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}} 在不假装Hosmer-Lemeshow检验没有缺点的情况下,我认为我们必须区分(a)“(概率)预测能力 ”和(b)“ 拟合优度 ”的检验。 前者的目标是检验概率是否得到了很好的预测,而拟合优度检验则检验了上面的S形函数是否为“正确”函数。更正式地: “概率预测能力测试”的检验具有,表明模型很好地预测了成功概率;H0H0H_0 而对于拟合优度测试,(参见Hosmer等人)认为上述S形功能形式是正确的。Hosmer等。进行仿真,在仿真中他们发现有能力检测到两种与零值的偏差,即链接函数错误或分母中的指数不是线性的。H0H0H_0 显然,如果上述函数具有“正确”的函数形式(因此,如果测试得出结论,我们可以接受作为拟合优度检验),则预测的概率将很好,...H0H0H_0 第一句话 ...但是,接受的结论很微弱,如我们未能否定原假设时该怎么办?。H0H0H_0 第一个问题 我最重要的问题/评论是,如果拟合优度被拒绝,则测试的结论是功能形式不是“正确的”形式,但是,这暗示着概率是预测不好?H0H0H_0 第二个问题 此外,我想指出Hosmer等人的结论。al; (我从摘要中引用): ``当正确的模型具有二次项但仅包含线性项的模型已拟合时,对测试性能的检查表明,皮尔逊卡方,未加权平方和,Hosmer-Lemeshow十分位数风险,平滑的残差平方和和Stukel得分测试,当样本量为100时,具有超过50%的功效来检测线性的适度偏离,对于大小为500的样本,这些相同替代品的功效为90%以上当正确的模型具有二分和连续协变量之间的相互作用,但只有连续协变量模型适合时,所有检验均无功效。对于大小为100的样本,检测到错误指定链接的能力很差。对于大小为500的样本,Stukel' s得分测试的功效最佳,但检测不对称链接功能的结果仅超过50%。未加权平方和检验用于检测指定不正确的链接函数的能力比Stukel的分数检验要小'' 我可以由此得出结论,哪个测试具有更大的功效,或者说Hosmer–Lemeshow的功效更低(检测这些特定异常)? 第二句话 Hosmer等人的论文。等 我在上文中提到过,计算(模拟)检测特定异常的功率(仅在指定情况下才能计算功率)。我认为这并不意味着可以将这些结果推广到“所有可能的替代方案 ”?H1H1H_1H1H1H_1


1
R中具有回归样条的Logistic回归
我一直在根据英国颅脑损伤国家创伤数据库的回顾性数据开发逻辑回归模型。关键结果是30天死亡率(称为“生存”度量)。在以前的研究中,已公开证据表明对结果有重大影响的其他措施包括: Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a …

2
当关联最密切的预测变量是二进制时,如何开始建立回归模型
我有数据集包含365观察三个变量即pm,temp和rain。现在,我想检查是否pm响应其他两个变量的变化。我的变量是: pm10 =响应(取决于) temp =预测变量(独立) rain =预测变量(独立) 以下是我的数据的相关矩阵: > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 问题是,当我研究回归模型的构建时,有人写道,可加方法应从与响应变量最相关的变量开始。在我的数据集中,rain它与pm(与相比temp)高度相关,但是同时它也是一个虚拟变量(rain = 1,norain = 0),所以现在我有了从哪里开始的线索。我为问题附加了两个图像:第一个是数据的散点图,第二个图像是pm10vs. 的散点图rain,我也无法解释pm10vs.的散点图rain。有人可以帮我怎么开始吗?

1
为什么特征选择对于分类任务很重要?
我正在学习功能选择。我明白了为什么它对于模型构建非常重要和有用。但是,让我们专注于监督学习(分类)任务。为什么特征选择对于分类任务很重要? 我看到许多关于特征选择及其在监督学习中的使用的文献,但这使我感到困惑。功能选择与确定要丢弃的功能有关。直观地讲,丢弃某些功能似乎是自欺欺人的:它是在丢弃信息。似乎抛出信息应该无济于事。 即使删除某些功能确实有帮助,但如果我们抛弃某些功能,然后将其余功能馈入有监督的学习算法中,为什么我们需要自己做,而不是让有监督的学习算法来处理呢?如果某个功能没有帮助,难道没有任何像样的监督学习算法会隐式地发现这一点并学习不使用该功能的模型吗? 因此,从直觉上讲,我希望功能选择是毫无意义的练习,永远无济于事,有时甚至会受伤。但是,事实是如此广泛地使用和撰写,使我怀疑我的直觉是错误的。在进行监督学习时,任何人都可以提供任何直觉来说明为什么功能选择有用且重要吗?为什么它可以提高机器学习的性能?是否取决于我使用的分类器?

3
连续数据堆积为零的GLM
我试图运行一个模型来估计结核病,艾滋病等灾难性疾病如何影响住院治疗。我将“每住院费用”作为因变量,并使用各种个体标记作为自变量,几乎所有变量都是虚拟变量,例如性别,户主,贫困状况,当然还有一个关于您是否生病(加上年龄)的虚拟变量。和年龄的平方)和一系列互动条件。 可以预料的是,有大量的数据(我的意思是很多)以零堆积(即,在12个月的参考期内没有住院费用)。处理此类数据的最佳方法是什么? 到目前为止,我决定将成本转换ln(1+cost)为包括所有观察值,然后运行线性模型。我在正确的轨道上吗?

2
仅将LASSO用于特征选择
在我的机器学习课程中,我们了解了LASSO回归如何很好地执行特征选择,因为它利用了正则化。升1个升1个l_1 我的问题是:人们通常是仅使用LASSO模型进行特征选择(然后将这些特征转储到其他机器学习模型中),还是通常使用LASSO进行特征选择和实际回归? 例如,假设您想进行岭回归,但是您认为许多功能都不是很好。运行LASSO,仅提取算法未将其归零的功能,然后仅将那些功能用于将数据转储到ridge回归模型中是否明智?这样,您将获得正则化用于执行特征选择的好处,还正则化用于减少过度拟合的好处。(我知道这基本上等于弹性净回归,但是似乎您不需要在最终回归目标函数中同时拥有l_1和l_2项。)升1个升1个l_1升2升2l_2升1个升1个l_1升2升2l_2 除了回归之外,在执行分类任务(使用SVM,神经网络,随机森林等)时,这是否是明智的策略?

3
Logistic回归中的排名功能
我使用了Logistic回归。我有六个功能,我想知道此分类器中比其他功能更能影响结果的重要功能。我使用了Information Gain,但似乎并不依赖于所使用的分类器。是否有任何方法可以根据特定的分类器(例如Logistic回归)根据其重要性对特征进行排名?任何帮助将不胜感激。

3
为什么要在逻辑回归中对分类预测变量进行WOE转换?
类别变量的证据权重(WOE)转换何时有用? 该示例可以在WOE转换中看到 (因此,对于一个响应,&与分类预测类,& 成功出试验的内个这种预测器的类别,对于所述WOE个类别被定义为k y j n j j jÿÿyķķkÿĴÿĴy_jñĴñĴn_jĴĴjĴĴj 日志ÿĴ∑ķĴÿĴ∑ķĴ(nĴ- ÿĴ)ñĴ- ÿĴ日志⁡ÿĴ∑ĴķÿĴ∑Ĵķ(ñĴ-ÿĴ)ñĴ-ÿĴ\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} &转换包括使用其WOE对分类预测器的每个类别进行编码,以形成新的连续预测器。) 我想了解WOE转换有助于逻辑回归的原因。这背后的理论是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.