对连续因变量使用逻辑回归


9

我最近对研究论文进行了修订,以下是审稿人对我论文的评论:

从一个模型获得的结果并不令人信服,特别是线性回归通常在处理离群值方面存在缺陷。我建议作者还尝试进行逻辑回归,并将相应结果与当前结果进行比较。如果获得类似的观察结果,结果将更加可靠。

审稿人的评论正确吗?Logistic回归优于多元线性回归吗?

问题是我的因变量不是分类变量,而是比例变量。我现在能做什么?您建议使用什么其他回归方法评估模型?

得分是下表中的因变量。新近度,频率,任期和最后得分是独立变量。

在此处输入图片说明

我从一个站点中提取了这些变量,并假设这些自变量得分重大影响。因此,我代表以下模型:

在此处输入图片说明


顺便说一下,此线性模型的R平方值是0.316!审阅者也对此值发表了评论:

由于没有关于学习系数质量的指标,因此结果令人信服。小R ^ 2不能表示良好的性能,因为模型可能过拟合。

R平方的0.316非常低吗?在以前的论文中,我看到了很多类似的价值观。

在此处输入图片说明


这只是次要点,但是了解分数的计算方式有助于提供良好的答案。您可以编辑您的问题以通知我们吗?
ub

我编辑我的帖子。我的统计知识不好。如果您能帮助我,我将非常感谢。
PSS 2013年

1
关于连续因变量运行逻辑回归没有任何想法吗???
PSS 2013年

1
分数必须在0到100之间吗?在这种情况下,您可以除以100,并对所得变量进行逻辑回归,该变量始终在0到1之间……用这种方式做事感觉有些奇怪,我不确定它的合理性,但是也许这就是审稿人的建议?
Sam Livingstone 2013年

2
不,缩放到0-1或丢弃对分数进行分类的有价值的信息根本不是好的解决方案。
Frank Harrell 2014年

Answers:


7

比例赔率序数逻辑回归模型应该可以很好地解决此问题。对于可以允许数千个唯一值的有效实现,请参见R 包中的函数。ÿormrms


我安装了R和所有必需的软件包。您能否提供一些有关orm函数的示例?我没有通过搜索找到。对于我的回归模型,代码应该是什么?
PSS

1
值得花时间研究文档。有关带有代码的详细案例研究,请参见biostat.mc.vanderbilt.edu/CourseBios330下的讲义-有关连续回归模型的章节。ÿ
Frank Harrell 2013年

1

您也可以尝试通过将值1、2、3和4分别分配给第1个,第4个百分位数,第4个百分位数的分数来尝试订购有序的Probit / Logit模型。


您建议将哪个变量降低到最低的四个百分位数(100个百分位数)?这将完成什么,为什么?
ub

-1

您可以将分数二分(转换为二进制变量)。如果分数是0到100,则可以将0分配给小于50的任何分数,否则分配1。我从未听说过这是一种处理异常值的好方法。这可能只会隐藏异常值,因为将无法区分非常高或非常低的分数。这对我来说意义不大,但是您可以尝试一下。

更重要的是,为什么要对所有协变量和响应变量进行对数转换?这会影响你β 估计和您的 [R2 (我认为)。

审稿人还说一小 [R2建议过拟合?我以为过拟合是当你[R2较高,但是您的模型在新数据上的效果较差(即,它适合您的数据,但不能推广到新数据)。当您尝试使用大量参数预测的观测值很少时,往往会发生过度拟合。这是您在Model 2中所做的,因为您要尝试使用7个参数来解释8个观测值。

我不会假装我对统计知识了解很多,但是根据他的评论,在我看来,这位审稿人可能知道的甚至更少。


非常感谢您的回复。因为所有变量都是偏斜的,所以我自然对数转换了它们。我对吗?感谢您澄清“过度拟合”的含义!实际上,我不知道过度拟合的含义。现在,我可以回复审稿人和编辑。顺便说一句,您对我有什么建议,以使我的评估更加扎实?您认为哪种回归方法更好?
PSS 2013年

6
不要二等分 ÿ出于任何原因。
Frank Harrell 2013年

我同意@FrankHarrell的观点,即选择任意阈值将数据二等分没有任何意义。这是您的整个数据集吗?如果您的观察结果很少,那么您的数据就永远看起来不会呈正态分布!另外,您还需要了解要处理的数据类型。它们可以取什么值范围,是否明智地假设它们应该呈正态分布?我将研究弗兰克关于使用有序逻辑回归的建议,但我的猜测是它使用分数的顺序而不是回归中的值。
pontikos 2013年

@PotentialScientist,您的发行版是否倾斜都没有关系。在OLS(典型)回归中,仅残差的分布很重要,请参见此处:如果残差是正态分布的,但是y不是。您可能还需要阅读以下内容:解释日志转换后的预测变量,以了解由于转换预测变量而导致的模型发生了什么。
gung-恢复莫妮卡

@PotentialScientist你好吗?如果您编辑问题以提供CSV格式的数据,我可以尝试运行Harrell教授建议的orm函数,我们可以分析输出。值得您学习R的基础知识(如何读取文件并运行回归)。
pontikos

-1

甚至可以对连续因变量应用逻辑回归。如果您要确保预测score值始终在合理范围内,那么这是有道理的[0, 100](我从您的屏幕截图中判断出预测值在100点范围内)。

要实现此目标,只需将您的得分除以100,然后使用[0,1]基于此的目标变量(如本问题所述)进行逻辑回归,例如,可以R使用,

glm(y~x, family="binomial", data=your.dataframe)

我不知道这种方法是否对异常值有所帮助-这取决于您期望的异常值类型。但有时会提高合身性(即使[R2,如果您的因变量具有自然的上下限。

至于第二个问题, [R20.3可能是最好的,您可以从数据中挤出而不会过度拟合。如果您出于推理目的构建模型,[R2只要对您重要的系数很重要,就完全可以了。如果要检查模型是否过拟合,可以检查其[R2 在测试集上,甚至进行交叉验证。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.