结果(比率或分数)在0到1之间的回归


41

我正在考虑建立一个预测比率的模型,其中和且。因此,该比率将在和之间。一个b > 0 b > 0 0 1a/baba>0b>001

我可以使用线性回归,尽管它自然不限于0.1。我没有理由相信这种关系是线性的,但是无论如何,它当然经常被用作简单的第一个模型。

我可以使用逻辑回归,尽管通常将其用于预测两态结果的概率,而不是从0.1.1范围内预测连续值。

一无所知,您将使用线性回归,逻辑回归还是隐藏选项c


4
您是否考虑过Beta回归?
彼得·弗洛姆

非常感谢所有回答的人。我将不得不学习并选择。听起来像是Beta版是一个不错的起点,尤其是如果我能观察到良好的身材(也许是肉眼)的话。
dfrankow

我已经看到使用GLM(泊松链接函数)完成此操作。分子a将是计数数据(结果),分母b将是偏移变量。然后,您需要为每个主题/观察值分别设置ab值。我只是不确定这是否是最有效的选择。我发现Beta发行版是一个有趣的选择-我从未听说过。但是,作为非统计人员,我很难理解。
MegPophealth 2014年

谢谢大家的深入和有用的分析,我目前正面临几乎相同的挑战,但我不想建立一个预测效用范围介于-1之间的回归模型,而不是预测0-1之间的连续比率范围。和1。这非常棘手,我找不到适合建立连续相关范围在-1和1之间的回归模型的任何链接函数。所以,人们只想知道可以做什么。谢谢,

1
目前,有一个简单的答案:将缩放为将范围内的链接为任意,然后您可以根据需要重新缩放以报告预测。ÿ + 1 / 2 [ 0 1 ]y(y+1)/2[0,1]
尼克·考克斯

Answers:


34

您应该选择“隐藏选项c”,其中c是beta回归。这是一种回归模型,当响应变量以Beta分布时适用。您可以将其视为类似于广义线性模型。这正是您想要的。有一个R叫做betareg的软件包可以处理这个问题。我不知道您是否使用R,但即使您不这样做,也无论如何都可以阅读“小插曲”,除了可以实现该主题外,他们还将为您提供有关该主题的一般信息(在该主题中R您不需要这种情况)。


编辑(稍后): 让我快速澄清一下。我认为这个问题是关于两个正的实际价值的比率。如果是这样,则它们是Beta分布(并且它们作为Gamma分布)。但是,如果是已知试验总数中“成功”的计数,那么这将是的计数比例,而不是连续的比例,因此应使用二项式GLM(例如,逻辑回归)。有关如何在R中执行此操作,请参见例如,当结果为分数(两个计数之比)时如何在R中进行逻辑回归?b a / baba/b

如果可以对比率进行转换以满足标准线性模型的假设,则另一种可能性是使用线性回归,尽管我对实际工作并不乐观。


1
您介意在这种情况下为什么最好使用beta回归吗?这是我在这里经常看到的建议,但是我真的看不到有人在阐述其基本原理-真是太好了!
马特·帕克

4
@ MattParker,Beta是连续比例的分布-如果这就是您的响应变量,则Beta是要使用的适当分布。真的就是这么简单。逻辑回归的拟合值是一个概率(显然是连续的),但是如果您的响应变量不是一组伯努利试验,则分布是二项式(一定数量的伯努利试验与成功概率)。适当。p
gung-恢复莫妮卡

3
我会小心地说,beta是要使用的“适当”发行版。这是相当灵活的,可能很合适,但并不涵盖所有情况。因此,尽管它是一个很好的建议,很可能是他们想要的东西-你真的不能说,这是适当的分布完全的事实,它是0和1之间的连续反应
达诚

1
[0,1]上的三角形分布表示不是β的比例的连续分布。可能还有很多其他人。Beta是一个灵活的家庭,但没有什么神奇的。您确实对逻辑回归提出了一个很好的观点,因为它通常应用于二进制数据。
Michael Chernick

2
也许我应该尽量减少教条。我的意思是,您检查DV并使用其后的分配。的确,还有其他连续比例的分布。从技术上讲,Beta是Gamma与其总和+另一个Gamma之和的比率。在给定的情况下,不同的分布可能会更好。例如Beta不能取值0或1,只能取(0,1)。尽管如此,Beta很好理解并且非常灵活,仅需两个参数即可拟合。我认为当以连续比例交易DV时,通常是最好的起点。
gung-恢复莫妮卡

2

这些是配对样本还是两个独立种群?

如果是独立种群,则可以考虑log(M)= log(B)+ * log(ratio)Xi。M是您的测量(包含A和B的所有值的向量),X是向量 = 1(如果是A的值), = 0(如果是B的值)。中号X 中号XiMiXiMi

您对该回归的截距为log(B),斜率为log(ratio)。

在这里查看更多:

Beyene J,Moineddin R.比率参数的置信区间估计方法及其在位置商中的应用。BMC医学研究方法论。2005; 5(1):32。

编辑:我写了一个SPSS插件来做到这一点。如果您有兴趣,我可以分享。


1
出于好奇,您使用了哪种方法(delta,Fieller或GLM)?令我有些沮丧的是,BMC文章并未对不同估计量的覆盖范围进行某些模拟(尽管梦想一个现实的模拟会很烦人)。提醒我的原因是,尽管我确实引用了BMC文章,但最近遇到了一篇采用delta方法(无实际理由)的论文。
安迪W

1
回到我写此评论时,我REGRESSION在对数据进行日志转换之后使用。从那时起,我编写了一个使用的更复杂的版本GLM。我处理的是发光测量,我的测试建议使用对数链接进行伽马回归是最不容易出现参数不确定性的情况。对于我的大部分真实数据,使用正态,负二项式和伽马与对数链接的答案都非常相似(至少与我需要的精度相同)
DocBuckets 2013年

0

不对。Logistic回归的数据是二进制0或1,但是模型预测p表示给定预测变量,的成功概率其中是模型中预测变量的数量。实际上,由于有logit函数,线性模型可以预测log()的值。因此,要获得对p的预测,只需进行逆变换,其中是预测对数。= 1 2 ķ ķ pXii=1,2,..,kk p=expxp1p xp=exp(x)[1+exp(x)]x


-1。我看不出它是如何回答这个问题的(此外,在该回答中,用于表示两个不同的事物)。p
变形虫说莫妮卡(Monica)恢复职权

2
-1。我同意@amoeba。我感到困惑的是为什么有人曾对此表示反对。它不涉及这个问题,该问题根本不假设二进制数据为0或1,而是集中于0到1(含0和1)之间的测量比例。
Nick Cox'17
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.