在线性回归中使用百分比结果有什么问题?


11

我有一项研究,其中许多结果都以百分比表示,并且我正在使用多个线性回归来评估某些类别变量对这些结果的影响。

我想知道,由于线性回归假设结果是连续分布,因此将这种模型应用于百分比(限制在0到100之间)是否存在方法上的问题?


1
这些百分比是连续的(例如,像牛奶中的奶油所占的百分比),还是离散的(例如,二项式的比例,总计数中某些类别的计数)?
Glen_b-恢复莫妮卡2014年

1
嗯...我没什么区别。他们不是都连续吗?无论如何,我认为第二种方法可以更好地描述我的数据,因为我们谈论的是总人数不足的人。
巴卡堡2014年

计数除以计数的分布肯定是离散的。实际上,分子通常建模为二项式,分母以条件为基础(视为常数),因此该比率通常被视为缩放的二项式。但是,即使分母也是一个随机变量,该比率仍将是离散的,因为其样本空间是可数的
Glen_b -Reinstate Monica 2014年

Answers:


17

我将解决与离散或连续可能性相关的问题:

  1. 均值描述存在问题

    您有一个有限的回应。但是,您要拟合的模型没有边界,因此可以直接通过边界进行爆炸。您的某些拟合值可能是不可能的,而预测值最终必须是。

    逼近界限时,真正的关系必须最终变得比中间的关系更加平坦,因此可以期望它会以某种方式弯曲。

  2. 方差描述存在问题

    随着均值趋近界限,在其他条件相同的情况下,方差也会趋于减小。均值和界限之间的空间较小,因此总体变异性趋于减小(否则,平均值将趋于从界限中拉开,因为平均而言,点在不靠近界限的一侧平均距离更远。

(实际上,如果某个邻域中的所有人口值都恰好在边界处,则方差将为零。)

处理这种界限的模型应考虑这种影响。

如果比例用于计数变量,则比例分配的通用模型是二项式GLM。均值比例和预测变量之间的关系形式有多种选择,但是最常见的选择是逻辑GLM(常用的其他几种选择)。

如果比例是连续的(例如乳汁中奶油的比例),则有很多选择。Beta回归似乎是一个相当普遍的选择。同样,它可能使用均值和预测变量之间的对数关系,或者可能使用其他函数形式。

另请参见回归以得到0到1之间的结果(比率或分数)


1
+1,我随意添加了指向该主题的“主”线程的链接(gung的回答也涵盖了beta和logistic选项)。
变形虫说莫妮卡(Reonica Monica)

2
一个简单的通用论证是,如果均值为0,则只有在所有值均为0时才有可能,类似地,当1 = 100%并且所有值均为1时。因此,无论比例是否基于,均方差必须为0。计数或测量。尽管所有其他值都有可能是恒定的,但实际上这很少见。因此方差将是最高为0和1之间的某个值
尼克考克斯

您能为上述2个问题提供一些参考吗?
user1607

3

这与结果在0到1之间的情况完全相同,并且通常使用广义线性模型(GLM)(如逻辑回归)来处理这种情况。互联网上有很多关于逻辑回归(和其他GLM)的出色入门,而且还有Agresti着名的有关该主题的书。

Beta回归是可行但更复杂的选择。逻辑回归很可能适合您的应用程序,并且通常使用大多数统计软件都更容易实现。

为什么不使用普通最小二乘回归?实际上,人们确实做到了,有时以“线性概率模型”(LPM)为名。LPM之所以“不好”,最明显的原因是没有简单的方法将结果限制在一定范围内,并且您可以获得高于1(或100%或任何其他有限上限)且低于0(或其他下限)。出于相同的原因,上限附近的预测在系统上往往太高,而下限附近的预测在系统上太低。线性回归的数学基础明确地假设不存在这种趋势。通常,没有理由将LPM拟合为逻辑回归。

顺便说一句,事实证明,所有的OLS回归模型,包括LPM,都可以定义为一种特殊的GLM,在这种情况下,LPM与逻辑回归相关。


4
尽管总的来说,这个答案看起来很有价值,但其中包含的一些错误信息可能会使读者感到困惑。在第一段中,逻辑回归的描述听起来像是对因变量的对数转换的描述,然后是线性回归:这不是逻辑回归。系数的解释也不太正确。“ LPM”的一个更重要的问题是,当数据接近极限时,它们可能表现出残差的不对称分布,这严重违反了回归的同上假设。
ub

我认为不值得介绍赔率之类的东西。我将这些东西剥离掉,然后让OP对其进行阅读。关于残差也很好。
shadowtalker 2014年

(+1)感谢您的建设性回应!
ub

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.