我有一项研究,其中许多结果都以百分比表示,并且我正在使用多个线性回归来评估某些类别变量对这些结果的影响。
我想知道,由于线性回归假设结果是连续分布,因此将这种模型应用于百分比(限制在0到100之间)是否存在方法上的问题?
我有一项研究,其中许多结果都以百分比表示,并且我正在使用多个线性回归来评估某些类别变量对这些结果的影响。
我想知道,由于线性回归假设结果是连续分布,因此将这种模型应用于百分比(限制在0到100之间)是否存在方法上的问题?
Answers:
我将解决与离散或连续可能性相关的问题:
均值描述存在问题
您有一个有限的回应。但是,您要拟合的模型没有边界,因此可以直接通过边界进行爆炸。您的某些拟合值可能是不可能的,而预测值最终必须是。
逼近界限时,真正的关系必须最终变得比中间的关系更加平坦,因此可以期望它会以某种方式弯曲。
方差描述存在问题
随着均值趋近界限,在其他条件相同的情况下,方差也会趋于减小。均值和界限之间的空间较小,因此总体变异性趋于减小(否则,平均值将趋于从界限中拉开,因为平均而言,点在不靠近界限的一侧平均距离更远。
(实际上,如果某个邻域中的所有人口值都恰好在边界处,则方差将为零。)
处理这种界限的模型应考虑这种影响。
如果比例用于计数变量,则比例分配的通用模型是二项式GLM。均值比例和预测变量之间的关系形式有多种选择,但是最常见的选择是逻辑GLM(常用的其他几种选择)。
如果比例是连续的(例如乳汁中奶油的比例),则有很多选择。Beta回归似乎是一个相当普遍的选择。同样,它可能使用均值和预测变量之间的对数关系,或者可能使用其他函数形式。
另请参见回归以得到0到1之间的结果(比率或分数)。
这与结果在0到1之间的情况完全相同,并且通常使用广义线性模型(GLM)(如逻辑回归)来处理这种情况。互联网上有很多关于逻辑回归(和其他GLM)的出色入门,而且还有Agresti着名的有关该主题的书。
Beta回归是可行但更复杂的选择。逻辑回归很可能适合您的应用程序,并且通常使用大多数统计软件都更容易实现。
为什么不使用普通最小二乘回归?实际上,人们确实做到了,有时以“线性概率模型”(LPM)为名。LPM之所以“不好”,最明显的原因是没有简单的方法将结果限制在一定范围内,并且您可以获得高于1(或100%或任何其他有限上限)且低于0(或其他下限)。出于相同的原因,上限附近的预测在系统上往往太高,而下限附近的预测在系统上太低。线性回归的数学基础明确地假设不存在这种趋势。通常,没有理由将LPM拟合为逻辑回归。
顺便说一句,事实证明,所有的OLS回归模型,包括LPM,都可以定义为一种特殊的GLM,在这种情况下,LPM与逻辑回归相关。