该线性回归模型做了一堆假设该位数回归的不和,如果线性回归的假设成立,那么我的直觉(和一些非常有限的经验)是中位数回归将给几乎相同的结果作为线性回归。
那么,线性回归有什么优势呢?当然更熟悉了,但除此之外呢?
该线性回归模型做了一堆假设该位数回归的不和,如果线性回归的假设成立,那么我的直觉(和一些非常有限的经验)是中位数回归将给几乎相同的结果作为线性回归。
那么,线性回归有什么优势呢?当然更熟悉了,但除此之外呢?
Answers:
人们经常说,最小化最小二乘残差比最小化绝对残差更可取,因为它在计算上更简单。但是,由于其他原因,它可能也会更好。即,如果这些假设是正确的(并且这种情况并不太常见),那么它提供的解决方案(平均)更为准确。
最小二乘回归和分位数回归(当通过使绝对残差最小化执行时)可以看作是使高斯/拉普拉斯分布误差的似然函数最大化,并且在这种意义上非常相关。
高斯分布:
当最小化残差平方和时,对数似然最大化
拉普拉斯分布:
当使绝对残差之和最小时,对数似然性最大化
注意:拉普拉斯分布和绝对残差之和与中位数有关,但可以通过对负残差和正残差赋予不同的权重将其推广到其他分位数。
当我们知道误差分布时(假设可能成立),选择相关的似然函数是有意义的。最小化该功能更为理想。
通常,错误是(大约)正态分布的。在使用最小二乘这种情况下是找到参数的最佳方式(其涉及两个的平均值和中值)。这是最好的方法,因为它具有最低的样本方差(在所有无偏估计量中最低)。或者,您可以更强烈地说:它是随机主导的(请参阅本问题中的插图,比较样本中位数和样本均值的分布)。
因此,当误差为正态分布时,样本均值比分布中位数是更好的分布中位数估计量。最小二乘回归是对分位数的最佳估计。它比使用最少的绝对残差总和更好。
由于有许多问题处理正态分布误差,因此最小二乘法非常受欢迎。要使用其他类型的分布,可以使用广义线性模型。并且,可用于求解GLM的迭代最小二乘法也适用于拉普拉斯分布(即用于绝对偏差),这等效于找到中值(或在广义版本中为其他分位数)。
中位数或其他分位数的优势在于,它们在分布类型方面非常强大。实际值无关紧要,分位数只关心顺序。因此,无论分布是什么,最小化绝对残差(等同于找到分位数)都非常有效。
这个问题在这里变得复杂而广泛,它取决于我们对分布函数具有或不具有哪种类型的知识。例如,分布可以近似为正态分布,但是仅具有一些其他异常值。这可以通过删除外部值来解决。去除极值甚至可以估算柯西分布的位置参数,在该参数中,均值被截断的平均值可能比中位数更好。因此,不仅对于假设成立时的理想情况,而且对于一些不太理想的应用程序(例如,其他异常值),可能都有很好的鲁棒方法,这些方法仍然使用某种形式的残差平方和而不是绝对残差之和。
我想象带有残差截断的回归可能在计算上更加复杂。因此实际上可能是分位数回归,这是执行回归的类型,因为它在计算上更简单(不比普通的最小二乘简单,但比截断的最小二乘简单)。
另一个问题是有偏估计与无偏估计。在上文中,我将平均值的最小似然估计(即最小二乘解)描述为一个好的或可取的估计器,因为它通常在所有无偏估计器中具有最低的方差(当误差为正态分布时)。但是,有偏估计可能更好(期望误差的平方和更低)。
这使问题再次变得广泛而复杂。有许多不同的估算器和许多不同的情况可以应用它们。自适应残差平方和损失函数的使用通常可以很好地减少误差(例如,各种正则化方法),但不一定适用于所有情况。直觉上可以想象,由于平方残差损失函数之和通常适用于所有无偏估计量,因此最佳偏置估计量可能接近残差平方函数之和。
在计算线性回归系数时,线性回归可归结为最小二乘优化。这意味着与回归模型的偏差具有对称性。分位数回归(QR)的一个很好的解释是在https://data.library.virginia.edu/getting-started-with-quantile-regression/中。
如果满足LR假设(推理所需:p值,置信区间等),则QR和LR预测将相似。但是,如果假设被严重违反,则您的标准LR推论将是错误的。因此,0.5分位数(中位数)回归比LR具有优势。在为其他分位数提供回归方面,它也提供了更大的灵活性。线性模型的等效项将是根据LR计算的置信界(尽管如果强烈违反iid的话,这将是错误的)。
那么LR的优势是什么?当然,它更容易计算,但是如果您的数据集大小合理,则可能不会引起太大的注意。但更重要的是,LR推断假设可提供降低不确定性的信息。结果,预测的LR置信区间通常会更窄。因此,如果对该假设有强大的理论支持,则更窄的置信区间可能是一个优势。