线性回归比分位数回归有什么优势?


15

线性回归模型做了一堆假设该位数回归的不和,如果线性回归的假设成立,那么我的直觉(和一些非常有限的经验)是中位数回归将给几乎相同的结果作为线性回归。

那么,线性回归有什么优势呢?当然更熟悉了,但除此之外呢?


3
为了“更熟悉”,我将添加“可解释性”和“稳定性”,但是对我而言,线性回归的优点之一是它可以告诉您均值以及该均值代表样本总体的程度(残差非常有用) 。线性回归在满足其假设时具有同等价值,而在不满足其假设时具有同等价值。
JustGettin

5
我认为在这两个线程中已经讨论了一个重要问题:stats.stackexchange.com/questions/153348/…stats.stackexchange.com/questions/146077/…-在某些情况下,效率甚至可能是最优性假设
Christoph Hanck

1
进一步但次要的一点是,也许可以增加LAD无法使用的显式,封闭形式解决方案的可用性,这可能会使此类技术对从业人员的吸引力降低。
Christoph Hanck

1
答案可能就像比较估计单个总体参数的简单情况,然后表明最小平方误差与高斯误差的表现更好,而最小绝对残差(也使用假设)对于不同类型的误差的表现更好。但是,这个问题是关于更复杂的线性模型的,这个问题开始变得更加复杂和广泛。简单问题的直觉(估计单个均值/中位数)适用于更大的模型,但是应该算出多少呢?以及如何比较异常值,分布和计算的鲁棒性?
Sextus Empiricus

2
就我而言,当响应变量出现偏差(例如客户支出)并且转换/链接函数步骤的引入使整个分析变得模糊时,我发现分位数回归对于非技术人员来说更容易解释。从这个意义上讲,我会主张“ 中位数回归将给出与线性回归几乎相同的结果 ”的说法,不过过于简单了。情况并非如此,尤其是在处理可能偏斜的响应变量时。
usεr11852恢复单胞菌说,

Answers:


10

人们经常说,最小化最小二乘残差比最小化绝对残差更可取,因为它在计算上更简单。但是,由于其他原因,它可能也会更好。即,如果这些假设是正确的(并且这种情况并不太常见),那么它提供的解决方案(平均)更为准确。

最大似然

最小二乘回归和分位数回归(当通过使绝对残差最小化执行时)可以看作是使高斯/拉普拉斯分布误差的似然函数最大化,并且在这种意义上非常相关。

  • 高斯分布:

    f(x)=12πσ2e(xμ)22σ2

    当最小化残差平方和时,对数似然最大化

    日志大号X=-ñ2日志2π-ñ日志σ-12σ2一世=1ñX一世-μ2残差平方和

  • 拉普拉斯分布:

    FX=12bË-|X-μ|b

    当使绝对残差之和最小时,对数似然性最大化

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|绝对残差之和

注意:拉普拉斯分布和绝对残差之和与中位数有关,但可以通过对负残差和正残差赋予不同的权重将其推广到其他分位数。

已知错误分布

当我们知道误差分布时(假设可能成立),选择相关的似然函数是有意义的。最小化该功能更为理想。

通常,错误是(大约)正态分布的。在使用最小二乘这种情况下是找到参数的最佳方式(其涉及两个的平均值和中值)。这是最好的方法,因为它具有最低的样本方差(在所有无偏估计量中最低)。或者,您可以更强烈地说:它是随机主导的(请参阅本问题中的插图,比较样本中位数和样本均值的分布)。μ

因此,当误差为正态分布时,样本均值比分布中位数是更好的分布中位数估计量。最小二乘回归是对分位数的最佳估计。它比使用最少的绝对残差总和更好。

由于有许多问题处理正态分布误差,因此最小二乘法非常受欢迎。要使用其他类型的分布,可以使用广义线性模型。并且,可用于求解GLM的迭代最小二乘法也适用于拉普拉斯分布(即用于绝对偏差),这等效于找到中值(或在广义版本中为其他分位数)。

错误分布未知

坚固性

中位数或其他分位数的优势在于,它们在分布类型方面非常强大。实际值无关紧要,分位数只关心顺序。因此,无论分布是什么,最小化绝对残差(等同于找到分位数)都非常有效。

这个问题在这里变得复杂而广泛,它取决于我们对分布函数具有或不具有哪种类型的知识。例如,分布可以近似为正态分布,但是仅具有一些其他异常值。这可以通过删除外部值来解决。去除极值甚至可以估算柯西分布的位置参数,在该参数中,均值被截断的平均值可能比中位数更好。因此,不仅对于假设成立时的理想情况,而且对于一些不太理想的应用程序(例如,其他异常值),可能都有很好的鲁棒方法,这些方法仍然使用某种形式的残差平方和而不是绝对残差之和。

我想象带有残差截断的回归可能在计算上更加复杂。因此实际上可能是分位数回归,这是执行回归的类型,因为它在计算上更简单(不比普通的最小二乘简单,但比截断的最小二乘简单)。

有偏/无偏

另一个问题是有偏估计与无偏估计。在上文中,我将平均值的最小似然估计(即最小二乘解)描述为一个好的或可取的估计器,因为它通常在所有无偏估计器中具有最低的方差(当误差为正态分布时)。但是,有偏估计可能更好(期望误差的平方和更低)。

这使问题再次变得广泛而复杂。有许多不同的估算器和许多不同的情况可以应用它们。自适应残差平方和损失函数的使用通常可以很好地减少误差(例如,各种正则化方法),但不一定适用于所有情况。直觉上可以想象,由于平方残差损失函数之和通常适用于所有无偏估计量,因此最佳偏置估计量可能接近残差平方函数之和。


当我们知道误差分布时,选择关联的似然函数是有意义的。最小化该功能更为理想。并不是说这是错误的,但可能应该是合格的。当然,这再次与在不同损失函数下关于最优估计的问题(您回答的)有关。
理查德·哈迪

这是最好的方法,因为它具有最低的样本方差。方差通常不是明智的损失函数,因为它会忽略偏差。一个合理的对应方应该是考虑了方差和偏差的平方误差(即均方误差)。最小二乘回归是对分位数的最佳估计。中位数–是,但是其他?如果是,那为什么呢?无论如何,您的答案是非常好的!
理查德·哈迪

1
@RichardHardy这个话题如此广泛。确实,误差=方差+偏差。我假设样本均值的偏差与样本中位数相同(或更笼统:残差平方和的最小和绝对残差的最小具有相同的偏差)。给定各种错误分布(例如对称错误分布),这是正确的,但实际上对于其他情况,问题变得更加复杂。(主要是因为误差通常是正态分布的,这使得最小二乘回归是有利的)
Sextus Empiricus

1
当我们不考虑中位数,而是考虑其他分位数时,同样(问题的复杂性)是正确的。对于正态分布错误,我相信无论分位数如何,MLE都能提供最佳结果,但是我同意这是直觉。同样,问题非常广泛(取决于样本数,错误分布的类型以及对此的确定性等)。
Sextus Empiricus

1
一个破碎的时钟是完全正确的,一天两次,我不会叫MLE一个破碎的时钟。当然,当您很好地了解问题后,便可以引入一些减少方差的偏差来改善整体误差。这不一定要转向其他(分位数)回归类型,您也可以在最小二乘的面包和黄油上放一些果酱或蜂蜜。如果您确实希望将MLE与损坏的时钟进行比较,那么它恰好在我们最常使用的时间静止不动。
Sextus Empiricus

2

在计算线性回归系数时,线性回归可归结为最小二乘优化。这意味着与回归模型的偏差具有对称性。分位数回归(QR)的一个很好的解释是在https://data.library.virginia.edu/getting-started-with-quantile-regression/中

如果满足LR假设(推理所需:p值,置信区间等),则QR和LR预测将相似。但是,如果假设被严重违反,则您的标准LR推论将是错误的。因此,0.5分位数(中位数)回归比LR具有优势。在为其他分位数提供回归方面,它也提供了更大的灵活性。线性模型的等效项将是根据LR计算的置信界(尽管如果强烈违反iid的话,这将是错误的)。

那么LR的优势是什么?当然,它更容易计算,但是如果您的数据集大小合理,则可能不会引起太大的注意。但更重要的是,LR推断假设可提供降低不确定性的信息。结果,预测的LR置信区间通常会更窄。因此,如果对该假设有强大的理论支持,则更窄的置信区间可能是一个优势。


2

Ëÿ|XÿXËÿ|X=Xββ

分位数回归可用于估计条件分布的任何分位数,包括中位数。这可能会提供比条件分布平均值更多的信息。如果条件分布不对称或尾部可能很粗(例如风险分析),则即使满足所有线性回归的假设,分位数回归也将有所帮助。

当然,相对于线性回归,在数字上进行分位数估计会更加密集,但是通常更健壮(例如,正中值比离群值的均值更健壮)。此外,在不进行线性回归的情况下(例如,对于审查数据),这是合适的。由于方差-协方差矩阵的直接估计可能很困难或计算量很大,因此推断可能会比较棘手。在这种情况下,可以进行引导。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.