什么时候分位数回归比OLS更糟糕?


22

除了某些绝对必须了解条件均值关系的独特情况外,研究人员还应该在哪些情况下选择OLS而不是分位数回归?

我不希望答案是“如果没有必要理解尾巴关系”,因为我们可以使用中位数回归作为OLS的替代物。


4
我认为大多数研究人员会同时接受OLS和分位数回归。方法之间的差异将使您尝试建模的内容更加清晰。关于OLS,如果您采用正态性假设,则确实会获得许多统计资料齐全且详尽的测试方法,大多数统计软件包均提供该方法。
乔纳森·利西奇

Answers:


18

如果您对均值感兴趣,请使用OLS;如果在中位数,请使用分位数。

一个很大的不同是,平均值受到异常值和其他极端数据的影响更大。有时,这就是您想要的。一个例子是,如果您的因变量是附近的社会资本。一个拥有大量社会资本的人的存在对于整个社区而言可能非常重要。


6
让我挑战你的第一句话。既OLS和位数回归(QR)的估计用于数据生成处理Ŷ = X β + ε。如果错误分布具有重尾β Q - [R比更有效的β ö 大号小号。无论哪个条件分布的力矩P Ý | X 我们感兴趣的是,我们应该使用的一个β Ò 大号小号β Q řβy=Xβ+εβ^QRβ^OLSP(y|X)β^OLSβ^QR效率更高。
理查德·哈迪

在@RichardHardy对这个响应的评论之后,中位数只是可估计的分位数之一。Hyndman的这篇论文介绍了一种他称之为增强加法分位数回归的方法,该方法探索了所有分位数,通过增强加法分位数回归来预测电力智能电表数据的不确定性ieeexplore.ieee.org/document/7423794)。
迈克·亨特

15

这个问题的前提似乎有些混乱。在第二段中,它说:“我们可以只使用中位数回归作为OLS的替代品”。请注意,对X的条件中位数进行回归分位数回归。

如果基础数据生成过程中的错误是正态分布的(可以通过检查残差是否正常来评估),则条件均值等于条件中位数。此外,可以使用标准OLS方法针对X维中的给定点确定您可能感兴趣的任何分位数(例如,第95个百分点或第37个百分点)。分位数回归的主要吸引力在于它比OLS更强大。不利的一面是,如果所有假设都得到满足,效率将会降低(也就是说,您需要更大的样本量才能获得相同的功效/您的估算结果将不太准确)。


12

β

y=Xβ+ε

β^QRβ^OLSβ^OLSPY(y|X)β^OLSβ^QR

β^OLSβ^QRβ^OLSβ^QR

参考文献:

  • Koenker,Roger和Jilbert Bassett Jr.“回归分位数”。《计量经济学》:《计量经济学学会杂志》(1978):33-50。

3

彼得·弗洛姆(Peter Flom)给出了一个简洁明了的答案,我只想扩展一下。问题中最重要的部分是如何定义“更差”。

为了定义更糟的情况,我们需要一些度量标准,并将计算配件的好坏的函数称为损失函数。

我们可以对损失函数有不同的定义,每个定义没有对与错,但是不同的定义可以满足不同的需求。两个众所周知的损失函数是平方损失和绝对值损失。

大号sqÿÿ^=一世ÿ一世-ÿ^一世2
大号一种bsÿÿ^=一世|ÿ一世-ÿ^一世|

如果我们使用平方损失作为成功的衡量标准,则分位数回归将比OLS差。另一方面,如果使用绝对值损失,则分位数回归会更好。

彼得·福尔姆(Peter Folm)的回答是:

如果您对均值感兴趣,请使用OLS;如果在中位数,请使用分位数。


我认为您的示例可能会引起误解,因为它处理的是样本内拟合(由于我们已经完全了解样本,因此没有太大意义),而不是针对新观测值的预期损失(目标是预测时)或参数向量估计的损失(当目标是解释时)。有关更多详细信息,请参见在Peter Flom的回答和我的回答下可能发表的评论。
理查德·哈迪

3

ÿ2π

如果要估计均值,则不能从分位数回归中得到。

如果要用最少的假设(但比分位数回归更多的假设)来估计均值和分位数,但效率更高,请使用半参数序数回归。这也给您超出概率。在我的RMS课程笔记中,有一个详细的案例研究,其中在一个数据集上显示,通过有序回归可以实现多个参数(分位数和均值)的平均均值绝对估计误差。但是,对于仅估计均值而言,OLS最佳,而对于仅估计分位数,则分位数回归最佳。

ÿ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.