分位数回归如何“起作用”?


25

我希望获得分位数回归的直观,易于理解的解释。

假设我有一个简单的结果数据集Y,以及预测变量。X1,X2

例如,如果我在.25,.5,.75处进行分位数回归,并返回。β0,.25,β1,.25...β2,.75

β可以通过简单地对值进行排序并根据给定分位数附近的示例执行线性回归来找到值?y

还是所有样本都随着距离分位数的距离增加而权重下降而对估计有所贡献?β

还是完全不同?我尚未找到易于理解的解释。


Answers:


21

我推荐Koenker&Hallock(2001年,经济观点杂志)和Koenker的同名教科书

  1. 起点是观察到数据集的中位数使绝对误差之和最小。也就是说,50%的分位数是解决特定优化问题的方法(以找到使绝对误差之和最小的值)。
  2. 由此很容易发现,任何位数都是特定最小化问题的解决方案,即使用权重取决于τ来最小化不对称加权绝对误差之和。ττ
  3. 最后,为了迈出回归的一步,我们将这个最小化问题的解决方案建模为预测变量的线性组合,因此现在的问题是找到一个值而不是一组回归参数。

因此,您的直觉是完全正确的:所有样本都对估计值有所贡献,其权重不对称取决于我们要达到的分位数τβτ


关于您的观点1),仅假设Y是对称分布的,这不是真的吗?如果Y像{1,1,2,4,10}那样倾斜,则中位数2当然不会使绝对误差最小化。分位数回归是否总是假设Y是对称分布的?谢谢!

1
@Ben:不,不需要对称。关键是中位数使预期的绝对误差最小。如果您的离散分布值为1,2,4,10,概率分别为0.4、0.2、0.2、0.2,那么点汇总2确实可以使预期的绝对误差最小。模拟只是几行R代码:foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
S. Kolassa-恢复莫妮卡

(是的,我应该在回答中更清楚一些,而不是讨论“和”。)
S. Kolassa-恢复莫妮卡

德普 我在想什么 现在,这很有意义,谢谢。

19

分位数回归的基本思想来自以下事实:分析师对数据的分布感兴趣,而不仅仅是数据的意思。让我们从卑鄙开始。

平均回归拟合的线的形式的与平均数据。换句话说,È ÿ | X = X = X β。估计这行的一般方法是使用最小二乘法,ARG 分钟βÝ - X β 'Ý - X β ÿ=XβËÿ|X=X=Xβ精氨酸βÿ-Xβÿ-Xβ

另一方面,中位数回归寻找一条线,该线预期一半的数据在一边。在这种情况下的目标函数是其中| | 是第一个规范。精氨酸β|ÿ-Xβ|||

将中位数的概念扩展到分位数会导致分位数回归。背后的想法是找到一条数据的百分比超出该范围的线。α

在这里,您犯了一个小错误,Q回归并不像查找数据的分位数然后将线拟合到该子集(甚至是更具挑战性的边界)一样。

Q回归寻找一条线,该线将数据拆分为一个分位数的qroup ,其余部分。目标函数,Q-回归说检查功能是 β α = ARG 分钟β { α | Ÿ - X β | ÿ > X β + 1 - α | Ÿ - X β | ÿ < X β }α

β^α=精氨酸β{α|ÿ-Xβ|一世ÿ>Xβ+1个-α|ÿ-Xβ|一世ÿ<Xβ}

如您所见,这个聪明的目标函数不过是将分位数转换为优化问题而已。

此外,如你看到,Q-回归一定quantie定义(),然后可以扩展到找到所有位数。换句话说,Q回归可以重现(条件)响应的分布。βα


这个答案很棒。
王金华
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.