Answers:
我推荐Koenker&Hallock(2001年,经济观点杂志)和Koenker的同名教科书。
因此,您的直觉是完全正确的:所有样本都对估计值有所贡献,其权重不对称取决于我们要达到的分位数τ。
foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
分位数回归的基本思想来自以下事实:分析师对数据的分布感兴趣,而不仅仅是数据的意思。让我们从卑鄙开始。
平均回归拟合的线的形式的与平均数据。换句话说,È (ÿ | X = X )= X β。估计这行的一般方法是使用最小二乘法,ARG 分钟β(Ý - X β )'(Ý - X β )。
另一方面,中位数回归寻找一条线,该线预期一半的数据在一边。在这种情况下的目标函数是其中| 。| 是第一个规范。
将中位数的概念扩展到分位数会导致分位数回归。背后的想法是找到一条数据的百分比超出该范围的线。
在这里,您犯了一个小错误,Q回归并不像查找数据的分位数然后将线拟合到该子集(甚至是更具挑战性的边界)一样。
Q回归寻找一条线,该线将数据拆分为一个分位数的qroup ,其余部分。目标函数,Q-回归说检查功能是 β α = ARG 分钟β { α | Ÿ - X β | 我(ÿ > X β )+ (1 - α )| Ÿ - X β | 我(ÿ < X β )}。
如您所见,这个聪明的目标函数不过是将分位数转换为优化问题而已。
此外,如你看到,Q-回归一定quantie定义(),然后可以扩展到找到所有位数。换句话说,Q回归可以重现(条件)响应的分布。