有关使用Quantreg识别曲线形状的建议


10

我正在使用quantreg程序包使用数据集中我值的第99个百分位数来建立回归模型。根据我之前提出的stackoverflow 问题的建议,我使用了以下代码结构。

mod <- rq(y ~ log(x), data=df, tau=.99)    
pDF <- data.frame(x = seq(1,10000, length=1000) ) 
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )

我将其显示在数据之上。我已经使用ggplot2绘制了此图像,并使用了点的alpha值。我认为在我的分析中并未充分考虑我分布的尾巴。也许这是由于以下事实:百分位类型测量忽略了一些单独的点。

其中一项评论建议

包小插图包括有关非线性分位数回归的部分,以及带有平滑样条线的模型等。

根据我之前的问题,我假设对数关系,但是我不确定这是否正确。我以为我可以在第99个百分位间隔处提取所有点,然后分别检查它们,但是我不确定该怎么做,或者这是否是一个好方法。我将不胜感激有关如何改善识别这种关系的任何建议。

在此处输入图片说明


网站上已经有几个很好的问题正在讨论如何转换数据,请参见stats.stackexchange.com/q/1444/1036stats.stackexchange.com/q/298/1036
Andy W,

您可以更新图以添加条件中值吗?在我看来,这更像是分位数交叉问题,而不是数据转换问题……
user603 2011年

@ user603条件中位数是什么意思?(我在网上搜索,但不确定如何计算)
celenius 2011年

在rq()函数中tau = 0.5。
user603 2011年

1
如果您的目标是专门估计有条件的第99个百分位数,那么我会投票赞成非线性分位数回归(某种程度上-我不太了解R包),因为这听起来并不像您知道真正的函数形式。不过,从您之前的问题中我仍然不清楚我的实际目标是什么,因此,我将重申Spacedman 1月4日17:01
David M Kaplan

Answers:


1

所有模型都是错误的,但有些模型是有用的(George Box)。您正在将对数形状强制设置为拟合曲线,说实话,它看起来还不错。尾部的贴合性差,因为那里的点少了;您所允许的两个参数将适合大部分数据。换句话说,在对数刻度上,该尾部与您的大部分数据相距不足以提供杠杆作用。它与回归的分位数性质无关;OLS也将忽略这些要点(尤其是在对数刻度上)。

允许更多非线性是很容易的。我偏爱自然样条曲线,但同样,所有模型都是错误的:

library(splines)
mod <- rq(y ~ ns(log(x), df=6), data=df, tau=.99)

quantreg包装具有单调键槽一些特殊的钩子,如果这是最需要关注的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.