我正在使用quantreg程序包使用数据集中我值的第99个百分位数来建立回归模型。根据我之前提出的stackoverflow 问题的建议,我使用了以下代码结构。
mod <- rq(y ~ log(x), data=df, tau=.99)
pDF <- data.frame(x = seq(1,10000, length=1000) )
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )
我将其显示在数据之上。我已经使用ggplot2绘制了此图像,并使用了点的alpha值。我认为在我的分析中并未充分考虑我分布的尾巴。也许这是由于以下事实:百分位类型测量忽略了一些单独的点。
其中一项评论建议
包小插图包括有关非线性分位数回归的部分,以及带有平滑样条线的模型等。
根据我之前的问题,我假设对数关系,但是我不确定这是否正确。我以为我可以在第99个百分位间隔处提取所有点,然后分别检查它们,但是我不确定该怎么做,或者这是否是一个好方法。我将不胜感激有关如何改善识别这种关系的任何建议。
网站上已经有几个很好的问题正在讨论如何转换数据,请参见stats.stackexchange.com/q/1444/1036或stats.stackexchange.com/q/298/1036
—
Andy W,
您可以更新图以添加条件中值吗?在我看来,这更像是分位数交叉问题,而不是数据转换问题……
—
user603 2011年
@ user603条件中位数是什么意思?(我在网上搜索,但不确定如何计算)
—
celenius 2011年
在rq()函数中tau = 0.5。
—
user603 2011年
如果您的目标是专门估计有条件的第99个百分位数,那么我会投票赞成非线性分位数回归(某种程度上-我不太了解R包),因为这听起来并不像您知道真正的函数形式。不过,从您之前的问题中我仍然不清楚我的实际目标是什么,因此,我将重申Spacedman 1月4日17:01
—
David M Kaplan