允许不连续的黄土


14
  • 是否有像LOESS这样的建模技术这样允许零个,一个或多个不连续性,而这些不连续性的时间先验未知?
  • 如果存在一种技术,R中是否存在现有的实现?

1
已知x值或未知x值的不连续性?(已知x足够容易)
Glen_b-恢复莫妮卡(Monica

@glen我更新了问题:对于未知的不连续时间,我很感兴趣。
Jeromy Anglim

这可能是一个有争议/愚蠢的问题,但您说的是“时间”:这是用于时间序列吗?我相信下面的大多数答案都以此为前提(“变化点等”),尽管LOESS可以应用于具有非连续性的非时间序列情况。我认为。
韦恩

Answers:


15

听起来您想执行多个变更点检测,然后在每个段中进行独立的平滑处理。(检测可以在线,也可以不在线,但是您的应用程序可能不在线。)关于这一点,有很多文献。互联网搜索是富有成果的。

  • DA Stephens在1994年撰写了有关贝叶斯变化点检测的有用介绍(App。Stat。43#1 pp 159-178:JSTOR)。
  • 最近,保罗·费恩黑德(Paul Fearnhead)做得很好(例如,针对多个变更点问题的精确而有效的贝叶斯推断,Stat Comput(2006)16:203-213:免费PDF)。
  • 根据D Barry和JA Hartigan的详尽分析,存在一种递归算法
    • 变更点模型的产品分区模型, Ann。统计 20:260-279:JSTOR
    • 变更点问题的贝叶斯分析, JASA 88:309-319:JSTOR
  • O. Seidou和TBMJ Ourda记录了Barry&Hartigan算法的一种实现,该算法基于多元线性回归中基于递归的多变化点检测,并应用于河流水流,水利。Res。,2006:免费PDF

对于R的实现,我并没有费劲(我之前在Mathematica中编码过),但是如果您确实找到了R的实现,将不胜感激。


3
我发现bcp R软件包jstatsoft.org/v23/i03/paper实现了Barry&Hartigan算法
Jeromy Anglim 2010年

@Jeromy:感谢您提供R包以及插入指向引用的链接。
ub

7

使用koencker的折线回归进行此操作,请参见本插图的第18页

http://cran.r-project.org/web/packages/quantreg/vignettes/rq.pdf

针对Whuber的最新评论:

估计器的定义如下。

XxRx(i)x(i1)i

ei:=yiβix(i)β0

z z+=max(z,0)z=max(z,0)

λ 0τ(0,1)λ0

min.βRn|τ,λi=1nτei++i=1n(1τ)ei+λi=2n|βiβi1|

ττ=0.9λλ

分位数平滑样条线Roger Koenker,吴平,Stephen Portnoy Biometrika,卷。81,No.4(1994年12月),第673-680页

PS:有一个公开的工作文件,名字相同,名字相同,但不一样。


那是个好主意:感谢您的参考。但是,该特定拟合的残差看起来很糟糕,这使我想知道它能否很好地识别潜在的变更点。
ub

黄:我不知道你对分位数回归理论有多熟悉。这些线相对于样条线具有一个主要优点:它们不假定任何误差分布(即,它们不假定残差为高斯分布)。
user603 2010年

@kwak这看起来很有趣。不假设正常的错误分布对我的一个应用程序很有用。
Jeromy Anglim

的确,您从此估计中得到的是实际的条件分位数:简而言之,它们是样条曲线/ LOESS回归对夫妇而言的箱形图(均值,标准差):更丰富的数据视图。它们还在非高斯语境(例如非对称错误等)中保持有效性。
user603 2010年

@kwak:残差与x坐标高度相关。例如,存在长期的负残差或较小的正残差。那么,无论它们是否具有高斯分布都无关紧要(并且在任何探索性分析中都无关紧要):这种相关性表明拟合度很差。
ub

6

以下是一些解决此问题的方法和相关的R包

回归中的小波阈值估计允许不连续性。您可以在R中使用wavethresh软件包。

当您有矛盾之处时,许多基于树的方法(与小波的概念相距不远)都是有用的。因此,包treethresh,包树!

在“ 局部最大似然 ”方法家族中...除其他外:Pozhel和Spokoiny的工作:自适应权重平滑(包aws)Catherine Loader的工作:包locfit

我猜想任何具有局部变化带宽的内核平滑器都可以说明这一点,但是我不知道为此使用R包。

注意:我并没有真正了解LOESS和回归之间的区别...是在LOESS中算法应该“在线”的想法吗?


1
关于黄土:也许我的术语不太正确。通过LOESS,我指的是使用某种形式的局部曲线拟合从X预测Y的模型。例如,如在大多数这些图:google.com/...
杰罗米Anglim

2

应该可以使用非线性回归函数nls,b样条曲线(例如,样条曲线包中的bs函数)和ifelse函数在R中编写解决方案。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.