一般加性泊松模型问题中的样条df选择


9

我一直在使用SAS的泊松通用加性模型拟合一些时间序列数据PROC GAM。一般来说,我一直使用它的内置通用交叉验证程序为我的单个样条生成至少一个体面的“起点”,这是时间的非线性函数以及单个参数项(其实很感兴趣)。

到目前为止,除了我的数据集之一之外,它的运行相当流畅。该数据集中有132个观测值,GCV建议使用128个自由度的样条曲线。看来...错了。错了 更重要的是,它也不是很稳定。我尝试了第二种方法,当参数项的估计值停止更改时,使用“估计更改”条件之类的方法停止添加自由度,因为如果没有什么不同,为什么还要继续添加控制权?

问题在于估算值根本不稳定。我尝试了以下自由度,如您所见,参数项疯狂地反弹:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

对于这个特定的数据,我对使用df完全没有直觉。关于如何选择df的其他想法?我应该看看花键的重要性吗?

在df = 10和df = 15之间做一些更多的查找,看起来df = 12是您可以最接近128生成的估计,并且仍在“合理的自由度”范围内。连同线性项,截距和单个参数项,感觉就像是一个非常饱和的模型。十二岁就可以了吗?

作为第二次更新,将平滑度从更改spline(t)loess(t)会产生更好的df估计值-我应该切换到黄土平滑度吗?


在具有132个观测值的数据集中,是否存在关联的计数和偏移项,这意味着它实际上是一个加权数据集,具有超过132个观测值?由于Poisson RV中的平均方差关系,大量样本会导致“模型选择”属性,这由于“样本量大”而不利。
2012年

该数据集是132周的数据,建模为计数=模型项+ log(人员时间)作为偏移量。计数从未特别高-但是有很多零。
Fomite

Answers:


5

正如@ M.Berk所提到的,众所周知,GCV不够平滑,主要是因为该标准对过度拟合的影响微弱,这往往导致GCV准则中的极小最小值成为函数的函数。 λ,平滑度参数。由于最小值非常浅,因此最佳GCV可以在很宽的范围内发生λ估计。此外,GCV标准是λ往往会有多个最小值,这可能会导致您描述的不稳定。西蒙·伍德(Simon Wood(2011))在图1中很好地说明了这一点。

Wood(2011)还表明,对于用于平滑功能的中低阶基础,AICc并没有提供比GCV 更多的额外好处。

相比之下,REML(以及ML)的平滑度选择比GCV更加不利于过度拟合,因此具有更清晰的最佳定义。这样可以更稳定地估算λ 并大大降低了滑腻的风险。

Wood(2011)描述了既快速又稳定的REML和ML估计程序,他证明了在收敛性方面优于现有的REML(ML)方法。这些想法可从Simon的Rmgcv软件包中获得。

由于Wood(2011)处于收费壁垒的背后,因此我提供了一张相似图像的副本(此处未显示AICc结果),该副本是从Simon的一组幻灯片上获取的,这些幻灯片可以在他的网站找到,使用的是平滑度选择方法 {PDF}。幻灯片10中的图如下所示

在此处输入图片说明

两行分别反映有强信号(上部)或无信号(下部)的模拟数据。最左侧的面板显示了每个模型的实现。其余面板显示了GCV(中间列)和REML标准如何随λ10个数据集,每个数据集都是从真实模型中模拟的。对于上一行,请注意最佳值左侧的GCV平坦度。这些面板中的地毯图显示了最佳λ10个实现中的每个实现。REML准则具有更明显的最优值,并且选择的值的方差较小λ

因此,我建议西蒙·伍德(Simon Wood)为其mgcv软件包提倡的方法,即选择一个足够大的东西作为基础维度,以包括预期的关系之间的灵活性。y=f(x)+ε,但没有那么大。然后使用REML平滑度选择拟合模型。如果选择的模型自由度接近最初指定的尺寸,请增加基础尺寸并重新安装。

正如@ M.Berk和@BrendenDufault都提到的那样,在设置样条曲线基准时,可能需要选择一定程度的主观性,以选择适合GAM的适当基准尺寸。但是,根据我使用Wood方法在一系列GAM应用程序中的经验,REML平滑度选择已被证明是相当可靠的。

Wood,SN(2011)半参数广义线性模型的快速稳定受限最大似然和边际似然估计J.皇家统计学会B 73(Part 1),3--6。


@EpiGrad欢迎。抱歉,我当时错过了这个问题;在过去的一两年中,我一直在努力应对与您类似的情况,并阅读了西蒙·伍德(Simon Wood)关于此事的论文,并多次选择了功能。很高兴我能记得一些帮助的细节。
加文·辛普森

3

我认为您最好的选择是在平滑算法之外;考虑模型简约。

您提到了这一点,但我相信它必须成为您的主要选择标准。根据建模过程的病因/因果关系,问问自己有多少“弯曲”似乎合理。用plots=components(clm)语句绘制拟合的样条曲线,并目视评估拟合度。高DF样条可能讲出与低DF样条相似的故事,只是噪音更大。在这种情况下,请选择低DF拟合。

毕竟,GAM模型旨在进行探索。

我自己使用了gcv选项,我想知道它在Poisson条件,稀疏数据等条件下的性能。也许应该在这里进行模拟研究。


2

我输入了以下答案,然后意识到我不知道它是否适用于我没有经验的泊松回归。也许人们可以用一些评论来回答。


我个人喜欢BW Silverman(1985)的建议:“样条平滑方法的某些方面用于非参数回归曲线拟合(带有讨论)。” (可在此处免费订阅):尝试一系列平滑参数,然后选择视觉上最吸引人的参数。

正如他在同一篇论文中正确指出的那样,虽然主观方法可能是首选,但仍然需要自动方法。但是,GCV通常是一个较差的选择,因为它倾向于不平滑。参见,例如,Hurvich等人(1998年)“使用改进的Akaike信息准则在非参数回归中平滑参数选择”(此处提供,无需订阅)。在同一篇论文中,他们提出了可以缓解您的问题的新标准,即经过校正的AIC,其中包括较小的样本量校正。您可能会发现AICcWikipedia描述比本文更容易理解。Wikipedia文章还包括Burnham&Anderson的一些好的建议(即无论样本大小如何,都使用AICc而不是AIC)。

总而言之,我的建议按优先顺序是:

  1. 通过视觉评估手动选择平滑参数
  2. 使用更正的AIC(AICc)而不是GCV
  3. 使用标准AIC
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.