创建增长图表的最佳方法


10

我必须为非负数,连续数和非负数的健康变量创建5至15岁(仅5,6,7等;没有2.6年这样的分数)的图表(类似于生长图表)。 50-150的范围(只有少数几个值不在此范围内)。我必须创建第90、95和99个百分位曲线,并为这些百分位创建表。样本大小约为8000。

我检查并发现以下可能的方法:

  1. 找到分位数,然后使用黄土法从这些分位数中获得平滑曲线。可以通过“ span”参数调整平滑度。

  2. 使用LMS(Lambda-Mu-Sigma)方法(例如,在R中使用gamlss或VGAM软件包)。

  3. 使用分位数回归。

  4. 使用每个年龄组的平均值和SD来估算该年龄段的百分位数,并创建百分位数曲线。

最好的方法是什么?“最好”是指理想的方法,它是创建此类增长曲线的标准方法,并且将为所有人所接受。或者是一种更容易实现的方法,它可能会有一些限制,但是是可以接受的,更快的方法。(例如,对百分比值使用黄土比使用gamlss软件包的LMS快得多)。

同样,该方法的基本R代码将是什么。

谢谢你的帮助。


2
您要求的是“最佳”,这通常在难以讨论和不可能进行明确讨论的任何地方。(“最佳”水平的衡量非常困难。)您已经明确地将问题与儿童的健康状况相关联,但是您对“最佳”的标准并不明确,特别是哪种类型或程度的平滑度是可接受的还是不可接受的。
尼克·考克斯

我欢迎这种尝试,但是a)显然不存在,否则为什么会有竞争的解决方案,或者为什么在您正在阅读的文献中这种现象不明显?如果不是几个世纪以前,对此问题的兴趣肯定已经有几十年了。更简单的方法:更容易理解,更容易向医务人员或一般性的统计专家解释,更易于实施,...?毫无疑问,我似乎很挑剔,但为什么要在这里关注速度?这些方法都对计算没有要求。
尼克·考克斯

@NickCox:我已经根据您的评论编辑了问题。我将不胜感激。
rnso 2014年

1
抱歉,但是我不在这一领域工作,我认为您的问题很难回答。存在评论是因为人们可能无法或不愿回答,但是仍有话要说。我不写命令的答案。
尼克·考克斯

Answers:


6

关于增长曲线有大量文献。我认为有三种“最佳”方法。在这三个部分中,时间都被建模为具有足够的节数(例如6个)的受限三次样条。这是一款具有出色性能和易于解释的参数平滑器。

  1. 具有敏感关联模式(例如连续时间AR1)的纵向数据的经典增长曲线模型(广义最小二乘)。如果可以证明残差是高斯的,则可以使用估计的均值和公共标准偏差来获得分位数的MLE。
  2. 分位数回归。对于非大这不是有效的。即使精度不是最佳的,该方法也做出了最小的假设(因为一个分位数的估计未连接到另一分位数的估计),并且没有偏见。ñ
  3. ÿÿ

当您使用了比例赔率时,您如何在如此多的结果水平下适应PO假设(假设它失败了)?谢谢。
2015年

2
即使失败,由于总体上的假设较少,该模型的性能也可能会优于其他一些模型。或切换到其他序数模型累积概率族之一,例如比例风险(log-log累积概率链接)。
Frank Harrell

1

高斯过程回归。从平方指数内核开始,然后尝试通过肉眼调整参数。以后,如果您想正确执行操作,请尝试使用不同的内核,并使用边际可能性来优化参数。

如果您想要比上面链接的教程提供更多的详细信息,那么本书非常有用


感谢您的回答。与上述其他方法相比,您如何评价高斯过程回归。scikit-learn.org/0.11/auto_examples/gaussian_process / ...上的第二个高斯图与该LOESS(局部回归)页面上的倒数第二个图非常相似:princeofslides.blogspot.in/2011/05/…。黄土更容易执行。
rnso 2014年

就个人而言,对于任何足够小以适合您的数据集,我都强烈建议使用GPR。从理论上讲,它不仅更“精细”,而且更灵活,更健壮,并提供了经过良好校准的概率输出。综上所述,如果您的数据密集且行为良好,那么除非他们是统计学家,否则您的听众可能无法分辨LOESS和GPR之间的区别。
安迪·琼斯

3
ÿX

1
@尼克:我的建议是构建数据模型,然后使用该模型构建(平滑的)百分位数曲线。现在您已经提到了,是的,我完全错过了第二部分(即实际问题)。
安迪·琼斯

1
1.96
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.