集群数据的正确引导技术?


16

我有一个关于在存在强集群的数据上使用适当的引导技术的问题。

我的任务是评估保险索赔数据的多元混合效应预测模型,方法是对最新的索赔数据评分当前的基线模型,以便确定该模型对哪些医疗事件包含最高诊治频率的预测效果如何(较高95%)。敏感性,特异性和阳性预测值(PPV)将用于评估模型的有效性。

自举似乎是建立敏感性,特异性和PPV百分比置信区间的正确方法。不幸的是,鉴于索赔数据是1)由护理提供者关联的,2)分组为护理事件的,并且在护理事件的前几个月中进行了更频繁的拜访(因此存在一些自相关性),因此不宜采用单纯的引导程序。在这里,对移动块自举技术的一种变化是否合适?

或三步引导程序可能会起作用:1)从数据中的不同提供者处进行替换的样本,然后2)从所选提供者的不同护理阶段中进行替换的样本,然后3)每个内的不同主张所进行的替换样本选择的情节。

非常感谢您的任何建议!

Answers:


14

您建议的第二种方法似乎是合理的,但事实证明,引导层次结构数据时,最好仅在最高级别进行替换采样,而在其余子级别不进行替换采样。Ren等人(2010)的模拟显示了这一点:http : //www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field&Welsh(2007)从理论上研究了2级数据集的不同方法,发现在两个级别进行替换采样并不是一个好主意。
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

您提到的自相关是一个严重的问题。另一方面,从护理过程中选择无替代项将保留自相关结构,因此也许这不是一个大问题。


我想知道以下解决方案是否合适:
拉斐尔

...抱歉,我无法完成之前的评论。在这里是:...创建一个考虑每个聚类级别的代码(id)(例如episoid1.claim1,Episoid1.claim1,...,episoid2.claim1,Episoid2.claim2,...,episoidn.claimp) ,然后使用允许您处理自相关的GEE。我读过某个地方,即使在存在复杂结构的情况下,GEE模型也可以提供可靠的估计。这个解决方案听起来合理吗?
拉斐尔2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.