根据索赔数据中的过去状况预测下一个疾病状况


12

我目前正在使用大量的健康保险理赔数据,其中包括一些实验室和药房理赔。但是,数据集中最一致的信息由诊断(ICD-9CM)和过程代码(CPT,HCSPCS,ICD-9CM)组成。

我的目标是:

  1. 确定最有影响力的前体疾病(合并症),例如慢性肾脏疾病等医学疾病;
  2. 根据患者过去的病情,确定其患病的可能性(或可能性);
  3. 进行与1和2相同的操作,但要进行操作和/或诊断。
  4. 最好,结果可以由医生解释

我看过诸如“ 遗产健康奖里程碑”论文之类的东西,并从中学到了很多东西,但是它们专注于预测住院情况。

所以这是我的问题:您认为哪种方法可以很好地解决此类问题?而且,对于学习与医疗保健和临床医学相关的数据科学应用和方法,哪些资源最有用?

编辑#2添加明文表:

CKD是目标疾病,“慢性肾脏病”,“。any”表示他们随时都有该疾病,“。isbefore.ckd”表示他们在首次诊断CKD之前患有该疾病。其他缩写对应于由ICD-9CM代码分组标识的其他条件。在导入过程中,此分组在SQL中发生。除Patient_age之外,每个变量都是二进制的。


1
您能否提供一些示例数据(用纯英语,没有代码)?
ffriend

我在原始帖子中添加了一些示例数据。在此版本中,每个条件都由三个字母代码表示。
杰米

1
R很酷,但不是很容易理解。您能否将数据样本重新格式化为表格格式(例如,使用CSV或TSV格式;可以5-6列)?另外,对变量的一些解释(“ anx.any”,“ flu.isbefore.ckd”等实际上意味着什么以及将要预测的内容)将大有帮助。
ffriend

1
您能否提供有关数据集中使用的参数的更多信息,以便我们了解是否存在任何关联。您提到的某些缩写对我来说还不清楚。如果您可以共享您的电子邮件ID以供我们离线协作,那就太好了。谢谢!
2014年

1
这只是一点点相关,但是我们最近的数据科学挑战涉及预测其他主张中的主张。cloudera.com/content/cloudera/en/training/certification/ccp-ds/… 当解决方案发布时,它可能包含一些有趣的想法。
肖恩·欧文

Answers:


7

我从未处理过医疗数据,但是从一般的推理来看,我会说医疗保健中变量之间的关系非常复杂。不同的模型(例如随机森林,回归模型等)只能捕获部分关系,而忽略其他关系。在这种情况下,使用一般的统计探索建模是有意义的。

例如,我要做的第一件事就是找出可能的前体状况和诊断之间的相关性。例如,在百分之几的慢性肾脏疾病中先后出现长期流感?如果该值很高,则并不总是意味着因果关系,但可以为您提供很好的思考资源,并有助于更好地理解不同条件之间的关系。

另一个重要步骤是数据可视化。CKD在男性中的发生频率是否比女性高?他们的住所呢?CKD病例的年龄分布是什么?很难将大型数据集理解为一组数字,将它们绘制出来将变得更加容易。

当您对发生的事情有所了解时,请执行假设检验以检查您的假设。如果您不赞成零假设(基本假设)而选择另一种假设(即祝贺),那么您就已经实现了“真实的东西”。

最后,当您对数据有很好的了解时,请尝试创建完整的模型。它可能是一般的东西,例如PGM(例如,手工制作的贝叶斯网络),或者更具体的东西,例如线性回归或SVM,或其他任何东西。但是,无论如何,您都已经知道该模型如何与您的数据相对应以及如何测量其效率。


作为学习统计方法的良好入门资源,我建议Sebastian Thrun撰写“ 统计学入门”课程。它虽然很基础,并且不包含高级主题,但它描述了最重要的概念并提供了对概率论和统计学的系统理解。


谢谢你!它证实了我已经采取的一些步骤(探索性分析,假设检验等)。
杰米

7

虽然我不是数据科学家,但我是在临床环境中工作的流行病学家。您的研究问题未指定时间段(即,在1年,10年,一生中患CKD的几率?)。

通常,在考虑建模(单变量分析,双变量分析,共线性检查等)之前,我将经过许多步骤。但是,尝试预测二进制事件(使用连续或二进制变量)的最常用方法是逻辑回归。如果您想将CKD视为实验室值(尿白蛋白,eGFR),则可以使用线性回归(连续结果)。

尽管所使用的方法应根据您的数据和问题告知,但临床医生习惯于查看比值比和风险比,因为它们是NEJM和JAMA等医学杂志上最常报告的关联度量。

如果您从人类健康的角度(而不是商业智能)着手解决此问题,此Steyerberg的临床预测模型将是一个极好的资源。


1
感谢您的有用建议。我一定会看那本书的!尽管我可以访问实验室值,但数据不可靠且零星,因此我试图坚持可以从索赔中获得的数据。可变缩写实际上是诊断代码的AHRQ临床分类软件分组。
杰米

3

“确定最有影响力的前体疾病(合并症),例如慢性肾脏疾病等医学疾病”

我不知道这是可能的ID 最有影响力的条件; 我认为这将取决于您使用的模型。就在昨天,我在同一数据上拟合了随机森林和增强型回归树,每个模型给出的变量顺序和相对重要性都大不相同。


谢谢,安迪。您能详细说明一下吗?是因为变量没有捕获足够的细节吗?
杰米

我不知道。我想这取决于不同模型的工作方式。
JenSCDC 2014年

您能否建议您尝试或考虑过的一些解决方案?
杰米

到目前为止,我也没有做,所以那里没有帮助。抱歉。
JenSCDC 2014年

接下来的几周我现在正在度假,但是当我回来时,我会对其进行调查,因为它确实激发了我的兴趣。
JenSCDC 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.