机器学习技术在小样本临床研究中的应用


15

当目标是在分类环境中隔离有趣的预测变量时,您如何在小样本临床研究中应用随机学习或惩罚回归(具有L1或L2罚分,或其组合)等机器学习技术呢?这不是关于模型选择的问题,也不是关于如何找到变量效果/重要性的最佳估计的问题。我不打算进行强力推断,而只是使用多变量建模,因此避免一次针对感兴趣的结果测试每个预测变量,并避免考虑它们之间的相互关系。

我只是想知道这种方法是否已经在这种特殊的极端情况下应用,比如说20-30个对象中有10-15个分类变量或连续变量的数据。这是不完全情况下,我觉得这里的问题是关系到我们班试图解释(这往往是没有得到很好的平衡)的数量,和(很)小样本。我知道在生物信息学的背景下有关该主题的大量文献,但是我没有找到任何与通过心理计量表型进行生物医学研究有关的参考文献(例如,整个神经心理学问卷调查)。np

对相关论文有任何提示或指示吗?

更新资料

我愿意接受任何其他用于分析此类数据的解决方案,例如C4.5算法或其派生类,关联规则方法以及任何用于监督或半监督分类的数据挖掘技术。


只是要清楚一点:您的问题是关于数据的大小,而不是设置,对吗?
Shane 2010年

确实,我想知道是否有关于“最小” n的引用(写给大量变量),或更准确地说,是否有交叉验证技术(或类似RF中的重采样策略)在这种极端情况下仍然有效。
chl

Answers:


7

我也没有在生物信息学/机器学习之外使用过此方法,但是也许您可以成为第一个:)

作为生物信息学中小样本方法方法的一个很好的代表,当参数数量在观察数量中呈指数形式时,使用Chernoff型不等式(例如,例如Dudik(2004)。Trevor Hastie已经做了一些工作,将这些方法应用于鉴定基因相互作用。在下面的论文中,他使用它来识别具有310637个可调整参数的模型的显着影响,该参数适合2200个观测值的样本

通过套索惩罚逻辑回归进行全基因组关联分析。作者:Hastie,T;E·索贝尔(Sobel);吴,T; 陈玉芳; Lange,K Bioinformatics Vol:25 Issue:6 ISSN:1367-4803 Date:03/2009 Pages:714-721

维多利亚·斯托登(Victoria Stodden)的相关演讲(变量选择多于观察值的模型选择


是的,吴等人。2009年是一篇不错的论文。顺便说一句,在过去的两年中,我一直在研究GWAS和ML。现在,我正试图回到临床研究中,在大多数情况下,我们不得不处理不完美的测量,丢失的数据,当然,从物理学家的角度来看,还有很多有趣的变量!
chl

顺便说一句,我刚碰到一篇让我想到这个问题的论文...对于机器学习论文来说,谈论置信区间是非常罕见的,但这是一个值得注意的例外ncbi.nlm.nih.gov/pubmed/19519325
Yaroslav Bulatov

感谢您的附加链接。对我来说还是这个问题是与小n和异构预测器。在我看来,该情况下,现在越来越多地充分研究的遗传,神经影像学研究,或者我们可以假设指数关系ňp,但此刻我从来没有发现相关性或预测能力的任何证据在我提出的特定研究中获得提升。我目前正在运行MC仿真,以查看在这种情况下RF和稀疏回归的性能。我会让您知道此方向上的所有进展。npnp
chl 2010年

这是一个非常有趣的问题。我已经在博客文章中收集了其中一些以及其他一些文章(希望您不介意)。我确定那里还有其他人。
Andrew

5

对于具有15个预测变量和20个样本的探索性分析结果的一般性,我几乎没有信心。

  • 参数估计的置信区间将很大。例如,n = 20时r = .30的95%置信区间为-0.17至0.66。
  • 当您以探索性和数据驱动方式使用多个预测变量时,问题往往会更加复杂。

在这种情况下,我的建议通常是将分析限制为双变量关系。如果您以贝叶斯观点来看,那么我想说的是,您先前的期望比数据同样重要。


4

一条通用的经验法则是,训练数据实例的数量至少是其10倍(更不用说任何测试/验证数据等),因为分类器中存在可调参数。请记住,您有一个问题,不仅需要足够的数据,而且还需要代表性的数据。最后,没有系统的规则,因为做出此决定时会有太多变数。正如Hastie,Tibshirani和Friedman在《统计学习的要素》(参见第7章)中所说:

对于多少训练数据就足以给出一般规则太困难了;除其他外,这取决于基础功能的信噪比以及适合数据的模型的复杂性。

如果您是该领域的新手,我建议您阅读生物医学工程百科全书》中的这篇简短的“模式识别”论文,其中简要介绍了一些数据问题。


谢谢!我有Hastie的书和C. Bishop的书(模式识别和机器学习)。我知道这么小的n会导致虚假或不可靠的关联(请参阅Jeromy Anglim的评论)。但是,由Breiman实现的RF算法允许每次生长一棵树时处理有限数量的功能(在我的情况下为3或4),并且尽管OOB错误率相当高(但这是可以预期的),变量重要性使我得出结论,使用双变量检验(带有置换检验),我将得出相似的结论。
chl

1
该经验法则主要适用于经典方法,例如l2正则化的最大似然法,当可调整参数的数量在观测值中呈指数时,L1正则化的方法可以有效地学习(即Miroslav Dudik,2004 COLT论文)
Yaroslav

3

我可以向您保证,RF可以在这种情况下工作,并且其重要性度量非常有见地(因为不会出现像标准(n << p)那样误导不重要的属性的尾巴)。我现在不记得有任何关于类似问题的论文,但我会寻找。


1
谢谢!我上个月参加了第四届EAM-SMABS会议,一位发言者介绍了ML在生物医学研究中的应用。不幸的是,这是一个相当“标准”的研究,涉及N〜300名受试者,p = 10个预测因子。他将向医学统计学提交论文。我在寻找的只是文章/参考书。标准的临床研究,例如门诊患者,其结果的可推广性不是什么大问题。
chl 2010年

最后找到纸了吗?
chl 2010年

@chl还没有;但感谢您的提醒。

不用着急:)我自己没有发现任何有趣的东西;在这种情况下,Pubmed可能不是合适的搜索引擎...
chl 2010年

@chl这也是我的问题。实际上,n << p已经成为生物医学数据的代名词。

0

如果您有离散输入,则在给定先前输入的情况下,我正在编写程序来预测二进制输入的缺失值。任何类别,例如“ 1 of 6”,都可以转换为二进制位,并且可以正常工作;它不会影响它。

我正在编写的算法的目的是尽可能快地学习数学。因此,它具有非常差的时间和空间复杂度(大约O(4 ^ N)!的空间复杂度!)。

但是为此,对于状态可以表示为位向量的任何系统,您基本上都可以进行一次学习。例如,全加器具有8个不同的输入状态。仅需8个不同的训练样本,该算法即可完美学习完整的加法器。不仅如此,您还可以给它答案,让它预测问题,或者给它一部分答案和部分问题,并填写其余部分。

如果输入数据有很多位,那么它将非常耗费计算量和内存。但是,如果您的样品很少,或者大约是设计目标,那么它将为您提供最佳的预测。

您只需使用位向量训练它,包括位未知的位向量。要获得预测,您只需向其提供一个位向量,哪些位未知,以及您希望它预测哪些位。

可在此处获取源代码:https : //sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.