不稳定性对不同替代模型预测的影响
但是,二项式分析背后的假设之一是每个试验的成功概率相同,并且我不确定交叉验证中“正确”或“错误”分类背后的方法是否可以认为具有成功几率相同。
好吧,通常等价性是一个假设,它也需要使您汇总不同代理模型的结果。
实际上,您的直觉可能违反了这一假设。但是您可以衡量是否是这种情况。这就是我发现迭代交叉验证有用的地方:不同代理模型对同一案例的预测的稳定性使您可以判断模型是否等效(稳定的预测)。
这是一个迭代(又称为重复)倍交叉验证的方案:k
班级是红色和蓝色。右侧的圆圈象征着预测。在每次迭代中,每个样本仅预测一次。通常,将均值用作性能估计,隐式地假设替代模型的性能相等。如果通过不同的代理模型(即,跨列)进行的预测来寻找每个样本,则可以看到该样本的预测的稳定性。i⋅k
您还可以计算每次迭代的性能(图形中3行的块)。这些之间的任何差异都意味着不能满足代理模型等效的假设(彼此之间以及与所有情况下建立的“大模型”等效)。但这也告诉您您有多少不稳定性。对于二项式比例,我认为只要真实表现是相同的(即,是否总是错误地预测相同的情况还是错误地预测相同数目但不同的情况是独立的)。我不知道是否可以合理地假设代理模型的性能有特定的分布。但是,我认为,如果您根本不报告这种不稳定性,则无论如何都比目前常见的分类错误报告更具优势。ķk已经为每个迭代合并了代理模型,不稳定性方差大约是迭代之间观察到的方差的倍。k
我通常必须处理少于120个独立案例,因此我对模型进行了非常强的正则化。我则通常能够证明不稳定方差比有限的试验样品的尺寸变化。(而且我认为这对建模是明智的,因为人类倾向于检测模式,因此倾向于构建过于复杂的模型并因此过度拟合)。
我通常会报告有限迭代样本(以及,和)和二项式置信区间在迭代(和,和)上观察到的不稳定性方差的百分位数。Ñ ķ 我≪
nki
该图是无花果的更新版本。5本文:Beleites,C.和Salzer,R .:在小样本量情况下评估和改进化学计量学模型的稳定性,Anal Bioanal Chem,390,1261-1271(2008)。DOI:10.1007 / s00216-007-1818-6
请注意,当我们撰写本文时,我还没有完全意识到我在这里解释的差异的不同来源-请记住这一点。因此,我认为论证对于有效的样本量估计,如果没有正确的结论,即使该应用得出的结论是:每个患者体内的不同组织类型所贡献的总体信息与具有给定组织类型的新患者一样多,仍然可能有效(我拥有完全不同的类型也指出这一点的证据)。但是,我对此尚不完全确定(也不知道如何做得更好,因此无法检查),这个问题与您的问题无关。
二项式置信区间应使用哪种性能?
到目前为止,我一直在使用观察到的平均性能。您还可以使用观察到的最差性能:观察到的性能越接近0.5,方差越大,因此置信区间也越大。因此,观察到的性能的置信区间最接近0.5,可以得到一些保守的“安全裕度”。
请注意,如果观察到的成功次数不是整数,则一些用于计算二项式置信区间的方法也将起作用。我使用罗斯(Ross,TD)中描述的“贝叶斯后验概率的积分”
:二项式比例和泊松速率估计的准确置信区间,Comput Biol Med,33,509-531(2003)。DOI:10.1016 / S0010-4825(03)00019-2
(我不了解Matlab,但是在R中,您可以将binom::binom.bayes
两个形状参数都设置为1)。
这些想法适用于基于此训练数据集产生的未知新病例的预测模型。如果需要从相同的案例总数中得出其他训练数据集,则需要估计在大小为的新训练样本上训练的模型有多少不同。(除了“物理地”获得新的训练数据集外,我不知道该怎么做)n
另请参见:Bengio,Y.和Grandvalet,Y .: K折交叉验证方差的无偏估计,《机器学习研究学报》,2004,5,1089-1105。
(在我的研究工作清单上有关于这些事情的更多思考……,但是由于我来自实验科学,所以我想用实验数据来补充理论和仿真结论-在这里这很困难,因为我需要大量数据一组独立的案例以供参考测试)
更新:假设有微生物分布是合理的吗?
我看到k折CV像下面的投硬币实验一样:不是将大量硬币投掷一次,而是由同一台机器生产的硬币投掷了较少的次数。在这张照片中,我认为@Tal指出硬币是不同的。显然是这样。我认为应该做什么以及可以做什么取决于代理模型的等价假设。k
如果替代模型(硬币)之间实际上存在性能差异,则替代模型等效的“传统”假设不成立。在这种情况下,不仅分布不是二项式的(正如我上面说的,我不知道要使用哪种分布:它应该是每个替代模型/每个硬币的二项式的总和)。但是请注意,这意味着不允许汇总替代模型的结果。因此,测试的二项式都不是一个好的近似值(我试图通过说我们还有一个额外的变化源:不稳定性来改进近似值),也不能将平均性能用作点估计而没有进一步的理由。n
另一方面,如果代理的(真实)性能是相同的,那就是我的意思是“模型等效”(一个症状是预测是稳定的)。我认为在这种情况下,可以汇总所有替代模型的结果,并且可以使用所有测试的二项式分布:我认为在这种情况下,我们有理由近似地将替代模型的真实 s设为相等,因此描述测试为等同于投掷一个硬币次。p ñnpn