千斤顶有当代用途吗?


12

问题是: 自举优于捆绑。但是,我想知道是否存在套刀技术是唯一或至少可行的方法来表征参数估计值的不确定性。此外,在实际情况下,相对于自举,斜切是如何产生偏见/不准确的,在开发更复杂的引导程序之前,斜切结果能否提供初步的见解?

某些情况: 朋友正在使用黑盒机器学习算法(MaxEnt)对“仅在场”或“仅在场”的地理数据进行分类。一般模型评估通常使用交叉验证和ROC曲线进行。但是,她正在使用模型的输出来导出模型输出的单个数字描述,并希望该数字周围有一个置信区间;折磨似乎是表征此值不确定性的一种合理方法。引导似乎没有意义,因为每个数据点都是地图上的唯一位置,无法通过替换进行重新采样。建模程序本身也许能够最终提供她所需要的东西。但是,我对一般情况是否有用/什么时候使您感兴趣。


4
出于您给出的原因,此类映射应用程序(从离散的采样位置进行估算)恰恰是我注意到广泛使用千斤顶的应用程序。例如,这是在进行克里金操作之前进行的标准程序。
whuber

在一些较低的样本设置中,由于自举替换样本,整个数据矩阵可能变得单一,因此无法拟合许多模型。
rep_ho

Answers:


4

如果您不仅要包括留一法,而且要进行任何种类的无采样重采样(例如折程序),我认为这是一个可行的选择,并定期使用,例如在 Beleites 人中:星形细胞瘤组织的拉曼光谱分级:使用软参考信息。肛门生物肛门化学,2011,400,2801-2816k

另请参阅:交叉验证分类准确性的置信区间


由于某些原因,我避免使用LOO,而是使用重复/重复的倍方案。在我的领域(化学/光谱学/化学计量学)中,交叉验证比自举验证更普遍。对于我们的数据/典型应用程序,我们发现次迭代倍交叉验证和次自举性能估计的迭代具有非常相似的总误差[Beleites 等。:使用稀疏数据集减少分类误差估计中的方差。化学实验室信息系统,2005,79,91-100。]kikik

在自举中查看迭代交叉验证方案时,我看到的特殊优势是,我可以很容易地得出可以直观解释的稳定性/模型不确定性度量,并且它可以将性能测量中差异性不确定性的两个不同原因分开,在其中自举测量。
使我能够交叉验证/进行分刀的一种推理方法是查看模型的鲁棒性:交叉验证相当直接地对应于以下类型的问题:“如果我将案例交换为新案例,我的模型会发生什么?” xx“我的模型通过交换案例对干扰训练数据有多强大?”x 这也适用于自举,但不太直接。

请注意,我没有尝试推导置信区间,因为我的数据的固有集群(的光谱例),所以我更愿意报告nsnpns

  1. 使用平均观察性能和作为样本大小的(保守)二项式置信区间np

  2. 我在交叉验证的第次迭代之间观察到的方差。经过折后,尽管使用了不同的替代模型,但每个案例只测试了一次。因此,任何种类之间观察到的变化的的运行必须由模型不稳定性引起的。iki

通常,即,如果模型设置正确,则仅需要2.表明其远小于1.中的方差,因此模型是合理稳定的。如果2.不可忽略,现在是时候考虑聚合模型了:模型聚合仅有助于解决由模型不稳定性引起的方差,它不能减少由于有限的测试用例而导致的性能测量方差不确定性。

请注意,为了构建此类数据的性能置信区间,我至少考虑了在交叉验证的次运行之间观察到的方差是该不稳定性的模型的平均值,即模型不稳定性方差是在交叉验证运行之间观察到的方差;加上因案例数有限而引起的差异-对于分类(命中/错误)性能度量,这是二项式的。对于连续测量,我将尝试从交叉验证运行方差得出方差,并从得出模型的不稳定性类型方差的估计值。ikkkk

交叉验证优势在于,您可以将模型不稳定性引起的不确定性与有限数量的测试用例引起的不确定性区分开来。相应的缺点当然是,如果您忘记考虑有限数量的实际案例,则会严重低估真正的不确定性。但是,引导也会发生这种情况(尽管程度较小)。


到目前为止,推理主要集中在针对给定数据集得出的模型的性能评估上。如果您考虑给定应用程序和给定样本量数据集,那么对方差的第三部分贡献根本无法通过重新采样验证来衡量,请参见例如Bengio和Grandvalet:K折叉方差的无偏估计-Validation,Journal of Machine Learning Research,5,1089-1105(2004)。,我们也有数字显示Beleites 等人的这三个贡献:分类模型的样本量计划。,Anal Chim Acta,760,25-33(2013)。DOI:10.1016 / j.aca.2012.11.007
我认为这里发生的是假设重采样类似于绘制完整的新样本分解的结果。

如果要比较模型构建算法/策略/启发式方法,而不是为应用程序构建特定模型并验证该模型,则这一点很重要。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.