为什么RANSAC没有最广泛地用于统计?


26

来自计算机视觉领域,我经常使用RANSAC(随机样本共识)方法将模型拟合到具有许多异常值的数据。

但是,我从未见过统计学家使用过这种方法,而且一直给人一种不被认为是“统计上合理”的方法的印象。为什么?它本质上是随机的,这使得分析起来更加困难,但是引导方法也是如此。

还是仅仅是一个学术孤岛不互相交谈的情况?


1
我想知道关于计算机视觉方法与统计方法的一件事:首先必须具有性能。在性能和“正确性”之间可能需要权衡取舍,并且计算机视觉和统计数据对这些变量的权重不同。
卢卡斯·里斯

Answers:


10

我认为这里的关键是在RANSAC中丢弃很大一部分数据。

在大多数统计应用中,某些分布可能会出现繁重的尾巴,因此,较小的样本数量可能会使统计估计值产生偏差。稳健的估算器通过对数据进行加权加权来解决此问题。另一方面,RANSAC并未尝试容纳异常值,它是为数据点确实不属于而不只是非正态分布的情况而构建的。


1
好答案。我已经看到RANSAC在简历中最常用于估计单应性。当我们知道某些相应的测量结果非常不可靠时,这是使用最广泛的方法。而且,实时性能和其他考虑因素使该技术非常流行,因为它很容易并行化。
卡2015年

7

对我们来说,这只是稳健回归的一个例子-我相信统计学家也使用它,但可能范围不广,因为它有一些众所周知的替代方法。


1
您能举个例子吗?我想调查一下。
Bossykena 2010年

5
最著名和最简单的是中位数-中位数回归,这在智能计算器中广为人知(叹气!)。另请参阅 Wikipedia en.wikipedia.org/wiki/Robust_regression以及CRAN的鲁棒任务视图cran.r-project.org/web/views/Robust.html

是否有RANSAC的替代品,不仅可以为您提供无偏回归,还可以提供从中估算模型的数据点?谢谢
Valerio

2

这听起来很像套袋,这是一种经常使用的技术。


3
RANSAC非常不同-在装袋中,以某种方式考虑了所有样品。如果要完全丢弃多达50%的数据,则使用RANSAC。
nbubis

1

您可以使用RANSAC丢弃数据,但可能无需证明其合理性,而是基于增加模型的拟合度。丢弃数据以增加拟合度通常是避开的,因为您可能会丢失重要数据。在没有理由的情况下删除异常值始终是有问题的。

当然有可能证明这一点。例如,如果您知道数据应遵循给定的模式,但是由于测量误差,数据也将与模式存在偏差。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.