人们为什么喜欢平滑的数据?


10

我将使用平方指数内核(SE)进行高斯过程回归。该内核的优点是:1)简单:仅3个超参数;2)平滑:此内核是高斯型的。

人们为什么如此喜欢“平稳”?我知道高斯核是无限可微的,但这是如此重要吗?(请让我知道SE内核如此受欢迎的其他原因。)

PS:有人告诉我,现实世界中的大多数信号(无噪声)都是平滑的,因此使用平滑的内核对其建模是合理的。有人可以帮我理解这个概念吗?


4
您是在问为什么人们喜欢光滑度的心理学问题还是为什么光滑功能在统计学上更好的统计问题?
约翰

@John谢谢您的评论。我指的是您帖子中的第二个问题,此外,我想确认为什么现实世界中的大多数信号都很平滑
kakanana 2014年

Answers:


15

自然非自然盐 ”是哲学的古老原则。同样,美丽与和谐就是这样的原则。影响统计的另一个哲学原理是定性思考:传统上,我们不考虑效果的大小,而是考虑是否存在效果。这让假设检验。估算器对于您对自然的感知过于精确。照原样。

统计必须服务于人类的感知。因此不连续点是不受欢迎的。有人会立即问:为什么恰恰是这种不连续性?尤其是在密度估计中,这些不连续点主要是由于实际数据的非渐近性质。但是,您不想了解某些有限样本,而想要了解潜在的自然事实。如果您相信这种性质不会跳跃,那么您需要平滑的估计量。

从严格的数学观点来看,几乎没有理由。另外,自从莱布尼兹和牛顿认识到自然现象以来,这种现象就变得不顺利了。与您工作的自然科学家交谈。挑战他对平滑性/不连续性的看法,然后做你们俩认为最有助于他理解的事情。


2

实际问题还有两个原因。第一个是解析函数在数学上更容易使用,因此证明了关于算法的定理,并为它们提供了更坚实的基础。

第二是敏感性。假设您有机器学习者中号 其输出在以下位置不连续 X=X0。那么您将获得截然不同的结果X0-ϵX0+ϵ,但是可以,因为我们使其不连续。现在,如果您使用略有不同的数据训练模型(中号),其中随机噪声只有一点点不同,那么现在的不连续点为 X0,可能非常接近X0,但现在还不完全是, ϵX0+ϵ 具有非常不同的价值 中号 和为 中号


1

有很多动机,取决于问题。但是想法是相同的:添加有关某个问题的先验知识,以获得更好的解决方案并应对复杂性。放置它的另一种方法是:模型选择。这是一个关于模型选择的好例子。

与之密切相关的另一个想法是找到数据样本的相似性度量(与此想法相关的术语不同:地形图,距离度量,流形学习等)。

现在,让我们考虑一个实际的例子:光学字符识别。如果拍摄角色的图像,则期望分类器处理不变性:如果旋转,移位或缩放图像,则它应该能够检测到。另外,如果您对输入内容稍加修改,您会希望分类器的答案/行为也稍有不同,因为两个样本(原始样本和修改样本非常相似)。这就是强制执行平滑的地方。

有很多关于这个想法的论文,但是这个(模式识别中的变换不变性,切线距离和切线传播,Simard等人)非常详细地说明了这些想法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.