我将使用平方指数内核(SE)进行高斯过程回归。该内核的优点是:1)简单:仅3个超参数;2)平滑:此内核是高斯型的。
人们为什么如此喜欢“平稳”?我知道高斯核是无限可微的,但这是如此重要吗?(请让我知道SE内核如此受欢迎的其他原因。)
PS:有人告诉我,现实世界中的大多数信号(无噪声)都是平滑的,因此使用平滑的内核对其建模是合理的。有人可以帮我理解这个概念吗?
我将使用平方指数内核(SE)进行高斯过程回归。该内核的优点是:1)简单:仅3个超参数;2)平滑:此内核是高斯型的。
人们为什么如此喜欢“平稳”?我知道高斯核是无限可微的,但这是如此重要吗?(请让我知道SE内核如此受欢迎的其他原因。)
PS:有人告诉我,现实世界中的大多数信号(无噪声)都是平滑的,因此使用平滑的内核对其建模是合理的。有人可以帮我理解这个概念吗?
Answers:
“ 自然非自然盐 ”是哲学的古老原则。同样,美丽与和谐就是这样的原则。影响统计的另一个哲学原理是定性思考:传统上,我们不考虑效果的大小,而是考虑是否存在效果。这让假设检验。估算器对于您对自然的感知过于精确。照原样。
统计必须服务于人类的感知。因此不连续点是不受欢迎的。有人会立即问:为什么恰恰是这种不连续性?尤其是在密度估计中,这些不连续点主要是由于实际数据的非渐近性质。但是,您不想了解某些有限样本,而想要了解潜在的自然事实。如果您相信这种性质不会跳跃,那么您需要平滑的估计量。
从严格的数学观点来看,几乎没有理由。另外,自从莱布尼兹和牛顿认识到自然现象以来,这种现象就变得不顺利了。与您工作的自然科学家交谈。挑战他对平滑性/不连续性的看法,然后做你们俩认为最有助于他理解的事情。
有很多动机,取决于问题。但是想法是相同的:添加有关某个问题的先验知识,以获得更好的解决方案并应对复杂性。放置它的另一种方法是:模型选择。这是一个关于模型选择的好例子。
与之密切相关的另一个想法是找到数据样本的相似性度量(与此想法相关的术语不同:地形图,距离度量,流形学习等)。
现在,让我们考虑一个实际的例子:光学字符识别。如果拍摄角色的图像,则期望分类器处理不变性:如果旋转,移位或缩放图像,则它应该能够检测到。另外,如果您对输入内容稍加修改,您会希望分类器的答案/行为也稍有不同,因为两个样本(原始样本和修改样本非常相似)。这就是强制执行平滑的地方。
有很多关于这个想法的论文,但是这个(模式识别中的变换不变性,切线距离和切线传播,Simard等人)非常详细地说明了这些想法。