贝叶斯尖峰和平板与惩罚方法


11

我正在阅读Steven Scott关于BSTS R包的幻灯片(您可以在这里找到它们:slides)。

在某个时候,当谈到在结构时间序列模型中包括许多回归变量时,他介绍了回归系数的尖峰和板坯先验,并说与惩罚方法相比,它们更好。

斯科特(Scott)说,以一个具有100个预测变量的数据集为例:

  • 惩罚方法对包含/排除哪些变量做出单一决定,这意味着它们决定了一个预测子集,即在可能变量中的一个模型。2100
  • “套索(和相关)先验不稀疏,它们在模式下而不是后验分布上引起稀疏”

在这一点上,他介绍了Spike和Slab先验。

我想我有直觉,但我想确定一下:

  • 从根本上说,他们基本上使用蛮力方法测试要包括的每个回归变量子集是否更好?
  • 这样做的缺点是计算时间吗?
  • 当您说“套索(及相关)...但不在后验分布中”时,您认为他是什么意思?

Answers:


10

我将首先回答您的第三个问题,然后再解决您的其他两个问题。

  1. 当您说“套索(及相关)...但不在后验分布中”时,您认为他是什么意思?

他的幻灯片中的这个图显示了他的意思。将套索正则化器表示为先验分布意味着您的先验分布将采用Laplacian或双指数分布的形式。该分布在平均值处具有特征性的非平滑峰,将其设置为0以实现稀疏正则化效果。要直接获得套索正则化结果,您应该采用后验分布模式。

测试

在图中,蓝色虚线表示拉普拉斯先验分布。实心黑色的后验分布在左侧的模式为0,可能性很小,而在右侧的模式为非零,可能性很大。

但是,完整的后验分布并不稀疏,因为如果从中进行采样,您将很少会获得接近0的值,并且实际上,因为它是连续分布,所以永远都不会精确地得到0。

为了使用套索方法实现稀疏性,通常需要在后验模式上设置一些截止阈值。理想情况是后验模式等于0,但是如果取绝对值后其后验模式小于0.2,则可以放宽此值并消除变量。

在套索下执行稀疏化会给出一组特定的消除和保留回归变量,这是有关包含或排除回归变量的“唯一决定”。

完全的贝叶斯变量选择方法(尖峰和板坯先验)在整个模型中始终不确定应包含或排除哪些变量。

因此,要解决您的第一个问题:

  1. 从根本上说,他们基本上使用蛮力方法测试要包括的每个回归变量子集是否更好?

这是一个误解,因为这两种方法都不测试要包括的所有可能的回归子。

  1. 这样做的缺点是计算时间吗?

这也是一个误解,因为计算时间并不是由蛮力测试回归器的每个可能子集所决定的。

为了弄清楚斯科特的观点,给定一些数据,如果您使用惩罚似然稀疏化方法,则将得到一组包含和未包含的回归变量。但是,如果使用尖峰和平板稀疏化方法,则每个回归变量都有完整的后验分布,每个都有可能被包含或排除。一些回归者可能有70%的机会被包括在内,另一些则有25%的机会。在许多应用中这可能是更可取的,因为在给定单个数据集的情况下,我们仍然应该确定哪些回归变量重要与否。

直观地讲,与诸如套索之类的惩罚似然方法相比,尖峰和平板先验更好地表示了包含/排除回归变量的可能空间。


2
非常感谢你!我对Scott的幻灯片的理解很肤浅,有些偏离,您说得很清楚!
Tommaso Guerrini
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.