我将首先回答您的第三个问题,然后再解决您的其他两个问题。
- 当您说“套索(及相关)...但不在后验分布中”时,您认为他是什么意思?
他的幻灯片中的这个图显示了他的意思。将套索正则化器表示为先验分布意味着您的先验分布将采用Laplacian或双指数分布的形式。该分布在平均值处具有特征性的非平滑峰,将其设置为0以实现稀疏正则化效果。要直接获得套索正则化结果,您应该采用后验分布模式。
在图中,蓝色虚线表示拉普拉斯先验分布。实心黑色的后验分布在左侧的模式为0,可能性很小,而在右侧的模式为非零,可能性很大。
但是,完整的后验分布并不稀疏,因为如果从中进行采样,您将很少会获得接近0的值,并且实际上,因为它是连续分布,所以永远都不会精确地得到0。
为了使用套索方法实现稀疏性,通常需要在后验模式上设置一些截止阈值。理想情况是后验模式等于0,但是如果取绝对值后其后验模式小于0.2,则可以放宽此值并消除变量。
在套索下执行稀疏化会给出一组特定的消除和保留回归变量,这是有关包含或排除回归变量的“唯一决定”。
完全的贝叶斯变量选择方法(尖峰和板坯先验)在整个模型中始终不确定应包含或排除哪些变量。
因此,要解决您的第一个问题:
- 从根本上说,他们基本上使用蛮力方法测试要包括的每个回归变量子集是否更好?
这是一个误解,因为这两种方法都不测试要包括的所有可能的回归子。
- 这样做的缺点是计算时间吗?
这也是一个误解,因为计算时间并不是由蛮力测试回归器的每个可能子集所决定的。
为了弄清楚斯科特的观点,给定一些数据,如果您使用惩罚似然稀疏化方法,则将得到一组包含和未包含的回归变量。但是,如果使用尖峰和平板稀疏化方法,则每个回归变量都有完整的后验分布,每个都有可能被包含或排除。一些回归者可能有70%的机会被包括在内,另一些则有25%的机会。在许多应用中这可能是更可取的,因为在给定单个数据集的情况下,我们仍然应该确定哪些回归变量重要与否。
直观地讲,与诸如套索之类的惩罚似然方法相比,尖峰和平板先验更好地表示了包含/排除回归变量的可能空间。