惩罚性回归估计量(例如LASSO和ridge)据说与具有某些先验的贝叶斯估计量相对应。我猜(因为我对贝叶斯统计知识还不够了解),对于固定的调整参数,存在一个具体的对应先验。
现在,常客可以通过交叉验证来优化调整参数。是否有这样做的贝叶斯等效项,并且完全使用吗?还是贝叶斯方法在查看数据之前有效地调整了调整参数?(我猜后者会损害预测性能。)
惩罚性回归估计量(例如LASSO和ridge)据说与具有某些先验的贝叶斯估计量相对应。我猜(因为我对贝叶斯统计知识还不够了解),对于固定的调整参数,存在一个具体的对应先验。
现在,常客可以通过交叉验证来优化调整参数。是否有这样做的贝叶斯等效项,并且完全使用吗?还是贝叶斯方法在查看数据之前有效地调整了调整参数?(我猜后者会损害预测性能。)
Answers:
惩罚性回归估计量(例如LASSO和ridge)据说与具有某些先验的贝叶斯估计量相对应。
对,那是正确的。每当我们遇到涉及对数似然函数最大化和参数惩罚函数最大化的优化问题时,这在数学上就等同于后验最大化,其中惩罚函数被视为先前核的对数。† 要看到这一点,假设我们有一个使用调整参数λ的惩罚函数w。在这些情况下,目标函数可以写为:
在这里我们使用现有。在此观察到,优化中的调整参数在先验分布中被视为固定的超参数。如果要使用固定的调整参数进行经典优化,则等效于使用固定的超参数进行贝叶斯优化。对于LASSO和Ridge回归,罚函数和相应的先验等式为:
前一种方法会根据回归系数的绝对大小对回归系数进行惩罚,这等效于将拉普拉斯先验值置于零。后一种方法根据回归系数的平方幅度对回归系数进行惩罚,这等效于对位于零处的法线优先级进行强加。
现在,常客可以通过交叉验证来优化调整参数。是否有这样做的贝叶斯等效项,并且完全使用吗?
只要可以将常人主义方法视为一个优化问题(而不是说包括一个假设检验或类似的东西),就会有一个使用等价先验的贝叶斯类比。就像常客可以将调整参数视为未知并从数据中估算出该参数一样,贝叶斯算法也可以类似地将超参数视为未知。在完整的贝叶斯分析中,这将涉及赋予超参数自己的先验并在该先验下找到后验最大值,这类似于最大化以下目标函数:
如果分析师不愿意为其先验选择特定的超参数,并且试图通过将先验视为未知并进行分配来使先验更加分散,则该方法确实用于贝叶斯分析中。(请注意,这只是在感兴趣的参数之前提供更多扩散的隐式方式。)
(来自下面的statslearner2的评论)我正在寻找等效的MAP估计数值。例如,对于定额罚款岭,有一个高斯先验,它将给我MAP估计与岭估计完全相等。现在,对于k倍CV脊,给我MAP估计与CV脊估计相似的超先验是什么?
在着眼于折交叉验证之前,首先要注意的是,在数学上,最大后验(MAP)方法只是参数和数据的函数的优化。如果您愿意允许不正确的先验,则该范围将封装涉及这些变量功能的任何优化问题。因此,可以被构造为这种单个优化问题的任何频繁性方法都具有MAP类比,而不能被构造为这种单个优化的任何频繁性方法都没有MAP类比性。
在上述形式的模型中,涉及带有调节参数的罚函数,通常使用倍交叉验证来估计调节参数。对于这种方法,你分区数据矢量进入子矢量。对于每个子向量,,则使用“训练”数据拟合模型,然后使用“测试”数据x k测量模型的拟合度。在每次拟合中,您都会得到模型参数的估算器,然后可以对测试数据进行预测,然后可以将其与实际测试数据进行比较以得出“损失”的量度:
然后,通过最小化总体损耗测度来估算调整参数:
where is a weighting value on the tuning-loss. As the weight on optimisation of the tuning-loss becomes infinite and so the optimisation problem yields the estimated tuning parameter from -fold cross-validation (in the limit). The remaining part of the objective function is the standard objective function conditional on this estimated value of the tuning parameter. Now, unfortunately, taking screws up the optimisation problem, but if we take to be a very large (but still finite) value, we can approximate the combination of the two optimisation problems up to arbitrary accuracy.
From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and -fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:
where and , with a fixed (and very large) hyper-parameter .
This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.
Indeed most penalized regression methods correspond to placing a particular type of prior to the regression coefficients. For example, you get the LASSO using a Laplace prior, and the ridge using a normal prior. The tuning parameters are the “hyperparameters” under the Bayesian formulation for which you can place an additional prior to estimate them; for example, for in the case of the ridge it is often assumed that the inverse variance of the normal distribution has a prior. However, as one would expect, resulting inferences can be sensitive to the choice of the prior distributions for these hyperparameters. For example, for the horseshoe prior there are some theoretical results that you should place such a prior for the hyperparameters that it would reflect the number of non-zero coefficients you expect to have.
A nice overview of the links between penalized regression and Bayesian priors is given, for example, by Mallick and Yi.