如果兴趣只是估计模型的参数(逐点和/或区间估计)而先前的信息不可靠,较弱,(我知道这有点含糊,但我正在尝试建立一个选择先验是困难的)...为什么有人会选择使用“非信息”不正确先验的贝叶斯方法,而不是经典方法?
如果兴趣只是估计模型的参数(逐点和/或区间估计)而先前的信息不可靠,较弱,(我知道这有点含糊,但我正在尝试建立一个选择先验是困难的)...为什么有人会选择使用“非信息”不正确先验的贝叶斯方法,而不是经典方法?
Answers:
尽管结果将非常相似,但它们的解释不同。
置信区间意味着重复多次实验并能够捕获95%的真实参数的概念。但是您不能说您有95%的机会将其捕获。
另一方面,可信区间(贝叶斯)可让您说区间有95%的“机会”捕获了真实值。更新:一种更贝叶斯的表达方式是,您可以对结果有95%的信心。
哈罗德·杰弗里斯爵士是贝叶斯方法的坚定支持者。他表明,如果您使用扩散不正确的先验,则所得的贝叶斯推断将与常客推断方法相同(也就是说,贝叶斯可信区域与常客置信区间相同)。大多数贝叶斯主义者主张适当的先验知识。先验使用不当会带来问题,有些人可能会争辩说,没有先验确实是非信息性的。我认为使用这些Jeffreys先验的贝叶斯主义者是作为Jeffreys的追随者来做的。贝叶斯方法的最强有力的倡导者之一丹尼斯·林德利(Dennis Lindley)对杰弗里(Jeffreys)表示了极大的敬意,但他主张提供先验知识。
贝叶斯方法具有实际优势。它有助于估算,通常是强制性的。它启用了新颖的模型族,并有助于构建更复杂的(分层,多层)模型。
例如,对于混合模型(包括具有方差参数的随机效应),如果通过对较低级参数(模型系数;这称为REML)边缘化来估计方差参数,则可以得到更好的估计。贝叶斯方法自然可以做到这一点。使用这些模型,即使使用REML,方差参数的最大似然(ML)估计值通常也为零或向下偏差。适当的先验方差参数会有所帮助。
即使使用点估计(MAP,最大后验),先验也会更改模型族。具有大量共线性变量的线性回归是不稳定的。L2正则化是一种补救方法,但它可以解释为具有高斯先验(非信息性)和MAP估计的贝叶斯模型。(L1正则化是不同的先验并给出不同的结果。实际上,这里的先验可能会提供一些信息,但它涉及参数的集合属性,而不是单个参数。)
因此,在一些通用且相对简单的模型中,需要用贝叶斯方法来完成任务!
更加复杂的模型对事情更加有利,例如机器学习中使用的潜在Dirichlet分配(LDA)。一些模型本质上是贝叶斯模型,例如基于Dirichlet过程的模型。
有以下几个原因:
现在谈到仅使用无信息的先验的缺点,从我认为最重要的方面开始,然后再介绍一些同样非常重要的技术方面:
最后一点是关于优先选择模糊的(或稍微弱于信息的)先验以确保适当的后验的论点。诚然,有时也很难从这些样本中进行采样,并且可能很难注意到尚未探究整个后验。但是,从频数论的角度来看,先验性模糊(但适当)的贝叶斯方法在很多领域都具有非常好的小样本属性,并且您当然可以认为,使用这些方法是有理由的,尽管有了更多的数据,几乎没有与无先验先验的方法的任何区别。