什么是“非信息先验”？我们可以拥有一个完全没有信息的人吗？

73

受此问题的评论启发：

我们认为先验中的“非信息性”是什么-所谓的先验信息中仍包含哪些信息？

我通常会在分析中看到先验，在先验分析中，它是尝试从贝叶斯分析中借鉴一些好的部分（可能是一些更容易解释的方式来“做最热的事情”），所以指定的先验是横跨效果测度的界限，集中于0但即使断言均匀分布一个形状与现有-它恰好是平坦的。

使用前是否有更好的信息？

bayesian prior

— 方铁
source

2

也许您会喜欢上所谓的最大熵原理。我不想将其扩展为完整答案–维基百科的文章似乎质量不错。我非常有信心一些贡献者会比我更好地扩展它。

— 猫王2012年

93

[警告：作为ISBA的客观贝叶斯部分的持卡人，我的观点并不代表所有贝叶斯统计学家！相反，...

总而言之，没有“真正没有信息”的先验。

实际上，可悲的是，“无信息的”先例是错误的称呼。任何先前的发行版本都包含一些类似于某些信息的规范。甚至（或特别是）统一的先验。实际上，统一先验仅对于问题的一个给定参数化是平坦的。如果一个更改为另一个参数化（甚至是有界的），则变量的雅可比式更改会出现在图像和密度中，并且先验值不再是平坦的。

正如猫王指出的那样，最大熵是提倡选择所谓“非信息”先验的一种方法。但是，它需要（a）关于先验分布某些时刻的足够信息，以指定约束导致MaxEnt先于和（b）参考度量的初步选择在连续设置中），这一选择使辩论回到了初始阶段！（此外，约束的参数化（即选择 $h(\theta)$ $\pi(\cdot)$

\int_{Θ} h (θ) d π (θ) = h_{0}

$\int_{\Theta} h(\theta)\,\text{d}\pi(\theta) = \mathfrak{h}_0$

π^{*} (θ) \propto \exp {λ^{T} h (θ)}

$\pi^*(\theta)\propto \exp\{ \lambda^\text{T}h(\theta) \}$

d μ (θ)

$\text{d}\mu(\theta)$

h

$h$ ）会影响最终生成的MaxEnt的形状。）

何塞·贝尔纳多（JoséBernardo）提出了参考先验的原始理论，他选择先验理论是为了通过最大化先验和后验之间的Kullback距离来最大化数据带来的信息。在没有干扰参数的最简单情况下，解决方案是Jeffreys的优先选择。在更复杂的问题中，（a）必须选择感兴趣的参数（甚至对其感兴趣顺序进行排名）；（b）先验的计算相当复杂，并且需要一系列嵌入式紧凑集，以避免不当问题。（有关详细信息，请参见例如贝叶斯选择。）

有趣的是，贝叶斯视野之外的一些研究人员一直在开发一种称为置信度分布的程序，该程序是参数空间上的概率分布，是通过从基于频率的过程中进行反演而构建的，而没有明确的先验结构，甚至没有对该参数空间的主导度量。他们认为，缺少明确的先验是一个加号，尽管结果肯定取决于基于频率的初始化程序的选择

简而言之，对于“该”“非信息性”先验没有“最佳”（甚至“更好”）的选择。我认为这是应该的，因为贝叶斯分析的本质意味着先验分布的选择很重要。而且没有先验的比较：一个不能比另一个“更好”。（至少在观察数据之前：一旦观察到，先验比较就成为模型的选择。）若泽·贝纳多，吉姆·伯杰，孙东初和许多其他“客观”贝叶斯主义者的结论是，可以存在大致相等的参考先验在不确定某人的先验信息或寻求基准贝叶斯推断时使用，其中一些先验部分地受到信息论证的支持，

— 西安
source

14

（+1）您的书？哦，该死的。因此，我有387个问题供您参考：)

— Elvis 2012年

4

（+1）一个目标（不少于！），简单明了。

— 主教

2

+1感谢您对问题的全面了解。

— Whuber

2

一个出色的答案。谢谢。还有另一本要列入愿望清单的书。

— Fomite'1

1

这几乎是不公平的。毕竟，他是克里斯蒂安·罗伯特！开玩笑。好答案。而且，我很想@ Xi'an是否可以在他的博客中的帖子中扩展它，特别是关于参数化对于“非信息”先验主题的重要性。

— Manoel Galdino 2012年

16

正式的非信息先验的吸引人的性质是“频繁者匹配性质”：这意味着后继者的95％可信度间隔也（至少近似）为频繁者意义上的95％置信度间隔。该属性仅供Bernardo参考先验，尽管这些非信息先验的资金并不以实现良好的频繁匹配性为导向，但是，如果您使用“天真”（“平坦”）非信息先验，例如均匀分布或高斯分布分布具有很大的方差，那么就不能保证频繁匹配属性成立。也许贝尔纳多的参考先验不能被认为是非信息先验的“最佳”选择，但可以被认为是最成功的先验选择。

— 斯特凡·洛朗（StéphaneLaurent）
source

9

Jeffreys分布还存在不一致的问题：超过或超过变量的Jeffreys先验是不合适的，对于概率参数的Jeffreys而言并非如此：在具有的质量。 $(-\infty,\infty)$ $(0,\infty)$ $p$ $\text{d}p/\sqrt{p(1-p)}$ $\pi$ $(0,1)$

仁义表明，非信息分布必须与不适当的积分相关。请改为参阅Lhoste的分布，该分布避免了这一困难并且在变量的变化下保持不变（例如，对于，度量为）。 $p$ $\text{d}p/p(1-p)$

首先，翻译好！

致E. LHOSTE：“炮弹精品”，《炮弹评论》，第91号书，1923年1月4日

致A. RENYI：“关于新的公理概率论”，《数学学报》，Académiedes Sciences hongroises，tome VI，fasc.3-4，1955年

我可以加上：M. DUMAS：“先验地证明我们的身份”，《武器科学与技术》，第56卷，第4期，1982年，第687-715页

— 海曼
source

3

即使通过自动翻译服务（例如Google Translate）做得很差，您是否仍可以用英语重写它？其他用户会说流利的法语和英语，可以帮助您对其进行复制编辑。

— 银鱼

3

据我所知，对于和上的参数，Lhoste的不变性结果仅限于变换和。从和到其他转换将导致不同的先验。

\log σ

$\log\sigma$

\log p / (1 - p)

$\log p/(1-p)$

(0, \infty)

$(0,\infty)$

(0, 1)

$(0,1)$

(0, \infty)

$(0,\infty)$

(0, 1)

$(0,1)$

R

$\mathbb{R}$

— 西安

2

从1990年代初期我与莫里斯·杜马斯（Maurice Dumas）的简短往来中，我记得他曾写过一部aux Comptes-Rendus de l'Académiedes Sciences笔记，其中他使用和变换来得出“不变”先验。

\log ()

$\log()$

logit ()

$\text{logit}()$

— 西安

3

我同意西安市的出色回答，他指出，就没有信息的意义而言，没有任何先验是“无信息的”。为了扩展这个主题，我想指出一种替代方法是在不精确的概率框架内进行贝叶斯分析（参见esp。Walley 1991，Walley 2000）。在此框架内，先验信念由一组概率分布表示，这会导致相应的后验分布。听起来可能没有多大帮助，但实际上确实很棒。即使使用非常广泛的先验分布（某些时刻可以在所有可能的值范围内），您仍然经常将后验收敛为到单个后验。 $n \rightarrow \infty$

Walley将这种分析框架公认为其自身的概率分析的特殊形式，但从本质上讲，它等效于使用一组先验的稳健贝叶斯分析，从而产生了相应的后验集合。在许多模型中，可以设置“非信息性”先验集合，该先验集合允许某些矩（例如，先验均值）在整个可能的值范围内变化，尽管如此，仍会产生有价值的后验结果，后验矩是有界的更紧密地。至少在能够在其整个允许范围内变化的力矩方面，这种分析形式可以说是更好的主张，称为“非情报”。

一个简单的例子-Bernoulli模型：假设我们观察到数据其中是感兴趣的未知参数。通常，我们将使用beta密度作为先验（Jeffrey先验和参考先验都是这种形式）。我们可以根据先验均值和另一个参数来指定这种先验密度形式为： $X_1,...,X_n | \theta \sim \text{IID Bern}(\theta)$ $\theta$ $\mu$ $\kappa > 1$

\begin{aligned} π_{0} (θ | μ, κ) = Beta (θ | μ, κ) = Beta (θ | α = μ (κ - 1), β = (1 - μ) (κ - 1)) . \end{aligned}

$\begin{equation} \begin{aligned} \pi_0(\theta | \mu, \kappa) = \text{Beta}(\theta | \mu, \kappa) = \text{Beta} \Big( \theta \Big| \alpha = \mu (\kappa - 1), \beta = (1-\mu) (\kappa - 1) \Big). \end{aligned} \end{equation}$

（这种形式给出了先前的时刻和。）现在，在一个不精确的模型中，我们可以将先验值设置为由所有可能的期望值上的所有这些先验分布的集合组成，但固定了其他参数以控制平均值范围内的精度。例如，我们可以使用一组先验： $\mathbb{E}(\theta) = \mu$ $\mathbb{V}(\theta) = \mu(1-\mu) / \kappa$

P_{0} \equiv {Beta (μ, κ) | 0 ⩽ μ ⩽ 1} .

$\mathscr{P}_0 \equiv \Big\{ \text{Beta}(\mu, \kappa) \Big| 0 \leqslant \mu \leqslant 1 \Big\}. \quad \quad \quad \quad \quad$

假设我们在数据中观察到正指标。然后，使用伯努利-β模型的更新规则，相应的后验集合为： $s = \sum_{i=1}^n x_i$

P_{x} = {Beta (\frac{s + μ (κ - 1)}{n + κ - 1}, n + κ) | 0 ⩽ μ ⩽ 1} .

$\mathscr{P}_\mathbf{x} = \Big\{ \text{Beta}\Big( \tfrac{s + \mu(\kappa-1)}{n + \kappa -1}, n+\kappa \Big) \Big| 0 \leqslant \mu \leqslant 1 \Big\}.$

后验期望的可能值范围是：

\frac{s}{n + κ - 1} ⩽ E (θ | x) ⩽ \frac{s + κ - 1}{n + κ - 1} .

$\frac{s}{n + \kappa-1} \leqslant \mathbb{E}(\theta | \mathbb{x}) \leqslant \frac{s + \kappa-1}{n + \kappa-1}.$

在这里重要的是，即使我们从关于参数的期望值（先前的期望值覆盖所有可能值）的模型“不具信息性”开始，我们仍然得到关于信息的后验推断到参数的后验期望（现在它们的范围覆盖更窄的值）。当该值范围被压缩到单个点，这是的真实值。 $n \rightarrow \infty$ $\theta$

— 本
source

+1。有趣。最后一个方程式中的kappa是多少？应该是卡帕星吗？

— 变形虫

我进行了编辑，以消除中的差异，从而提供了一个更简单的模型。现在应该可以了。

κ

$\kappa$

— 奔