贝叶斯分析的可能性与条件分布

13

我们可以将贝叶斯定理写成

p (θ | x) = \frac{f (X | θ) p (θ)}{\int_{θ} f (X | θ) p (θ) d θ}

$p(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta}$

其中是后验的，是条件分布的，而是先验的。 $p(\theta|x)$ $f(X|\theta)$ $p(\theta)$

要么

p (θ | x) = \frac{L (θ | x) p (θ)}{\int_{θ} L (θ | x) p (θ) d θ}

$p(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta}$

其中是后验的，是似然函数，而是先验的。 $p(\theta|x)$ $L(\theta|x)$ $p(\theta)$

我的问题是

为什么要使用似然函数而不是条件分布来进行贝叶斯分析？
您能否用语言说出可能性与条件分布之间的区别是什么？我知道可能性不是概率分布和。 $L(\theta|x) \propto f(X|\theta)$

bayesian likelihood

— zo
source

1

没有区别！可能性是条件分布正比于，这很重要。

f (X | θ)

$f(X | \theta)$

— kjetil b halvorsen 2012年

1

先前参数具有密度。如果实现具有值而是一个随机变量的观测值，则所述似然函数的值是精确，该值的条件密度的。区别在于，对于所有实现，。但是，作为的函数

Θ

$\Theta$

p_{Θ} (θ)

$p_\Theta(\theta)$

Θ

$\Theta$

θ

$\theta$

x

$x$

X

$X$

L (θ ∣ x)

$L(\theta\mid x)$

f (x ∣ θ)

$f(x\mid \theta)$

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{X\mid\Theta}(x\mid\Theta=\theta)$

X

$X$

\int_{- \infty}^{\infty} f_{X ∣ Θ} (x ∣ Θ = θ) d x = 1

$\int_{-\infty}^{\infty}f_{X\mid\Theta}(x\mid\Theta=\theta)dx=1$

Θ

$\Theta$

θ

$\theta$ （固定），是没有一个密度：

x

$x$

L (θ ∣ x)

$L(\theta\mid x)$

\int L (θ ∣ x) d θ \neq 1

$\int L(\theta\mid x)d\theta\neq 1$

— 迪利普Sarwate

11

假设您有随机变量（其值将在实验中观察到），它们是有条件独立的，假定且条件密度为，对于。这是你的（假设）的统计（条件）模型和条件密度表达，对每一个可能值的（随机）参数，你对的价值的不确定性的，之前你有机会获得任何真实数据。借助条件密度，例如，您可以计算条件概率，例如 $X_1,\dots,X_n$ $\Theta=\theta$ $f_{X_i\mid\Theta}(\,\cdot\mid\theta)$ $i=1,\dots,n$ $\theta$ $\Theta$ $X_i$

P {X_{1} \in B_{1}, \dots, X_{n} \in B_{n} ∣ Θ = θ} = \int_{B_{1} \times \dots \times B_{n}} \prod_{i = 1}^{n} f_{X_{i} ∣ Θ} (x_{i} ∣ θ) d x_{1} \dots d x_{n},

$P\{X_1\in B_1,\dots,X_n\in B_n\mid \Theta=\theta\} = \int_{B_1\times\dots\times B_n} \prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta)\,dx_1\dots dx_n \, ,$ 每个。

θ

$\theta$

在访问了在一次实验中观察到的值（实现）的实际样本之后，情况发生了变化：可观察物不再具有不确定性。假设随机假定某个参数空间。现在，您为那些已知的（固定的）值一个函数由请注意，称为“似然函数”的是 $(x_1,\dots,x_n)$ $X_i$ $X_1,\dots,X_n$ $\Theta$ $\Pi$ $(x_1,\dots,x_n)$

L_{x_{1}, \dots, x_{n}} : Π \to R

$L_{x_1,\dots,x_n} : \Pi \to \mathbb{R} \,$

L_{x_{1}, \dots, x_{n}} (θ) = \prod_{i = 1}^{n} f_{X_{i} ∣ Θ} (x_{i} ∣ θ) .

$L_{x_1,\dots,x_n}(\theta)=\prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta) \, .$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

θ

$\theta$ 。在这种“有数据之后”的情况下，对于我们正在考虑的特定条件模型，似然包含该样本中包含的关于参数所有信息。实际上，碰巧是的足够统计量。

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

(x_{1}, \dots, x_{n})

$(x_1,\dots,x_n)$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

在回答您的问题时，要了解条件密度和似然性概念之间的区别，请记住它们的数学定义（它们明显不同：它们是具有不同属性的不同数学对象），并且还请记住，条件密度是“样本”对象/概念，而可能性是“样本后”。我希望所有这些也能帮助您回答为什么贝叶斯推理（使用您认为的方式，我认为不理想）是“使用似然函数而不是条件分布”完成的：贝叶斯推理的目标是计算后验分布，并以此为条件，以观察到的（已知）数据为条件。

— 禅
source

我认为Zen在说可能性和条件概率不同时是正确的。在似然函数中，θ不是随机变量，因此它与条件概率不同。

— 马丁（Martine）

2

比例用于简化分析

贝叶斯分析通常通过对贝叶斯定理的更简单陈述来完成，在贝叶斯定理中，我们仅在相对于感兴趣参数的比例方面进行工作。对于具有采样密度的标准IID模型，我们可以表示为： $f(X|\theta)$

p (θ | x) \propto L_{x} (θ) \cdot p (θ) L_{x} (θ) \propto \prod_{i = 1}^{n} f (x_{i} | θ) .

$p(\theta|\mathbf{x}) \propto L_\mathbf{x}(\theta) \cdot p(\theta) \quad \quad \quad \quad L_\mathbf{x}(\theta) \propto \prod_{i=1}^n f(x_i|\theta).$

贝叶斯更新的这一陈述是根据相对于参数的比例关系来进行的。它使用两种比例简化：一种是使用似然函数（与采样密度成比例），另一种是使用后验（与似然和先验乘积成比例）。由于后验是密度函数（在连续情况下），因此规范规则会设置产生有效密度（即使其积分为一）所需的乘法常数。 $\theta$

这种使用比例的方法的优点是允许我们忽略不依赖于参数的函数的任何乘法元素。通过允许我们清除掉数学中不必要的部分，并获得更新机制的更简单的陈述，这倾向于简化问题。这不是数学上的要求（因为贝叶斯规则也以其非比例形式起作用），但是对于我们的小动物大脑来说，事情变得更简单了。 $\theta$

一个应用示例：考虑一个具有观测数据的IID模型。为了方便我们的分析，我们定义统计信息和，这是前两个采样时刻。对于此模型，我们具有采样密度： $X_1, ..., X_n \sim \text{IID N}(\theta, 1)$ $\bar{x} = \tfrac{1}{n} \sum_{i=1}^n x_i$ $\bar{\bar{x}} = \tfrac{1}{n} \sum_{i=1}^n x_i^2$

\begin{aligned} f (x | θ) = \prod_{i = 1}^{n} f (x_{i} | θ) & = \prod_{i = 1}^{n} N (x_{i} | θ, 1) \\ = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}} \exp (- \frac{1}{2} (x_{i} - θ)^{2}) \\ = (2 π)^{n / 2} \exp (- \frac{1}{2} \sum_{i = 1}^{n} (x_{i} - θ)^{2}) . \\ = (2 π)^{n / 2} \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ + \bar{\bar{x}})) \\ = (2 π)^{n / 2} \exp (- \frac{n \bar{\bar{x}}}{2}) \cdot \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \end{aligned}

$\begin{equation} \begin{aligned} f(\mathbf{x}|\theta) = \prod_{i=1}^n f(x_i|\theta) &= \prod_{i=1}^n \text{N}(x_i|\theta,1) \\[6pt] &= \prod_{i=1}^n \frac{1}{\sqrt{2 \pi}} \exp \Big( -\frac{1}{2} (x_i-\theta)^2 \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{1}{2} \sum_{i=1}^n (x_i-\theta)^2 \Big). \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta + \bar{\bar{x}} ) \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n \bar{\bar{x}}}{2} \Big) \cdot \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \\[6pt] \end{aligned} \end{equation}$

现在，如果需要，我们可以直接使用此采样密度。但是请注意，此密度的前两项是不依赖乘法常数。不得不跟踪这些术语很烦人，所以让我们摆脱它们，这样我们就有了似然函数： $\theta$

L_{x} (θ) = \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) .

$L_\mathbf{x}(\theta) = \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big).$

因为我们不必跟踪另一个术语，所以这简化了一些事情。现在，我们可以使用包括完整分母在内的完整方程式应用贝叶斯规则。但是再次，这要求我们跟踪另一个不依赖令人讨厌的乘法常数（更令人讨厌的是，因为我们必须解决一个积分问题才能得到它）。因此，让我们以比例形式应用贝叶斯规则。使用共轭先验和一些已知的精度参数，我们得到以下结果（通过完成平方）： $\theta$ $\theta \sim \text{N}(0,\lambda_0)$ $\lambda_0>0$

\begin{aligned} p (θ | x) & \propto L_{x} (θ) \cdot p (θ) \\ = \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \cdot N (θ | 0, λ_{0}) \\ \propto \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \cdot \exp (- \frac{λ_{0}}{2} θ^{2}) \\ = \exp (- \frac{1}{2} (n θ^{2} - 2 n \bar{x} θ + λ_{0} θ^{2})) \\ = \exp (- \frac{1}{2} ((n + λ_{0}) θ^{2} - 2 n \bar{x} θ)) \\ = \exp (- \frac{n + λ_{0}}{2} (θ^{2} - 2 \frac{n \bar{x}}{n + λ_{0}} θ)) \\ \propto \exp (- \frac{n + λ_{0}}{2} (θ - \frac{n}{n + λ_{0}} \cdot \bar{x})^{2}) \\ \propto N (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) . \end{aligned}

$\begin{equation} \begin{aligned} p(\theta|\mathbf{x}) &\propto L_\mathbf{x}(\theta) \cdot p(\theta) \\[10pt] &= \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \text{N}(\theta|0,\lambda_0) \\[6pt] &\propto \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \exp \Big( -\frac{\lambda_0}{2} \theta^2 \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( n\theta^2 - 2n\bar{x} \theta + \lambda_0 \theta^2 ) \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( (n+\lambda_0) \theta^2 - 2n\bar{x} \theta ) \Big) \\[6pt] &= \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta^2 - 2 \frac{n\bar{x}}{n+\lambda_0} \theta \Big) \Big) \\[6pt] &\propto \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta - \frac{n}{n+\lambda_0} \cdot \bar{x} \Big)^2 \Big) \\[6pt] &\propto \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big). \\[6pt] \end{aligned} \end{equation}$

因此，从这项工作中我们可以看到，后验分布与正态密度成正比。由于后验必须是密度，这意味着后验是正常密度：

p (θ | x) = N (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) .

$p(\theta|\mathbf{x}) = \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big).$

因此，我们看到，后验参数通常是由给定后的均值和方差分布： $\theta$

E (θ | x) = \frac{n}{n + λ_{0}} \cdot \bar{x} V (θ | x) = \frac{1}{n + λ_{0}} .

$\mathbb{E}(\theta|\mathbf{x}) = \frac{n}{n+\lambda_0} \cdot \bar{x} \quad \quad \quad \quad \mathbb{V}(\theta|\mathbf{x}) = \frac{1}{n+\lambda_0}.$

现在，我们得出的后验分布在其前部具有一个积分常数（我们可以通过查找正态分布的形式轻松地找到它）。但是请注意，我们不必担心这个乘法常数-只要简化数学运算，我们所有的工作都将删除（或引入）乘法常数。在跟踪乘法常数的同时，可以得出相同的结果，但这要麻烦得多。

— Ben-恢复莫妮卡
source

0

我认为Zen的答案确实告诉您，在概念上，似然函数和随机变量值的联合密度有何不同。仍在数学上作为 s和θ 的函数，它们是相同的，并且在这种意义上，可能性可以视为概率密度。您在贝叶斯后验分布的公式中指出的差异只是符号上的差异。但是在Zen的回答中很好地解释了差异的微妙之处。 $_i$

在此站点上讨论的有关似然函数的其他问题中也出现了此问题。另外，kjetil和Dilip的其他评论似乎也支持我所说的话。

— 迈克尔·R·切尼克
source