Jeffreys Priors和方差稳定转换之间的关系是什么?


17

我维基百科上之前阅读有关杰弗瑞斯:杰弗里斯之前和锯,其各实施例之后,它描述了一个方差稳定转化如何接通杰弗里斯现有成均匀之前。

例如,对于伯努利的情况,它表示对于以概率前进的硬币,伯努利试验模型得出,参数的杰弗里斯先验值为:γ[0,1]γ

p(γ)1γ(1γ)

然后声明这是一个带有的beta分布。它还指出,如果,则现有的杰弗里中的间隔是均匀的。α=β=12γ=sin2(θ)θ[0,π2]

我认为该转换是稳定方差的转换。让我感到困惑的是:

  1. 为什么稳定方差的转换会导致统一的先验?

  2. 我们为什么还要统一制服?(因为它似乎更容易受到不当行为的影响)

总的来说,我不确定为什么要给出平方正弦变换以及起什么作用。有人有什么想法吗?


2
我要问自己,这是自学成才的骗子,但是:您指的是哪个稳定方差的转化?1sin2(θ)(1sin2(θ))
Shadowtalker '16

2
平方正弦通常是错误思考转换的错误方法。是反正弦平方根或角度变换。θ=arcsinγ
尼克·考克斯

Answers:


3

Jeffreys先验在重新参数化下是不变的。因此,许多贝叶斯主义者认为它是“无信息的先验”。(哈蒂根表明,有这样的先验的整个空间α + β = 1,其中Ĵ是杰弗里斯之前和ħ是Hartigan的渐近局部不变现有- 不变先验分布JαHβα+β=1JH

统一的先验是非信息性的,但是在对参数进行任意转换之后,新参数上的统一的先验意味着完全不同,这是一个经常重复的错误。如果参数化的任意更改影响您的先验知识,那么您的先验知识显然很有意义。

  1. 根据定义,使用Jeffreys 等同于在应用方差稳定化变换之后使用平坦运算。

  2. 从数学的角度来看,在应用方差稳定化变换之后,使用Jeffreys先验和使用平坦先验是等效的。从人类的角度来看,后者可能更好,因为参数空间变得“均匀”,即无论您在参数空间中的位置如何,每个方向上的差异都是相同的。

考虑您的伯努利例子。在测试中获得99%的分数与90%的距离与59%的50%的距离是一样的,这有点奇怪吗?在进行了稳定方差的变换之后,前一个对应该分开,因此应该分开。它符合我们对空间中实际距离的直觉。(在数学上,方差稳定变换使对数损失的曲率等于单位矩阵。)


1.我同意统一先验并不意味着“非信息先验”,但我的评论(在特定的参数设置下)仍然不改变某个值而不是另一个值。2.先验的适当性非常重要。如果先验数据不正确并且有数据,则不能保证后验数据正确。因此,这非常令人担忧。
Greenparker

1.但这就是重点:参数化是任意的,因此说您没有将一个值放在另一个值上是毫无意义的。2.在实践中,我从未发现过相关的问题。我猜这可能与其他人有关。
尼尔·G

1.公平点。2.我不确定您要解决什么问题,但是即使是带有杰弗里先验的简单高斯似然也可能具有不正确的后验。在这里查看我的答案。
Greenparker

@Greenparker你是对的。我将在回答中阐明为什么它与我无关。
尼尔G

我认为修改不正确。如果后验不正确,则MCMC无疑是毫无意义的,因为您试图从未定义的分布中提取。想象一下尝试使用任何采样方案从Uniform 进行采样。虽然,MCMC算法可能仍然是遍历遍历的(当您具有零循环时),但是您的样本将无用。(0,)
Greenparker

5

您提供的Wikipedia页面实际上并未使用术语“方差稳定化转换”。术语“方差稳定化变换”通常用于表示使随机变量的方差成为常数的变换。尽管在伯努利案中,这就是转型中正在发生的事情,但这并不完全是目标。目标是获得均匀的分布,而不仅仅是使方差稳定。

回想一下,使用Jeffreys Prior的主要目的之一是在变换下它是不变的。这意味着,如果您重新设置变量的参数,则先验不会改变。

1。

之前在此伯努利情况下杰弗里斯,因为你指出的那样,是一个测试p γγ α 1(1/2,1/2)

pγ(γ)1γ(1γ).

,我们可以找到θ的分布。首先让我们看θ = arcsin γ=sin2(θ)θ,并且由于0<γ<10<θ<π/2。回想一下,sin2x+cos2x=1˚F θX θ=arcsin(γ)0<γ<10<θ<π/2sin2(x)+cos2(x)=1

Fθ(x)=P(θ<x)=P(sin2(θ)<sin2(x))=P(γ<sin2(x))=Fγ(sin2(x))fθ(x)=dFγ(sin2(x)dx=2sin(x)cos(x)pγ(sin2(x))sin(x)cos(x)1sin2(x)(1sin2(x))=1.

Thus θ is the uniform distribution on (0,π/2). This is why the sin2(θ) transformation is used, so that the re-parametrization leads to a uniform distribution. The uniform distribution is now the Jeffreys prior on θ (since Jeffreys prior is invariant under transformation). This answers your first question.

2.

Often in Bayesian analysis one wants a uniform prior when there is not enough information or prior knowledge about the distribution of the parameter. Such a prior is also called a "diffuse prior" or "default prior". The idea is to not commit to any value in the parameter space more than other values. In such a case the posterior is then completely dependent on the data likelihood. Since,

q(θ|x)f(x|θ)f(θ)f(x|θ).

If the transformation is such that the transformed space is bounded, (like (0,π/2) in this example), then the uniform distribution will be proper. If the transformed space is unbounded, then the uniform prior will be improper, but often the resulting posterior will be proper. Although, one should always verify that this is the case.


This idea that you are "not committing to any value" by using a diffuse prior is wrong. The proof is that you can take any transformation of the space and the diffuse prior will mean something completely different.
Neil G

My comment on "not committing to any value" refers only to that particular parameterization. Of course, transformations will change how the mass is distributed (just like in this Bernoulli example).
Greenparker

Like I said below your other comment, the parametrization is arbitrary, which is why the statement "not committing to any value" is meaningless.
Neil G
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.