什么是频繁统计中的隐式先验？

我听说过Jaynes声称常客使用“隐式先验”的想法。

这些隐式先验是什么？这是否意味着常客模型是否正在等待所有贝叶斯模型的特例？

— Bayesquest
source

隐式先验是一个简并的分布，它将整个概率质量放在，贝叶斯常客正在尝试估算该参数。

θ

$\theta$

— Dilip Sarwate

据我所知，没有常客或贝叶斯模型，只有模型和不同的方法。

— 安德烈·科里亚丁

@DilipSarwate：我不同意这个说法。使用狄拉克质量作为先验不会引起频频手术。贝叶斯范式不允许具有未知参数的先验，除非在这些参数上设置另一个先验时除外。

— 西安

无论发生什么事，总会有先验。不幸的是，所有统计程序都需要一个临时的起点，这使得它们非常武断。好消息是，您可以获得足够的数据和正确的方法来接近目的地。不好的是，您到目的地的距离取决于您从哪里开始以及手头有多少数据。

— Cagdas Ozgenc

@Cagdas Ozgenc：不，总有假设，但不必采用先验分布的形式。

— kjetil b halvorsen

Answers:

在常客主义决策理论中，存在完整的类结果，这些类结果将可接受的过程表征为贝叶斯过程或贝叶斯过程的极限。例如，斯坦因的充要条件（Stein。1955； Farrell，1968b）指出，在以下假设下

采样密度在连续，并且在上严格为正；和 $f(x|\theta)$ $\theta$ $\Theta$
损失函数严格是凸的，连续的，如果是紧凑的，则 $L$ $E\subset\Theta$ $lim_{‖ δ ‖ \to + \infty} inf_{θ \in E} L (θ, δ) = + \infty .$ $\lim_{\|\delta\|\rightarrow +\infty} \inf_{\theta\in E}L(\theta,\delta) =+\infty.$

估计量仅在存在的情况下才是可接受的 $\delta$

一个递增紧集的序列，例如， $(F_n)$ $\Theta=\bigcup_n F_n$
具有支持的有限度量的序列，和 $(\pi_n)$ $F_n$
与相关的贝叶斯估计量的序列，使得 $(\delta_n)$ $\pi_n$
1. 存在一个紧集这样 $E_0\subset \Theta$ $\inf_n \pi_n(E_0) \ge 1$
2. 如果是紧凑的，则 $E\subset \Theta$ $\sup_n \pi_n(E) <+\infty$
3. $\lim_n r(\pi_n,\delta)-r(\pi_n) = 0$ 且
4. $\lim_n R(\theta,\delta_n)= R(\theta,\delta)$ 。

[摘自我的书《贝叶斯选择》，定理8.3.0，第407页]

在这种受限意义上，可容许性的频繁性具有贝叶斯背景，因此将隐式先验（或其顺序）与每个可容许估计量相关联。

旁注：不幸的是，查尔斯·斯坦因于11月25日在加利福尼亚州帕洛阿尔托去世。他是96岁。

没有为不变或同变估计类似（如果数学参与）结果，即在最优同估计是贝叶斯估计作用于一个统计模型中的每个传递组，用正确的哈尔措施相关联，，诱发上由该组和对应的不变损失。有关详细信息，请参阅Pitman（1939），Stein（1964）或Zidek（1969）。这是贾恩斯（Jaynes）牢记的关于不变性原则解决边缘化悖论的最有可能的想法。 $\pi^*$ $\Theta$

此外，正如Civilstat回答中详述的那样，另一种频繁出现的最优性概念（即最小极大）也与贝叶斯过程相关联，因为最小化最大误差（在参数空间上）的最小极大值过程通常是最大化最小误差（（所有先前的分布），因此是一个贝叶斯或贝叶斯限制程序。

问：我可以用来将贝叶斯直觉转换为常客模式的简单方法吗？

首先，我将避免使用术语“频率模型”，因为存在采样模型（数据是参数值的实现） $x$ $X\sim f(x|\theta)$ $\theta$ 和频率过程（最佳无偏估计量，最小值方差置信区间＆tc。）其次，我认为没有考虑将频频方法视为边界方法或限制贝叶斯方法的令人信服的方法论或理论理由。存在频繁程序的理由是要在采样空间（即重复观察）中满足某些最优性。给定先验分布并从采样模型中获得一个实现，贝叶斯过程的主要理由是[在特定标准或损失函数下]是最佳的。有时，生成的过程满足某些常客性（％的可信区域是％的置信区域） $95$ $95$ ，但这是偶然的，因为这种最优性并未转移到与贝叶斯模型相关的所有过程。

— 西安
source

非常感谢。作为新手，我可以用一个简单的方法将贝叶斯直觉转换为常客模式吗？即（该GLM与y先于y相似，或者该套索类似于贝叶斯xyz）。

— Bayesquest，2016年

另外，您介意在这里查看我的另一个问题：stats.stackexchange.com/questions/247850 / ... 我知道您已经提出了一些解决贝叶斯脆性问题的解决方案...但是我感觉这些解决方案并不可靠或容易被社会科学家使用。

— Bayesquest '16

对于第一个评论，这里就是我在谈论的一些例子： - 神经网络和GPS - stats.stackexchange.com/questions/71782/... - sumsar.net/blog/2015/04/... - [A贝叶斯非参（npB）观点允许将森林解释为来自树木后部的样本]（arxiv.org/pdf/1502.02312.pdf）

— Bayesquest，2016年

我们对随机森林进行了近似贝叶斯推断，发现该工具产生的变异性与原始后验无关。当然，这并不意味着它不允许贝叶斯解释，但是……

— 西安

@西安的答案更完整。但是，由于您还要求外卖，这是一个。（我提到的概念与上面的可接纳性设置并不完全相同。）

经常（但并非总是）喜欢使用“最小极大值”的估计量：如果我要估计，则我的估计量的最坏情况风险应该比其他任何估计量的最坏情况风险都要好。。事实证明，MLE通常（近似）为minimax。在此处或此处查看详细信息。 $\theta$ $\hat{\theta}$

为了找到问题的极小极大估计量，一种方法是考虑贝叶斯片刻，然后找到“最不利先验”。这是其先验者的贝叶斯估计量具有比其他先验者的贝叶斯估计量更高的平均风险。如果找到它，那么的Bayes估计量就是minimax。 $\pi$ $\pi$

从这个意义上讲，您可能会讨厌地说：一个（使用极小极大限度的）频繁者就像一个贝叶斯人，他选择了（最差点）基于最不利的先验。

也许您可以这样说：这样的频率主义者是保守的贝叶斯主义者，选择的不是主观先验甚至是无信息先验，而是（在此特定意义上）选择最坏情况的先验。

最后，就像其他人所说的那样，用这种方式比较常客和贝叶斯主义者是很困难的。成为常客不一定意味着您使用某种估计量。这只是意味着您要问有关估计量的采样属性的问题，而这些问题并不是贝叶斯算法的头等大事。（因此，任何希望获得良好采样属性的贝叶斯主义者（例如“校准贝叶斯”）也都是频率论者。）
即使您将频率论者定义为其估计量始终具有最佳采样属性的人，也有许多这样的属性，并且您不能总是一次见到他们。因此，一般来讲“所有频率模型”都很难说。

— 民事诉讼
source

我认为对频度分析的隐式先验将是一些统一的先验。

— Michael R. Chernick

有时候可以。您可以将MLE视为使用统一先验的MAP估计。但是MLE并不是常客使用的唯一工具。

— civilstat '16

另一个相关概念：“匹配先验”或“概率匹配先验”，您的可信区间设计的特定先验近似匹配该特定参数的频率置信区间。同样，这些可以是统一的，但不一定要统一。取决于参数的选择以及您希望近似值的好坏。参见例如utstat.utoronto.ca/reid/research/vaneeden.pdf

1 - α

$1-\alpha$

1 - α

$1-\alpha$

— civilstat '16