贝叶斯估计量不受选择偏差的影响


11

贝叶斯估计量是否不受选择偏差的影响?

大多数讨论高维估计的论文,例如整个基因组序列数据,通常会提出选择偏见的问题。选择偏差是由于以下事实而产生的:尽管我们有成千上万的潜在预测变量,但只有很少的预测变量会被选择,并且对所选的少数变量进行推断。因此,该过程分两个步骤进行:(1)选择预测变量的子集(2)对选择集进行推断,例如估计比值比。戴维德(Dawid)在其1994年的悖论论文中重点研究了无偏估计量和贝叶斯估计量。他将问题简化为选择最大的效果,这可能是治疗效果。 然后他说,无偏估计量受选择偏差的影响。他使用了这个例子:假设 然后每个Z i

ZiN(δi,1),i=1,,N
Zi对于是无偏的。令 ,估计量 但是有偏见(肯定地)表示\ max \ {\ delta_1,\ delta_2,\ ldots,\ delta_N \}。用詹森的不等式可以很容易地证明这一说法。因此,如果我们知道i _ {\ max},即最大\ delta_i的索引,我们将仅使用Z_ {i _ {\ max}}作为其估计量而无偏。但是因为我们不知道这一点,所以我们使用\ gamma_1(\ mathbf {Z})来代替它(有偏)。ž = Ž 1Ž 2... Ž Ñ Ť γ 1ż= 最大{ Ž 1Ž 2... ž Ñ } 最大值{ δ 1δ 2... δ Ñ } 最大 δ ž 最大值 γ 1žδiZ=(Z1,Z2,,ZN)T
γ1(Z)=max{Z1,Z2,,ZN}
max{δ1,δ2,,δN}imaxδiZimaxγ1(Z)

在此处输入图片说明

但是戴维德,埃夫隆和其他作者所作的令人担忧的说法是,贝叶斯估计量不受选择偏见的影响。如果现在将放在,例如,则的贝叶斯估计量由 ,其中,其中是标准的高斯模型。δ δ È { δ | ž } = ž + dδiδig(.)δiŽ=∫φž-δδdδφ

E{δiZi}=zi+ddzim(zi)
m(zi)=φ(ziδi)g(δi)dδiφ(.)

如果我们将的新估计量定义为 无论选择估算与如果基于进行选择 ,则将与相同。这是因为在是单调的。我们还知道 Z_i为零,其项为 γ 2ż= 最大{ ë { δ 1 | Ž 1 } ë { δ 2 | Ž 2 } ... Ë { δ Ñ | ž Ñ } } δ 最大值 γ 1Žγ 2żγ 2žδimax

γ2(Z)=max{E{δ1Z1},E{δ2Z2},,E{δNZN}},
iδimaxγ1(Z)iγ2(Z)γ2(Z) è { δ | ž } ž dZiE{δiZi}ZiZiddzim(zi)这减少了一些正偏差。但是我们如何得出结论,贝叶斯估计量不受选择偏差的影响。我真的不明白。Zi

1
鉴于您是在某篇文献中提及某项权利要求,请提供完整的情况和页面参考,以便我们阅读该权利要求的全部内容。
本-恢复莫妮卡

将估计器定义为贝叶斯估计器的最大值仍是贝叶斯估计器吗?
西安

本文中的示例1。
张伯伦·冯查

Answers:


4

如上所述,问题在于对普通rvs样本的最大平均值的指数和值(i⁰,μ⁰)进行推断。在戴维德的演讲中,我发现令人惊讶的是,贝叶斯分析听起来没有那么多贝叶斯。如果给定整个样本,则贝叶斯方法应在(i⁰,μproduce)上产生后验分布,而不是遵循从估计i⁰到估计相关均值的估计步骤。并且如果需要,估计器应来自特定损失函数的定义。相反,当给定样本中的最大点时,只有该点发生变化,它的分布才会改变,所以我对不需要调整的说法感到困惑。

先验建模也很令人惊讶,因为均值的先验应该是联合的,而不是独立法线的乘积,因为这些均值是经过比较的,因此是可比较的。例如,分层先验似乎更合适,其位置和规模要从整个数据中估算出来。在均值之间建立联系...使用独立的不适当先验的一个相关反对意见是,然后最大均值μ⁰没有明确定义的度量。但是,我认为对某些先验与其他先验的批评并不是对这种“悖论”的攻击。


1
在我看来,所有需要的保护都应该在连接所有未知装置的优先级中进行编码。如果先验之间的均值差异不大,这将在后验中得到完美体现。
Frank Harrell

@西安能否举一个例子,说明如何将先验放在?(i,μ)
张伯伦·冯查

@Frank Harrel,考虑例如和。的无偏估计量 是。的贝叶斯估计量为。如果是最大的那么,因为贝叶斯估计量在是单调的。不管先验信息多么丰富,这都不会改变。然而,降低了在正贝叶斯。但是,如果选择了错误的,贝叶斯估计器将无法对此进行更正。δiN(a,1)ZiN(δi,1)δiZiδiE(δi|Zi)Zi0ZiE(δi0|Zi0)ZiE(δi0|Zi0)Zi0i0
张伯伦·冯查

@ChamberlainFoncha:当是先验无关的时,贝叶斯估计量只是。和的联合先验实际上使它们依赖。δ E[δi|Zi]δiμ iμi
西安

从贝叶斯的观点来看,任何先验都是可以接受的,例如索引上的均匀分布和上的分层先验。μi
西安

1

即使有点违反直觉,该陈述也是正确的。假设此实验的,则的后验是。这个违反直觉的事实有点类似于贝叶斯(秘密)提早停止免疫(这也是非常违反直觉的)。μ 5 Ñ X 5σ 2i=5μ5N(x5,σ2)

如果对于每个这样的实验(假设您重复几次),仅保留最佳品种的结果,贝叶斯推理将得出错误的结论。将会进行数据选择,而贝叶斯方法显然无法避免(秘密)数据选择。实际上,没有任何统计方法可以不受数据选择的影响。

如果进行了这样的选择,则考虑该选择的完整贝叶斯推理将很容易纠正这种错觉。

但是,“贝叶斯估计量不受选择偏差的影响”这一句有点危险。不难想象“选择”意味着其他含义的情况,例如选择解释变量或选择数据。贝叶斯显然不能幸免。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.