贝叶斯估计量是否不受选择偏差的影响?
大多数讨论高维估计的论文,例如整个基因组序列数据,通常会提出选择偏见的问题。选择偏差是由于以下事实而产生的:尽管我们有成千上万的潜在预测变量,但只有很少的预测变量会被选择,并且对所选的少数变量进行推断。因此,该过程分两个步骤进行:(1)选择预测变量的子集(2)对选择集进行推断,例如估计比值比。戴维德(Dawid)在其1994年的悖论论文中重点研究了无偏估计量和贝叶斯估计量。他将问题简化为选择最大的效果,这可能是治疗效果。 然后他说,无偏估计量受选择偏差的影响。他使用了这个例子:假设
然后每个Z i
Zi∼N(δi,1),i=1,…,N
Zi对于是无偏的。令 ,估计量
但是有偏见(肯定地)表示
\ max \ {\ delta_1,\ delta_2,\ ldots,\ delta_N \}。用詹森的不等式可以很容易地证明这一说法。因此,如果我们知道
i _ {\ max},即最大
\ delta_i的索引,我们将仅使用
Z_ {i _ {\ max}}作为其估计量
而无偏。但是因为我们不知道这一点,所以我们使用
\ gamma_1(\ mathbf {Z})来代替它(有偏)。
ž = (Ž 1,Ž 2,... ,Ž Ñ )Ť γ 1(ż)= 最大{ Ž 1,Ž 2,... ,ž Ñ } 最大值{ δ 1,δ 2,... ,δ Ñ } 我最大 δ 我ž 我最大值 γ 1(žδiZ=(Z1,Z2,…,ZN)Tγ1(Z)=max{Z1,Z2,…,ZN}
max{δ1,δ2,…,δN}imaxδiZimaxγ1(Z)
但是戴维德,埃夫隆和其他作者所作的令人担忧的说法是,贝叶斯估计量不受选择偏见的影响。如果现在将放在,例如,则的贝叶斯估计量由
,其中,其中是标准的高斯模型。δ 我〜克(。)δ 我 È { δ 我 | ž 我 } = ž 我 + dδiδ一世〜克(。)δ一世米(Ž我)=∫φ(ž我-δ我)克(δ我)dδ我φ(。)
E { δ一世∣ Z一世} = z一世+ ddž一世米(ž一世)
米(ž一世)= ∫φ (ž一世- δ一世)克(δ一世)dδ一世φ (。)
如果我们将的新估计量定义为
无论选择估算与如果基于进行选择
,则将与相同。这是因为在是单调的。我们还知道 Z_i为零,其项为 γ 2(ż)= 最大{ ë { δ 1 | Ž 1 } ,ë { δ 2 | Ž 2 } ,... ,Ë { δ Ñ | ž Ñ } } ,我δ 我最大值 γ 1(Ž)我γ 2(ż)γ 2(ž)δ一世最大值
γ2(Z)= max { E { δ1个∣ Z1个} ,E { δ2∣ Z2} ,… ,E { δñ∣ Zñ} } ,
一世δ一世最大值γ1个(Z)一世γ2(Z)γ2(Z) è { δ 我 | ž 我 } ž 我dž一世E { δ一世∣ Z一世}ž一世Ziddž一世米(ž一世)这减少了一些正偏差。但是我们如何得出结论,贝叶斯估计量不受选择偏差的影响。我真的不明白。
ž一世