比其他分析更早进行特权分析的贝叶斯理由是什么?


26

背景和经验示例

我有两个研究;我进行了一个实验(研究1),然后进行了复制(研究2)。在研究1中,我发现了两个变量之间的相互作用。在研究2中,这种交互作用方向相同,但意义不大。以下是研究1模型的摘要:

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)              5.75882    0.26368  21.840  < 2e-16 ***
condSuppression         -1.69598    0.34549  -4.909 1.94e-06 ***
prej                    -0.01981    0.08474  -0.234  0.81542    
condSuppression:prej     0.36342    0.11513   3.157  0.00185 ** 

并研究2的模型:

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           5.24493    0.24459  21.444   <2e-16 ***
prej                  0.13817    0.07984   1.731   0.0851 .  
condSuppression      -0.59510    0.34168  -1.742   0.0831 .  
prej:condSuppression  0.13588    0.11889   1.143   0.2545  

与其说“我猜我没有什么,因为我无法复制”,不如说是结合了两个数据集,创建了一个虚拟变量来研究数据的来源,然后进行交互在控制研究虚拟变量之后再次出现。即使在控制了它之后,这种相互作用也是很明显的,我发现条件和不喜欢/偏爱之间的这种双向相互作用不能通过与研究哑变量的三向相互作用来限定。

贝叶斯分析简介

我有人建议这是使用贝叶斯分析的绝佳机会:在研究2中,我有研究1中的信息,可以用作先验信息!这样,研究2正在对研究1中的常客,普通最小二乘结果进行贝叶斯更新,因此,我返回并重新分析研究2模型,现在使用有关系数的先验知识:所有系数都有一个正常先验,平均值是研究1中的估计值,标准差是研究1中的标准误差。

这是结果的摘要:

Estimates:
                       mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)             5.63    0.17    5.30    5.52    5.63    5.74    5.96
condSuppression        -1.20    0.20   -1.60   -1.34   -1.21   -1.07   -0.80
prej                    0.02    0.05   -0.08   -0.01    0.02    0.05    0.11
condSuppression:prej    0.34    0.06    0.21    0.30    0.34    0.38    0.46
sigma                   1.14    0.06    1.03    1.10    1.13    1.17    1.26
mean_PPD                5.49    0.11    5.27    5.41    5.49    5.56    5.72
log-posterior        -316.40    1.63 -320.25 -317.25 -316.03 -315.23 -314.29

看起来现在我们已经获得了有关研究2分析的相互作用的确凿证据。这与我所做的工作是一致的,当时我只是简单地将数据堆叠在一起,然后将研究编号作为虚拟变量运行模型。

反事实:如果我先学习2怎么办?

那让我开始思考:如果我先运行研究2,然后使用研究1的数据更新我对研究2的信念怎么办?我做了与上述相同的事情,但相反:我使用研究人员对研究1数据进行分析的惯常方法,普通最小二乘系数估计值和与研究2的标准差作为先前的均值和标准差,对研究1的数据进行了重新分析。汇总结果为:

Estimates:
                          mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)                5.35    0.17    5.01    5.23    5.35    5.46    5.69
condSuppression           -1.09    0.20   -1.47   -1.22   -1.09   -0.96   -0.69
prej                       0.11    0.05    0.01    0.08    0.11    0.14    0.21
condSuppression:prej       0.17    0.06    0.05    0.13    0.17    0.21    0.28
sigma                      1.10    0.06    0.99    1.06    1.09    1.13    1.21
mean_PPD                   5.33    0.11    5.11    5.25    5.33    5.40    5.54
log-posterior           -303.89    1.61 -307.96 -304.67 -303.53 -302.74 -301.83

同样,我们看到了交互作用的证据,但是不一定是这种情况。请注意,两个贝叶斯分析的点估计值彼此之间甚至都不在95%的可信区间内。贝叶斯分析中的两个可信区间的非重叠部分多于重叠部分。

时间优先的贝叶斯合理性是什么?

因此,我的问题是:贝叶斯主义者尊重数据收集和分析的时间顺序的理由是什么?我从研究1获得结果,并将其用作研究2中的有益先验,因此我使用研究2来“更新”我的信念。但是,如果我们假设我得到的结果是从具有真实总体效应的分布中随机抽取的,那我为什么还要优先考虑研究1的结果呢?将研究1的结果作为研究2的先验而不使用研究2的结果作为研究1的先验的理由是什么?我收集和计算分析的顺序真的重要吗?在我看来,这似乎不应该—贝叶斯对此有何道理?为什么仅因为我首先进行研究1,我为什么认为点估计比.34更接近.34?


回应Kodiologist的回答

Kodiologist评论:

这些中的第二点表明您与贝叶斯惯例大相径庭。您没有先设置先验然后再以贝叶斯方式拟合两个模型。您以非贝叶斯方式拟合一个模型,然后将其用于其他模型的先验条件。如果使用常规方法,您将看不到这里看到的对顺序的依赖性。

为了解决这个问题,我适合研究1和研究2的模型,其中所有回归系数的先验。该变量是针对实验条件的虚拟变量,编码为0或1;该变量以及结果均以从1到7的7点量表进行度量。因此,我认为这是优先选择的一个合理选择。就数据的缩放方式而言,很少见到系数比先前建议的要大得多的系数。N(0,5)condprej

这些估计的平均估计值和标准偏差与OLS回归中的估计值相同。研究1:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.756    0.270    5.236    5.573    5.751    5.940    6.289
condSuppression        -1.694    0.357   -2.403   -1.925   -1.688   -1.452   -0.986
prej                   -0.019    0.087   -0.191   -0.079   -0.017    0.040    0.150
condSuppression:prej    0.363    0.119    0.132    0.282    0.360    0.442    0.601
sigma                   1.091    0.057    0.987    1.054    1.088    1.126    1.213
mean_PPD                5.332    0.108    5.121    5.259    5.332    5.406    5.542
log-posterior        -304.764    1.589 -308.532 -305.551 -304.463 -303.595 -302.625

研究2:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.249    0.243    4.783    5.082    5.246    5.417    5.715
condSuppression        -0.599    0.342   -1.272   -0.823   -0.599   -0.374    0.098
prej                    0.137    0.079   -0.021    0.084    0.138    0.192    0.287
condSuppression:prej    0.135    0.120   -0.099    0.055    0.136    0.214    0.366
sigma                   1.132    0.056    1.034    1.092    1.128    1.169    1.253
mean_PPD                5.470    0.114    5.248    5.392    5.471    5.548    5.687
log-posterior        -316.699    1.583 -320.626 -317.454 -316.342 -315.561 -314.651

由于这些均值和标准偏差与OLS估计值大致相同,因此仍然会发生上述顺序效应。如果我在分析研究2时将研究1的后验汇总统计信息插入到先验中,那么我观察到的最终后验概率与首先分析研究2时所观察到的最终后验概率不同,然后将这些后验摘要统计信息用作分析研究1的先验概率。

即使当我使用贝叶斯均值和标准偏差作为回归系数作为先验值而不是惯常估计时,我仍然会观察到相同的阶次效应。因此,问题仍然存在:将首先出现的研究特权化的贝叶斯理由是什么?


2
“我仍然会处于同样的情况。所以问题仍然存在:贝叶斯将特权置于第一位的研究有什么理由?” Hu?您还在哪种意义上特权研究1?您可以按照此处所述或以相反的顺序拟合这两个模型,并且您对例如真实人口系数的最终估计prej应与上述两种方法相同,除非我对您的程序有误解。
Kodiologist

@Kodiologist我为清楚起见进行了编辑,包括有关该过程的更多信息。
马克·怀特

1
协方差矩阵和误差呢?您必须将整个关节后部用作新的先验。
Scortchi-恢复莫妮卡

@Scortchi Bingo-我认为这是正确的答案,这正是unutbu的答案使我相信的。我所做的只是更新的原始版本:我进行了汇总统计,而不是整个联合后验。这暗示了一个问题:是否有办法将整个关节后部包括为“先验” rstanarm或“斯坦”?这似乎是这个问题已经被问这里之前:stats.stackexchange.com/questions/241690/...
马克·怀特

1
如果您从系数的高斯先验(&独立性?)开始,而方差从反伽玛开始,那么您将拥有一个正常的反伽玛先验及其共轭。查找更新方程。
Scortchi-恢复莫妮卡

Answers:


22

贝叶斯定理posteriorprior * likelihood在重新缩放后等于,因此概率等于1。每个观察值都有一个likelihood,可用于更新prior和创建新的posterior

posterior_1 = prior * likelihood_1
posterior_2 = posterior_1 * likelihood_2
...
posterior_n = posterior_{n-1} * likelihood_n

以便

posterior_n = prior * likelihood_1 * ... * likelihood_n

乘法的可交换性意味着可以按任何顺序进行更新。因此,如果您从一个先验开始,则可以按任意顺序混合研究1和研究2的观察结果,应用贝叶斯公式并得出相同的最终结果posterior


1
很有道理。因此,这表明存在差异的可能原因是:我进行分析的方式(将后验汇总统计信息插入下一个研究的先前论证中)不是更新的工作原理?那就是:我需要考虑后验的整体,而不仅仅是将汇总统计信息从后验分析中插入到先验分析中。正确?
马克·怀特

4
@MarkWhite正确。第一次分析的后验分布应该是第二次分析的先验分布。
Kodiologist

4
关于后@Kodiologist和汇总统计=后!
马克·怀特

@MarkWhite对。
Kodiologist

22

首先我要指出:

  1. 在重要性测试方法中,您采用不同的模型跟踪了否定结果,这为您提供了另一个获得肯定结果的机会。这样的策略会增加您的项目一级I错误率。重要性测试要求预先选择分析策略,以使值正确。p
  2. 通过将样本中的发现直接转换为先验,您对研究1的结果充满了信心。请记住,先验不仅反映了过去的发现。它需要对您所有先前存在的信念进行编码,包括在早期发现之前的信念。如果您承认研究1涉及抽样误差以及其他较难处理的不确定性(例如模型不确定性),则应使用更保守的先验。

这些中的第二点表明您与贝叶斯惯例大相径庭。您没有先设置先验然后再以贝叶斯方式拟合两个模型。您以非贝叶斯方式拟合一个模型,然后将其用于其他模型的先验条件。如果使用常规方法,您将看不到这里看到的对顺序的依赖性。


1.我如何用其他模型跟进负面结果?“负面结果”是什么意思?就I类错误率而言,这是两项相互独立进行的独立研究。无论哪种方式,我都相信要进行探索性数据分析,所以我从不认为实践中的p值是“正确的”,或者我们不应期望它们是“完全正确的”。如果人们只是事先进行了他们想到的测试,那么我们将错失许多偶然发生的重大发现,而这将浪费大量数据。
马克·怀特

2
1.否定结果是令人兴奋或令人失望的结果,或更具体地说,在重要性检验的背景下,否定结果是无法拒绝原假设。当然,如果您不认为是正确的,那么即使从理论上讲,重要性检验也没有任何价值。探索性哲学没有错,但是意义测试并不适合它。我所说的“研究型”,实际上是指“项目型”,就包括这两项研究的“项目”一词而言。我已经纠正了。p
Kodiologist

1
2.是的,但是对于研究2,您将获得不同的先验先验,而这最终并没有给研究1的准确性提供足够的可信度。
Kodiologist

1
1.问题不是您收集了更多数据并进行了分析,而是重新分析了两项研究的数据(使用带有新预测变量的统一模型),因为您第一次分析第二个数据集时得到的结果是负面的。我从未见过有理由相信重要性测试实际上是有用的,但是大多数相信它的人似乎认为,关于重要性测试的所有定理都支持其有用性,并且像所有定理一样,这些定理也需要某些前提以便得出结论。
Kodiologist

1
@Kodiologist-如果您不认为意义测试永远有用,那么您怀疑(例如)研究人员基于什么基础,他得出的结论是大多数人可能有蓝眼睛,因为两个样本中的每个人都拥有蓝眼睛?
Obie 2.0

4

我想我可能会制作一系列带有不同但风格化问题的图表,以向您展示为什么从频率论方法转换为贝叶斯方法可能很危险,以及为什么使用汇总统计信息会产生问题。

我将不使用您的多维示例,而是将两个研究的规模缩减为一个维度,这两个研究的大小分别为三个观察值和三个观察值。

我使用的数据是伪造的。两个样本均被迫具有-1的中位数。这很重要,因为它来自我通常必须使用的简化密度函数。频率密度和贝叶斯似然函数为 这是柯西分布,中位数未知,但比例参数为1。在股票市场中,它被截断了,是最常见的情况,它出现在诸如旋转的岩石之类的旋转物体的物理问题或著名的“鸥灯塔问题”中。

1π11+(xθ)2.

我之所以使用它,是因为中央极限定理不适用,缺乏足够的统计量,极端的观察是普遍的,切比雪夫的不等式不成立并且许多通常可行的解决方案崩溃了。我之所以使用它,是因为它可以作为很好的例子,而不必花太多时间解决问题。

有两个样本。在第一个研究中,数据为。在第二项研究中,数据为。这种分布很好,因为高浓度的样品是常见的,而大范围的样品是常见的。99.99%的置信区间通常是而不是大多数情况下的。{ - 1.5 - 1 - 0.5 } ± 669 σ ± 3 σ{5,1,4}{1.5,1,.5}±669σ±3σ

两项独立研究的后验密度为 贝叶斯分离后验

从视觉上显而易见,从样本一中获取摘要统计信息可能会令人难以置信的误导。如果您习惯于看到不错的,单峰的,定义明确的命名密度,那么可以使用贝叶斯工具快速将其淘汰。没有像这样的命名分布,但是如果您不目视它,则可以使用摘要统计信息来描述它。如果要使用摘要统计信息来建立新的先验统计信息,则可能会遇到问题。

两个样本的频率置信度分布相同。因为比例是已知的,所以唯一未知的参数是中位数。对于三个样本量,中位数为MVUE。尽管柯西分布没有均值或方差,但中位数的采样分布却没有。它的效率比最大似然估计器差,但我无需花费任何精力进行计算。对于大样本量,Rothenberg的方法是MVUE,也有中等样本量的解决方案。

对于频繁发行,您可以获得 频繁的置信度分布。

请注意,如果您使用汇总统计信息,则两个样本将获得相同的统计信息。频率分布对数据的依赖性不大,因为scale参数是已知的并且它们具有相同的中位数。因此,由于共同的中位数,汇总统计量对于样本中的差异是不变的。尽管您会正确地指出这是人为的,而且不会真正发生,但失真仍然存在。使用更适合贝叶斯思维的语言,频率模型是而不是。Pr(x|θ)Pr(θ|x)

频率分布假定样本大小为3次绘制的次数无限重复,并显示了样本中位数分布的极限分布。贝叶斯分布的给定为因此它仅取决于观察到的样本,而忽略了该样本可能具有的好坏特性。确实,该样本对于贝叶斯方法是不寻常的,因此可以暂停一下以对它进行有力的推断。这就是为什么后部如此宽大,样本不寻常的原因。惯常方法用于控制异常样本,而贝叶斯方法则不能。这就产生了反常的情况,比例参数的确定性使狭窄的解变窄了,但是使贝叶斯变宽了。x

关节后部既是后验的乘积,又是乘积的相乘性,无论使用哪种顺序都无所谓。视觉上,关节后部是联合和独立后验

显然,如果您对后代进行一些简化的分配并使用其摘要统计信息,则可能会得到不同的答案。实际上,这可能是一个截然不同的答案。如果将70%的可信区域用于研究之一,那将导致可信区域断开。间隔不连续的存在有时在贝叶斯方法中发生。研究一的最高密度区间和最低密度区间的图形为HDR与LDR

您会注意到,HDR被超出可信范围的区域的碎片破坏。

尽管许多此类问题通常会随着回归而在大型集中消失,但让我举一个自然的例子,说明贝叶斯方法和频率论方法在回归中如何以不同的方式处理缺失变量。

考虑一个结构良好的回归分析,其中缺少一个变量,即天气。让我们假设客户在雨天和晴天的行为有所不同。如果这种差异足够大,那么很容易就有两种贝叶斯后验模式。一种模式反映阳光明媚的行为,另一种模式反映多雨。您不知道为什么会有两种模式。可能是统计运行,也可能是缺少数据点,但是样本不正常或模型中省略了变量。

Frequentist解决方案将对这两种状态进行平均,并可能将回归线置于实际上没有发生客户行为但将两种行为平均的区域。它也会向下偏向。在残差分析中可能会遇到这些问题,特别是如果真实方差存在较大差异,但事实并非如此。这可能是不时出现在交叉验证中的那些残差的怪异图片之一。

根据相同的数据,您有两个不同的后代,这意味着您没有将两个直接相乘。要么是您从Frequentist解决方案中创建了一个后验,该后验没有与贝叶斯后验一一对应,要么是您从汇总统计信息中创建了一个后验,并且似然函数并非完全对称,这很常见。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.