背景和经验示例
我有两个研究;我进行了一个实验(研究1),然后进行了复制(研究2)。在研究1中,我发现了两个变量之间的相互作用。在研究2中,这种交互作用方向相同,但意义不大。以下是研究1模型的摘要:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.75882 0.26368 21.840 < 2e-16 ***
condSuppression -1.69598 0.34549 -4.909 1.94e-06 ***
prej -0.01981 0.08474 -0.234 0.81542
condSuppression:prej 0.36342 0.11513 3.157 0.00185 **
并研究2的模型:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.24493 0.24459 21.444 <2e-16 ***
prej 0.13817 0.07984 1.731 0.0851 .
condSuppression -0.59510 0.34168 -1.742 0.0831 .
prej:condSuppression 0.13588 0.11889 1.143 0.2545
与其说“我猜我没有什么,因为我无法复制”,不如说是结合了两个数据集,创建了一个虚拟变量来研究数据的来源,然后进行交互在控制研究虚拟变量之后再次出现。即使在控制了它之后,这种相互作用也是很明显的,我发现条件和不喜欢/偏爱之间的这种双向相互作用不能通过与研究哑变量的三向相互作用来限定。
贝叶斯分析简介
我有人建议这是使用贝叶斯分析的绝佳机会:在研究2中,我有研究1中的信息,可以用作先验信息!这样,研究2正在对研究1中的常客,普通最小二乘结果进行贝叶斯更新,因此,我返回并重新分析研究2模型,现在使用有关系数的先验知识:所有系数都有一个正常先验,平均值是研究1中的估计值,标准差是研究1中的标准误差。
这是结果的摘要:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.63 0.17 5.30 5.52 5.63 5.74 5.96
condSuppression -1.20 0.20 -1.60 -1.34 -1.21 -1.07 -0.80
prej 0.02 0.05 -0.08 -0.01 0.02 0.05 0.11
condSuppression:prej 0.34 0.06 0.21 0.30 0.34 0.38 0.46
sigma 1.14 0.06 1.03 1.10 1.13 1.17 1.26
mean_PPD 5.49 0.11 5.27 5.41 5.49 5.56 5.72
log-posterior -316.40 1.63 -320.25 -317.25 -316.03 -315.23 -314.29
看起来现在我们已经获得了有关研究2分析的相互作用的确凿证据。这与我所做的工作是一致的,当时我只是简单地将数据堆叠在一起,然后将研究编号作为虚拟变量运行模型。
反事实:如果我先学习2怎么办?
那让我开始思考:如果我先运行研究2,然后使用研究1的数据更新我对研究2的信念怎么办?我做了与上述相同的事情,但相反:我使用研究人员对研究1数据进行分析的惯常方法,普通最小二乘系数估计值和与研究2的标准差作为先前的均值和标准差,对研究1的数据进行了重新分析。汇总结果为:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.35 0.17 5.01 5.23 5.35 5.46 5.69
condSuppression -1.09 0.20 -1.47 -1.22 -1.09 -0.96 -0.69
prej 0.11 0.05 0.01 0.08 0.11 0.14 0.21
condSuppression:prej 0.17 0.06 0.05 0.13 0.17 0.21 0.28
sigma 1.10 0.06 0.99 1.06 1.09 1.13 1.21
mean_PPD 5.33 0.11 5.11 5.25 5.33 5.40 5.54
log-posterior -303.89 1.61 -307.96 -304.67 -303.53 -302.74 -301.83
同样,我们看到了交互作用的证据,但是不一定是这种情况。请注意,两个贝叶斯分析的点估计值彼此之间甚至都不在95%的可信区间内。贝叶斯分析中的两个可信区间的非重叠部分多于重叠部分。
时间优先的贝叶斯合理性是什么?
因此,我的问题是:贝叶斯主义者尊重数据收集和分析的时间顺序的理由是什么?我从研究1获得结果,并将其用作研究2中的有益先验,因此我使用研究2来“更新”我的信念。但是,如果我们假设我得到的结果是从具有真实总体效应的分布中随机抽取的,那我为什么还要优先考虑研究1的结果呢?将研究1的结果作为研究2的先验而不使用研究2的结果作为研究1的先验的理由是什么?我收集和计算分析的顺序真的重要吗?在我看来,这似乎不应该—贝叶斯对此有何道理?为什么仅因为我首先进行研究1,我为什么认为点估计比.34更接近.34?
回应Kodiologist的回答
Kodiologist评论:
这些中的第二点表明您与贝叶斯惯例大相径庭。您没有先设置先验然后再以贝叶斯方式拟合两个模型。您以非贝叶斯方式拟合一个模型,然后将其用于其他模型的先验条件。如果使用常规方法,您将看不到这里看到的对顺序的依赖性。
为了解决这个问题,我适合研究1和研究2的模型,其中所有回归系数的先验。该变量是针对实验条件的虚拟变量,编码为0或1;该变量以及结果均以从1到7的7点量表进行度量。因此,我认为这是优先选择的一个合理选择。就数据的缩放方式而言,很少见到系数比先前建议的要大得多的系数。cond
prej
这些估计的平均估计值和标准偏差与OLS回归中的估计值相同。研究1:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.756 0.270 5.236 5.573 5.751 5.940 6.289
condSuppression -1.694 0.357 -2.403 -1.925 -1.688 -1.452 -0.986
prej -0.019 0.087 -0.191 -0.079 -0.017 0.040 0.150
condSuppression:prej 0.363 0.119 0.132 0.282 0.360 0.442 0.601
sigma 1.091 0.057 0.987 1.054 1.088 1.126 1.213
mean_PPD 5.332 0.108 5.121 5.259 5.332 5.406 5.542
log-posterior -304.764 1.589 -308.532 -305.551 -304.463 -303.595 -302.625
研究2:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.249 0.243 4.783 5.082 5.246 5.417 5.715
condSuppression -0.599 0.342 -1.272 -0.823 -0.599 -0.374 0.098
prej 0.137 0.079 -0.021 0.084 0.138 0.192 0.287
condSuppression:prej 0.135 0.120 -0.099 0.055 0.136 0.214 0.366
sigma 1.132 0.056 1.034 1.092 1.128 1.169 1.253
mean_PPD 5.470 0.114 5.248 5.392 5.471 5.548 5.687
log-posterior -316.699 1.583 -320.626 -317.454 -316.342 -315.561 -314.651
由于这些均值和标准偏差与OLS估计值大致相同,因此仍然会发生上述顺序效应。如果我在分析研究2时将研究1的后验汇总统计信息插入到先验中,那么我观察到的最终后验概率与首先分析研究2时所观察到的最终后验概率不同,然后将这些后验摘要统计信息用作分析研究1的先验概率。
即使当我使用贝叶斯均值和标准偏差作为回归系数作为先验值而不是惯常估计时,我仍然会观察到相同的阶次效应。因此,问题仍然存在:将首先出现的研究特权化的贝叶斯理由是什么?
rstanarm
或“斯坦”?这似乎是这个问题已经被问这里之前:stats.stackexchange.com/questions/241690/...
prej
应与上述两种方法相同,除非我对您的程序有误解。