我正在研究Kruschke的《做贝叶斯数据分析》中的示例,特别是ch中的泊松指数方差分析。22,他作为对偶发表独立性的频繁卡方检验的替代品。
我可以看到我们如何获得有关变量交互比独立变量(即,当HDI排除零时)所期望的交互频率更高或更低的信息。
我的问题是如何在此框架中计算或解释效果大小?例如,克鲁什克(Kruschke)写道:“蓝眼睛和黑发的组合发生的频率要比如果眼睛的颜色和头发的颜色独立的情况下发生的频率要低”,但是我们如何描述这种关联的强度?我如何分辨哪些互动比其他互动更极端?如果我们对这些数据进行卡方检验,则可以计算Cramér的V,作为整体效果大小的度量。如何在这种贝叶斯语境中表达效果大小?
这是本书中的独立示例(代码为R
),以防万一答案在我眼前隐藏在我眼前……
df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15,
10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond",
"Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel")))
df
Blue Brown Green Hazel
Black 20 68 5 15
Blond 94 7 16 10
Brunette 84 119 29 54
Red 17 26 14 14
这是带有效果大小量度的常客输出(书中未列出):
vcd::assocstats(df)
X^2 df P(> X^2)
Likelihood Ratio 146.44 9 0
Pearson 138.29 9 0
Phi-Coefficient : 0.483
Contingency Coeff.: 0.435
Cramer's V : 0.279
这是贝叶斯输出,具有HDI和单元格概率(直接来自本书):
# prepare to get Krushkes' R codes from his web site
Krushkes_codes <- c(
"http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/openGraphSaveGraph.R",
"http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/PoissonExponentialJagsSTZ.R")
# download Krushkes' scripts to working directory
lapply(Krushkes_codes, function(i) download.file(i, destfile = basename(i)))
# run the code to analyse the data and generate output
lapply(Krushkes_codes, function(i) source(basename(i)))
这是应用于数据的泊松指数模型的后验图:
以及关于后验概率的后验分布图: