实际上,p值现在也终于“过时了”:http : //www.nature.com/news/psychology-journal-bans-p-values-1.17001。零假设显着性检验(NHST)产生略高于样本大小的说明。(*)的实验性干预将有一定的效果,这是说的“没有影响”简单的零假设永远是严格意义上的假。因此,“不重要”的测试仅意味着您的样本量不够大。“重大”测试意味着您收集了足够的数据来“发现”某些东西。
“影响大小”表示通过对问题的自然范围采取措施来解决此问题的尝试。在医学中,治疗总是有一定效果(即使是安慰剂效果),因此引入了“临床上有意义的效果”的概念,以防止先验概率发现“治疗”具有“ a(在统计学上)显着的积极效果”(但是微不足道)。
单簧管演奏家,如果我了解您的工作性质,那么最终,其合法目的是告知采取行动/干预措施,以改善您所管辖学校的教育。因此,您的设置是一种决策理论方法,贝叶斯方法是最合适的方法(并且是唯一一致的[1])。
的确,了解惯常方法的最好方法是近似贝叶斯方法。估计的效应大小可以理解为针对贝叶斯后验分布的中心性度量,而p值可以理解为旨在度量该后验的一条尾巴。因此,这两个量一起包含贝叶斯后验的粗略要点,构成了对问题的决策理论观点的自然输入。(或者,对效果大小的频繁置信区间也可以理解为想要的可信区间。)
在心理学和教育领域,贝叶斯方法实际上很流行。原因之一是可以很容易地将“构造”作为潜在变量安装到贝叶斯模型中。您可能想看看心理学家John K. Kruschke的 “小狗书” 。在教育中(有学生嵌套在教室中,嵌套在学校中,嵌套在地区中……),分层建模是不可避免的。贝叶斯模型也非常适合分层建模。在此帐户上,您可能想看看Gelman&Hill [2]。
[1]:Robert,Christian P.贝叶斯选择:从决策理论基础到计算实现。第二版。统计资料中的史宾格文字。纽约:施普林格,2007年。
[2]:Gelman,Andrew和Jennifer Hill。使用回归和多层次/层次模型进行数据分析。社会研究的分析方法。剑桥; 纽约:剑桥大学出版社,2007年。
有关从没有必要用贝叶斯砖头敲打您的头上获得更多“一致性”的信息,请参阅[3]。
[3]:罗宾斯,詹姆斯和拉里·瓦瑟曼。“条件,可能性和连贯性:一些基本概念的回顾。”《美国统计协会杂志》 95,第1期。452(2000年12月1日):1340-46。doi:10.1080 / 01621459.2000.10474344。
(*)在[4]中,Meehl比我更优雅地但又不失磨擦NHST:
由于零假设总是准错误的,因此以“显着差异”模式概括研究的表格不过是统计功效函数的复杂,因果关系无法解释的结果。
[4]:Meehl,Paul E.“理论风险和表格星号:卡尔爵士,罗纳德爵士和软心理学的缓慢发展。”咨询与临床精神病学杂志46(1978):806-34。http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
这是Tukey的相关报价:https : //stats.stackexchange.com/a/728/41404