我有一些数据不一定能假定是从正态分布中得出的,我想对各组之间的等效性进行测试。对于普通数据,有类似TOST(两个单侧t检验)的技术。对于非正常数据,有什么类似于TOST的东西吗?
我有一些数据不一定能假定是从正态分布中得出的,我想对各组之间的等效性进行测试。对于普通数据,有类似TOST(两个单侧t检验)的技术。对于非正常数据,有什么类似于TOST的东西吗?
Answers:
TOST的逻辑用于Wald类型的t和z测试统计(即 和 可以分别应用于z逼近的非参数测试,例如符号,符号秩和秩和检验。为简单起见,我假设用一个术语对称地表达等价关系,但是将我的答案扩展到非对称等价项很简单。
这样做会引起一个问题,就是如果习惯于表达等价项(例如, )的单位与 ,则等价术语必须根据具体的符号,符号秩,或秩总和统计量,这既是深奥,和依赖于单位表示Ñ。
但是,也可以以测试统计数据本身的单位表示TOST等效项。考虑一下TOST,如果, 然后 和 。如果我们让, 然后 和 。(此处表示的统计信息均在右尾进行评估: 和 。)使用z的单位对于非参数测试,分布的来定义等效/相关性阈值可能是更可取的,因为替代方法以带符号的等级或等级和的单位定义了阈值,这对研究人员可能实质上没有意义,并且很难解释。
如果我们认识到(对于对称等价区间),则不可能拒绝任何TOST空假设 ,那么我们可能会相应地对等效项的适当大小进行决策。例如。
已经在Stata 包tost(现在包括用于Shapiro-Wilk和Shapiro-Francia测试的特定TOST实现)的程序包中使用了用于校正连续性等选项的方法,您可以通过在Stata中键入以下内容进行访问:
编辑:为什么TOST的逻辑是合理的,并且等效测试形式已应用于综合测试,所以我被说服我的解决方案是基于对Shapiro-Wilk和Shapiro-Francia测试的近似统计的深刻误解
它本身不是TOST,而是Komolgorov-Smirnov测试允许您测试样本分布与您可以指定的第二参考分布之间差异的显着性。您可以使用此测试来排除特定种类的不同分布,但一般来说不能不同(至少,如果不能控制所有可能的替代方案之间的误差膨胀,则至少要这样做……)。像往常一样,任何一项测试的替代假设都将保留较不具体的“包罗万象”假设。
如果您可以对两个组之间的分布差异进行检验,而零假设是两个组是同等分布的,则可以使用Komolgorov-Smirnov检验将一个组的分布与另一组的分布进行比较。这可能是传统方法:如果差异在统计上不显着,则忽略差异,并通过测试统计量证明该决定的合理性。
无论如何,您可能需要考虑由“全有或全无”方法拒绝无效假设而引起的一些更深层次的问题。这样的问题在“交叉验证”中很受欢迎:“ 正常性测试“基本上没有用”吗? ”人们喜欢回答以下问题:“为什么要对此进行测试?” 我认为,这样做的目的通常是使测试原因无效,而这最终可能会导致正确的方向。对于我在这里链接的问题的有用答案的要旨似乎如下:
fail to
/ reject
方法是行之有效的,大多数样品不能完全排除空是真实的可能性。如果人们坚持拒绝,几乎总是会出现错误拒绝错误的机会,这通常在字面上是没有必要的。那可能是我最初打算提出的更重要的观点。希望现在可以更清楚一点,没有删除的内容
等效性是我们无法检验的东西。考虑一下假设: 与 。NHST理论告诉我们,空下,我们可以选择任何下最适合数据的 这意味着我们几乎总是可以任意接近分布。例如,如果我想测试,该概率模型允许将 和 空值总是更有可能出现,这违反了关键的测试假设。即使样品 同样地,我得到的似然比可以任意接近1 。
如果您知道适合数据的概率模型,则可以使用惩罚信息标准对备用模型进行排名。一种方法是使用两种概率模型的BIC(一种是根据 和 。我使用了正常概率模型,但是您可以通过手动或使用GLM轻松地从任何类型的最大似然法中获取BIC。这个Stackoverflow帖子内容精巧,适合进行发布。这里是一个示例:
set.seed(123)
p <- replicate(1000, { ## generate data under the null
x <- rnorm(100)
g <- sample(0:1, 100, replace=T)
BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)
给
> mean(p)
[1] 0.034
这是空模型(独立模型)的BIC优于(较低)替代模型(等效模型)的BIC的比例。这非常接近统计测试的名义0.05水平。
另一方面,如果我们采取:
set.seed(123)
p <- replicate(1000, { ## generate data under the null
x <- rnorm(100)
g <- sample(0:1, 100, replace=T)
x <- x + 0.4*g
BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)
给出:
> mean(p)
[1] 0.437
与NHST一样,在得出确定性结论之前,还应通过仿真来探讨功率和虚假误码率的细微问题。
我认为类似的(也许是更通用的方法)正在使用贝叶斯统计量来比较在任一概率模型下估计的后验。