非正常数据的等效性测试?


9

我有一些数据不一定能假定是从正态分布中得出的,我想对各组之间的等效性进行测试。对于普通数据,有类似TOST(两个单侧t检验)的技术。对于非正常数据,有什么类似于TOST的东西吗?


1
我不熟悉TOST,但是您在寻找曼恩·惠特尼(Mann-Whitney)吗?这是一个非参数检验(在某种意义上,没有对分布进行任何假设),可以提供证据表明两组来自不同的分布。
Nick Sabbe

1
我正在寻找一个检验,其中零假设是存在差异,而替代假设是(几乎)没有差异。
瑞安·汤普森

对于小样本,您可以在stats.stackexchange.com/questions/49782/…中查看答案。对于较大的样本,借助中心极限定理,采用t检验的经典方法很好。
Michael M

3
短语“两个单方面测试”中的任何内容都没有,也没有底层逻辑暗示正常理论。应该完全有可能使其适应非正态分布的位置偏移方案。但是要当心-在许多情况下,对于非常规数据,您真正想要的是刻度转换等价测试,而对于其他类型的数据,则需要其他测试。知道需要什么实际上取决于您要衡量的内容和要解决的问题。与其尝试将您的钉子塞到一个圆孔中,不如检查钉子。
Glen_b-恢复莫妮卡2014年

Answers:


8

TOST的逻辑用于Wald类型的tz测试统计(即θ/sθθ/σθ可以分别应用于z逼近的非参数测试,例如符号,符号秩和秩和检验。为简单起见,我假设用一个术语对称地表达等价关系,但是将我的答案扩展到非对称等价项很简单。

这样做会引起一个问题,就是如果习惯于表达等价项(例如, Δ)的单位与 θ,则等价术语必须根据具体的符号,符号秩,或秩总和统计量,这既是深奥,和依赖于单位表示Ñ

但是,也可以以测试统计数据本身的单位表示TOST等效项。考虑一下TOST,如果z=θ/σθ, 然后 z1=(Δθ)/σθz2=(θ+Δ)/σθ。如果我们让ε=Δ/σθ, 然后 z1=εzz2=z+ε。(此处表示的统计信息均在尾进行评估:p1=P(Z>z1)p2=P(Z>z2)。)使用z的单位对于非参数测试,分布的来定义等效/相关性阈值可能是更可取的,因为替代方法以带符号的等级或等级和的单位定义了阈值,这对研究人员可能实质上没有意义,并且很难解释。

如果我们认识到(对于对称等价区间),则不可能拒绝任何TOST空假设 εz1α,那么我们可能会相应地对等效项的适当大小进行决策。例如ε=z1α+0.5

已经在Stata 包tost(现在包括用于Shapiro-Wilk和Shapiro-Francia测试的特定TOST实现)的程序包中使用了用于校正连续性等选项的方法,您可以通过在Stata中键入以下内容进行访问:

编辑:为什么TOST的逻辑是合理的,并且等效测试形式已应用于综合测试,所以我被说服我的解决方案是基于对Shapiro-Wilk和Shapiro-Francia测试的近似统计的深刻误解


3

它本身不是TOST,而是Komolgorov-Smirnov测试允许您测试样本分布与您可以指定的第二参考分布之间差异的显着性。您可以使用此测试来排除特定种类的不同分布,但一般来说不能不同(至少,如果不能控制所有可能的替代方案之间的误差膨胀,则至少要这样做……)。像往常一样,任何一项测试的替代假设都将保留较不具体的“包罗万象”假设。

如果您可以对两个组之间的分布差异进行检验,而零假设是两个组是同等分布的,则可以使用Komolgorov-Smirnov检验将一个组的分布与另一组的分布进行比较。这可能是传统方法:如果差异在统计上不显着,则忽略差异,并通过测试统计量证明该决定的合理性。

无论如何,您可能需要考虑由“全有或全无”方法拒绝无效假设而引起的一些更深层次的问题。这样的问题在“交叉验证”中很受欢迎:“ 正常性测试“基本上没有用”吗? ”人们喜欢回答以下问题:“为什么要对此进行测试?” 我认为,这样做的目的通常是使测试原因无效,而这最终可能会导致正确的方向。对于我在这里链接的问题的有用答案的要旨似乎如下:

  1. 如果您担心违反参数测试假设,则应该找到一个没有进行分布假设的非参数测试。不要测试是否需要使用非参数测试;只需使用它!
  2. 您应该替换以下问题:“我的分配是否明显不正常?” ,“我的分布有多非正态,这有可能影响我的兴趣分析吗?” 例如,关于集中趋势的测试(尤其是涉及均值的测试)对偏度的敏感度可能比对峰度的敏感度更高,对于(协)方差的测验则反之亦然。尽管如此,对于大多数分析目的,仍然存在一些健壮的替代方案,它们对两种非正态性都不十分敏感。

如果您仍然希望进行等效性测试,这是关于交叉验证另一个流行讨论,涉及等效性测试。


1
等价测试已经很好地建立,您会误解其零假设,通常为H形式0-|θ-θ0|Δ。这是一个区间假设,例如,可以转换为两个单方面测试(TOST):H01-θ-θ0Δ或H01-θ-θ0-Δ。如果一个人拒绝H01- & H02-,那么您必须得出结论 -Δ<θ-θ0<Δ,即您的组在间隔内相等[-ΔΔ]
亚历克西斯

很公平; 我可能有点误导。我删除了您似乎反对的部分。但是,我认为您的评论措词有点过分。尽管强制二分法的事实fail to/ reject方法是行之有效的,大多数样品不能完全排除空是真实的可能性。如果人们坚持拒绝,几乎总是会出现错误拒绝错误的机会,这通常在字面上是没有必要的。那可能是我最初打算提出的更重要的观点。希望现在可以更清楚一点,没有删除的内容
Nick Stauner 2014年

2
好吧,我认为等效测试的强度(例如H0-)来自将它们与熟悉的差异测试(例如H0+)。签出:(1)拒绝H0+ &不拒绝H0-得出相关差异 ; (2)不拒绝H0+ &拒绝H0-,得出等效项(用于Δ); (3)拒绝H0+ &拒绝H0-,得出微不足道的差异(即存在,但您不在乎);和(4)不拒绝H0+ &不拒绝H0-,结束不确定性测试。将功率有效地用于分析。
Alexis 2014年

当然,敏感性和特异性,PPV和NPV的问题不会消失。
Alexis 2014年

-1

等效性是我们无法检验的东西。考虑一下假设:H0FXFÿH1个FX=Fÿ。NHST理论告诉我们,空下,我们可以选择任何H0最适合数据的 这意味着我们几乎总是可以任意接近分布。例如,如果我想测试FXñ01个,该概率模型允许将 F^XF^ÿ空值总是更有可能出现,这违反了关键的测试假设。即使样品X=ÿ 同样地,我得到的似然比可以任意接近1 FÿFX

如果您知道适合数据的概率模型,则可以使用惩罚信息标准对备用模型进行排名。一种方法是使用两种概率模型的BIC(一种是根据H0H1个。我使用了正常概率模型,但是您可以通过手动或使用GLM轻松地从任何类型的最大似然法中获取BIC。这个Stackoverflow帖子内容精巧,适合进行发布。这里是一个示例:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

> mean(p)
[1] 0.034

p这是空模型(独立模型)的BIC优于(较低)替代模型(等效模型)的BIC的比例。这非常接近统计测试的名义0.05水平。

另一方面,如果我们采取:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  x <- x + 0.4*g
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

给出:

> mean(p)
[1] 0.437

与NHST一样,在得出确定性结论之前,还应通过仿真来探讨功率和虚假误码率的细微问题。

我认为类似的(也许是更通用的方法)正在使用贝叶斯统计量来比较在任一概率模型下估计的后验。


2
AdamO,您似乎正在将“测试相等性”与“测试等效性”混为一谈。关于后者的方法和应用已有数十年的历史。
亚历克西斯

1
参见,例如,Wellek,S.(2010)。检验等价性和非自卑性的统计假设。查普曼和霍尔/ CRC出版社,第二版。
亚历克西斯

@Alexis hmm,很遗憾,我们无法访问图书馆。您是说等同性与非劣质性相同,只要估计范围之内的等同被认为是等同的?
AdamO '18 -4-4

1
不完全是:非劣势性是一项单方面的测试,用于检验新疗法的执行情况是否不比某个标准差,还要减去先验指定最小相关差异。等效性检验是对零假设的检验,该假设是两个(或多个)数量在任一方向上相差超过先验指定最小相关差。一些开创性的论文:
亚历克西斯

Schuirmann,DA(1987)。两种单方面测试程序和用于评估平均生物利用度等效性的功效方法的比较药代动力学和生物制药杂志,15(6):657–680。
亚历克西斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.