t检验的“近似正常”评估

我正在使用Welch的t检验来测试均值。底层分布远非正常分布（比此处相关讨论的示例更偏斜）。我可以获取更多数据，但希望有一些原则性的方法来确定在多大程度上可以这样做。

normal-distribution t-test bootstrap central-limit-theorem approximation

— 考兹
source

这是一个很好的问题。除了正常性测试是否“基本上没有用”？（已链接），另外两个相关的问题是如何在t检验或非参数检验之间进行选择，例如小样本中的Wilcoxon？和T检验用于非正常时N> 50？对于这两个相关问题的读者，对该问题的一个良好答案可能会很有价值。

— 银鱼

据我所知，没有任何原则性的方法来确定您需要多少数据才能使分发“足够正常”。这是因为很难定义“足够正常”，并且取决于您偏离正态性的特定方式以及基础分布的非正态性。如果您有严重的非正常数据，我会使用非参数测试。不利的一面是，您将无法获得比单独的假设检验更有用的置信区间。

— dsaxton 2015年

我同意很难定义“足够正常”，但是每个从业者都必须在对经验数据进行推理之前进行评估，这就是为什么令我惊讶的是，我发现的讨论很少（也许我在错误的地方）。对于我在这里想到的用例（感觉很普通），与收集更多数据以确保“足够正常”的采样分布相比，非参数测试并不令人满意。

— cohoz

由于t检验假设正态性，并且您的基础分布不正常，因此无法采用原则性的方式确定样本分布是可以接受的。然而，由于样本大小变“大”，中心极限定理在踢，你可以用一个大样本t检验，这将从根本上给你相同的答案，一个牛逼，因为-测试ŧ与接近正态分布大样本。

统计资料/课程通常暗示以25或30 CLT的样本规模以有用的方式发挥作用。但是，我的经验是，即使有数百个大型样本z检验中的样本量，也仍然很差（例如，具有计数数据）。

我认为，排列测试非常适合您的问题。它应具有比罐装非参数测试（例如，Mann-Whitney）相等或更好的功效，并且您不必担心正态性问题。而且，它们很有趣。

— 提姆
source