应该如何解释不同样本量的均值比较？

以网站上的书评为例。10,000人对A本书进行了评分，平均评分为4.25，方差。同样，书籍B由100个人进行评分，并且的评分为4.5 。 $\sigma = 0.5$ $\sigma = 0.25$

现在，由于图书A的样本量很大，“均值稳定”到4.25。现在，对于100个人来说，如果更多的人阅读B书，则平均评分可能会降至4或4.25。

一个人应该如何解释不同样本的均值比较？一个人可以/应该得出的最佳结论是什么？

例如-我们真的可以说Book B比Book A好吗？

t-test mean sample-size

— 博士
source

您对评分背景特别感兴趣吗？

— Jeromy Anglim 2012年

@JeromyAnglim-嗯...大概吧。不确定。那是最常见的例子。你有什么想法？

— 博士

请参阅下面有关贝叶斯评分系统的答案。应用的评级上下文通常会对成百上千个对象进行评级，而目标通常是在给定可用信息的情况下，对对象的评级进行最佳估计。这与简单的两组比较非常不同，您可能会在一组两组的医学实验中发现这种比较。

— Jeromy Anglim

您可以使用t检验来评估均值是否存在差异。不同的样本量不会对t检验造成任何问题，也不需要特别谨慎地解释结果。最终，您甚至可以将单个观测值与具有已知分布，均值和SD的无限总体进行比较。例如智商为130的人比97.7％的人聪明。但是要注意的一件事是，对于给定的（即总样本大小），如果组相等，则功效最大。如果小组人数非常不相等，那么每次观察都会得到额外的分辨率。 $N$ $n$

为了阐明我对功率的观点，这是为R编写的一个非常简单的模拟：

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

注意，在所有情况下，但在第一种情况下＆，在第二种情况下＆，在最后一种情况下和。还要注意，在所有情况下，标准化的均值差/数据生成过程都是相同的。但是，尽管对于50-50个样本，该测试在70％的时间内是“显着”的，但对于75-25个而言，功效为56％，而当小组规模为90-10个时，功效仅为33％。 $N=100$ $n_1=50$ $n_2=50$ $n_1=75$ $n_2=25$ $n_1=90$ $n_2=10$

我以此类推。如果您想知道矩形的面积，并且周长是固定的，则如果长度和宽度相等（即，如果矩形是正方形），则面积将最大化。另一方面，随着长度和宽度的变化（矩形变长），面积会缩小。

— gung-恢复莫妮卡
source

功率最大化？我不太确定我是否了解。能否请您举个例子？

— 博士2012年

t检验可以处理不相等样本量的原因是，它考虑了每组均值估算的标准误差。那就是组分布的标准偏差除以组样本大小的平方根。如果总体标准偏差等于或接近等于，则具有更大样本量的组将具有较小的标准误差。

— Michael Chernick 2012年

@gung-我不确定我是否真的知道此模拟编写的是哪种“语言”。我猜是“ R”？并且我仍在试图破译它：)

— 博士

该代码适用于R。我已对其进行了注释，以使其易于遵循。如果您有R，则可以将其复制并粘贴到R中并自己运行。该set.seed()功能将确保您获得相同的输出。让我知道是否仍然很难遵循。

— gung-恢复莫妮卡

在这个答案中与面积的类比不仅暗示了正在发生的事情，而且很关键。从一个非常直接的意义上讲（给定总样本大小即矩形的“周长”的一半），最大化乘积（“面积”）可以最大程度地提高估算均值差（因此，识别差值不为零的能力）。这在代数上是微不足道的，所以我将不做进一步的阐述，但是您不可能选择一个更恰当的类比。

N = n_{1} + n_{2}

$N=n_1+n_2$

n_{1} \times n_{2}

$n_1\times n_2$

n_{1} n_{2}

$n_1n_2$

— Glen_b

除了@gung提到的让您参加t检验的答案外，听起来您可能对贝叶斯评分系统也很感兴趣（例如，这里有个讨论）。网站可以使用此类系统对收到的票数不同的订单商品进行排名。本质上，这样的系统通过分配一个等级来工作，该等级是所有项目的平均等级加上特定对象的等级样本的平均值的总和。随着等级数量的增加，分配给对象均值的权重增加，并且分配给所有项目均值的权重减小。也许看看贝叶斯平均数。

当然，当您处理各种各样的问题（例如投票欺诈，随着时间的变化等）时，事情会变得复杂得多。

— 杰罗米·安格利姆
source

甜。从来没有听说过。我一定会研究它。毕竟，也许这就是我的追求：)

— 博士