以网站上的书评为例。10,000人对A本书进行了评分,平均评分为4.25,方差。同样,书籍B由100个人进行评分,并且的评分为4.5 。
现在,由于图书A的样本量很大,“均值稳定”到4.25。现在,对于100个人来说,如果更多的人阅读B书,则平均评分可能会降至4或4.25。
- 一个人应该如何解释不同样本的均值比较?一个人可以/应该得出的最佳结论是什么?
例如-我们真的可以说Book B比Book A好吗?
以网站上的书评为例。10,000人对A本书进行了评分,平均评分为4.25,方差。同样,书籍B由100个人进行评分,并且的评分为4.5 。
现在,由于图书A的样本量很大,“均值稳定”到4.25。现在,对于100个人来说,如果更多的人阅读B书,则平均评分可能会降至4或4.25。
例如-我们真的可以说Book B比Book A好吗?
Answers:
您可以使用t检验来评估均值是否存在差异。不同的样本量不会对t检验造成任何问题,也不需要特别谨慎地解释结果。最终,您甚至可以将单个观测值与具有已知分布,均值和SD的无限总体进行比较。例如智商为130的人比97.7%的人聪明。但是要注意的一件事是,对于给定的(即总样本大小),如果组相等,则功效最大。如果小组人数非常不相等,那么每次观察都会得到额外的分辨率。
为了阐明我对功率的观点,这是为R编写的一个非常简单的模拟:
set.seed(9) # this makes the simulation exactly reproducible
power5050 = vector(length=10000) # these will store the p-values from each
power7525 = vector(length=10000) # simulated test to keep track of how many
power9010 = vector(length=10000) # are 'significant'
for(i in 1:10000){ # I run the following procedure 10k times
n1a = rnorm(50, mean=0, sd=1) # I'm drawing 2 samples of size 50 from 2 normal
n2a = rnorm(50, mean=.5, sd=1) # distributions w/ dif means, but equal SDs
n1b = rnorm(75, mean=0, sd=1) # this version has group sizes of 75 & 25
n2b = rnorm(25, mean=.5, sd=1)
n1c = rnorm(90, mean=0, sd=1) # this one has 90 & 10
n2c = rnorm(10, mean=.5, sd=1)
power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value # here t-tests are run &
power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value # the p-values are stored
power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value # for each version
}
mean(power5050<.05) # this code counts how many of the p-values for
[1] 0.7019 # each of the versions are less than .05 &
mean(power7525<.05) # divides the number by 10k to compute the %
[1] 0.5648 # of times the results were 'significant'. That
mean(power9010<.05) # gives an estimate of the power
[1] 0.3261
注意,在所有情况下,但在第一种情况下&,在第二种情况下&,在最后一种情况下和。还要注意,在所有情况下,标准化的均值差/数据生成过程都是相同的。但是,尽管对于50-50个样本,该测试在70%的时间内是“显着”的,但对于75-25个而言,功效为56%,而当小组规模为90-10个时,功效仅为33%。
我以此类推。如果您想知道矩形的面积,并且周长是固定的,则如果长度和宽度相等(即,如果矩形是正方形),则面积将最大化。另一方面,随着长度和宽度的变化(矩形变长),面积会缩小。
set.seed()
功能将确保您获得相同的输出。让我知道是否仍然很难遵循。