我们怎么知道人口方差?


10

在假设检验中,一个普遍的问题是总体方差是多少?我的问题是我们怎么能知道人口差异?如果我们知道整个分布,那么我们不妨知道整个人口的均值。那么假设检验的目的是什么?


一些相关文献:nber.org/papers/w20325
dv_bn

人们可以不知道均值就知道方差。例如,可以从总体中所有值差异的平方中恢复方差,但这些差异不提供有关均值的信息。无论如何,我看不出这篇文章中的陈述和问题如何导致关于假设检验要点的问题本身。
ub

Answers:


10

我不确定该问题是否真的经常出现在Stats 101之外(统计信息简介)。我不确定我是否看过。另一方面,我们在讲授入门课程时确实以这种方式展示了材料,因为它提供了合乎逻辑的进展:您从一个只有一组并且知道方差的简单情况开始,然后发展到您不了解的情况知道方差,然后前进到有两组(但方差相等)的地方,依此类推。

为了解决一个稍有不同的问题,您要问,如果我们知道方差,为什么我们还要打扰假设检验,因为因此我们也必须知道均值。后一部分是合理的,但第一部分是一个误解:我们将知道的均值将是原假设下的均值。那就是我们正在测试的东西。考虑@StephanKolassa的智商得分示例。我们知道平均值是100,标准差是15;我们正在测试的是我们的小组(例如,惯用左手的红发女郎,或者可能是入门统计学的学生)是否与此有所不同。


2
(+1)当“从总体中采样”是思考数据生成过程的一种方式,而不是从字面上理解的方式时,也许更多。例如,了解测量仪器的精度。
Scortchi-恢复莫妮卡

龚(Gung),作为一名从业20年以上的从业者,在我的经历中出现这个问题的频率比您想象的要高。我并不是说辩论是“经常”出现的。但是,就您对Stats 101的观点而言,讨论多半是关于鲱鱼的讨论,关于研究或项目的细节解决得很少或没有解决-有人只是想在问问题时表现出智慧。
迈克·亨特

1
@DJohnson,我想这取决于您处理的主题。
gung-恢复莫妮卡

4

通常,我们不知道总体方差,但是我们从不同的样本中得到了非常可靠的估计。例如,这是一个评估企鹅平均体重是否下降的示例,其中我们使用较小样本的平均值,但使用较大独立样本的方差。当然,这以两个总体的方差相同为前提。

一个不同的例子可能是经典的智商量表。使用非常大的样本将它们归一化为平均值为100,标准差为15 。然后,我们可能会拿一个特定的样本(例如50个左撇子红发),并使用15 ^ 2作为“已知”方差,询问其平均智商是否显着大于100。当然,这再次引出了两个样本之间的方差是否真正相等的问题-毕竟,我们已经在测试均值是否不同,那么为什么方差应该相等?

底线:您的顾虑是正确的,通常在已知时刻进行的测试仅用于教学目的。在统计课程中,通常会立即使用估计的时间进行测试。


2

知道总体方差的唯一方法是测量整个总体。

但是,测量整个人口通常是不可行的。它需要资源,包括金钱,工具,人员和访问权限。因此,我们对总体进行抽样。就是衡量人口的一部分。抽样程序应经过精心设计,目的是创建一个代表总体的抽样人群;提供两个关键考虑因素-样本量和抽样技术。

玩具示例:您希望估算瑞典成年人口的体重差异。瑞典人大约有950万,因此您不太可能去测量它们。因此,您需要测量样本人口,从中可以估算出真正的人口内部方差。

您将前往瑞典抽样。为此,您要站在斯德哥尔摩市中心,恰好站在受欢迎的虚拟瑞典汉堡连锁店Burger Kungen外面。实际上,由于下雨和寒冷(必须是夏天),所以您站在餐厅内。在这里,您重达四个人。

机会是,您的样本不会很好地反映瑞典的人口。您所拥有的是斯德哥尔摩一家汉堡餐厅里的人的样本。这是一种较差的采样技术,因为它可能通过不公平地表示您要估计的总体而使结果有偏差。此外,您的样本量很小,因此您极有可能选择人口极端情况下的四个人;要么很轻要么很重。如果您对1000人进行了抽样,那么您造成抽样偏差的可能性就较小;与挑选四个不寻常的人相比,挑选不寻常的人的可能性要小得多。较大的样本量至少可以让您更准确地估计Burger Kungen客户之间的平均数和权重差异。

在此处输入图片说明

直方图说明了采样技术的效果,灰色分布表示的是瑞典未在汉堡昆根吃的人口(平均为85公斤),红色表示的是汉堡昆根的顾客数量(平均为100公斤) ,蓝色破折号可能是您采样的四个人。正确的采样技术需要公平地权衡人口,在这种情况下,约占人口的75%,因此被测量的样本中有75%不应是Burger Kungen的客户。

这是很多调查的主要问题。例如,那些可能对客户满意度调查或选举中的民意调查做出回应的人,往往会被极端看法的人过多地代表;意见较弱的人倾向于表达自己的意见。

假设检验的重点是(例如,并非总是)检验两个总体是否彼此不同。例如,汉堡根根的顾客比不吃根根汉堡的瑞典人重吗?准确测试的能力取决于适当的采样技术和足够的样本量。


通过R代码进行测试可以使所有这些事情发生:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

结果:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 


1

我能想到的唯一现实的例子是,当均值未知但方差已知时,是对超球体上(任意尺寸)具有固定半径和未知中心的点进行随机采样。这个问题的平均值(球的中心)未知,但方差(球的半径平方)固定。我没有发现任何其他均值未知但方差已知的实际例子。(要明确一点:仅从其他数据中获得外部方差估计值并不是已知方差的示例。此外,如果您从其他数据中获得该方差估计值,为什么还没有从该数据中得到相应的均值估计值呢?数据?)

我认为,介绍性统计学的入门级统计课程讲授均值和方差未知的测试是不合时宜的,它们被误导为现代教学工具。从教学上讲,对于均值和方差未知的情况,最好直接从T检验开始,然后将z检验视为对此的渐近近似,当自由度较大时(或不存在)甚至根本不用教z测试)。存在已知方差但均值未知的情况的数量正在逐渐减少,并且引入这种情况(极少见)通常会误导学生。


0

有时在应用问题中,物理学,经济学等提出的原因可以告诉我们方差,并且没有不确定性。在其他时候,人口可能是有限的,我们可能碰巧知道每个人的一些情况,但需要抽样并进行统计以了解其余信息。

通常,您的担心是很合理的。


5
我很难从物理学或经济学中描绘出一个例子,在该例子中我们会知道方差,而不是平均值。对于离散分布类似。你能举一个具体的例子吗?
Stephan Kolassa,

@StephanKolassa我相信物理实验测量将是一个示例-我们可能具有众所周知的方差(测量误差)的测量过程或设备,因此在测量特定事件时,您可以假定方差相同,但是您只能估算出真实的平均值。
彼得尼斯(Peteris),2016年

2
@Peteris:这很有道理-但听起来更像是我注意到的情况,即您的仪器的方差是在先前的“校准样本”上估算出来的。我希望没有不确定性(!)的理论衍生方差是另一回事。
斯蒂芬·科拉萨
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.