“正态分布”是否需要均值=中位数=众数?


17

我一直在与我的研究生统计教授就“正态分布”进行辩论。我认为,要真正获得正态分布,必须具有均值=中位数=模式,所有数据必须包含在钟形曲线下,并且均值周围完全对称。因此,从技术上讲,实际研究中实际上没有正态分布,我们应该称其为其他值,也许是“接近正态”。

她说我太挑剔了,如果偏斜度/峰度小于1.0,则它是正态分布,会降低考试分数。该数据集是在52个疗养院的随机抽样中,每年跌倒的总数,这是较大人群的随机抽样。有见识吗?

问题:

问题:3.计算该数据的偏度和峰度的量度。包括具有正态曲线的直方图。讨论您的发现。数据是否正态分布?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

一种。存在多种模式。显示最小值

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

我的答案:

数据是platykurtic的,并且只有轻微的正偏斜,并且它不是正态分布,因为均值,中位数和众数不相等,并且数据在均值附近分布不均匀。实际上,尽管我们可以讨论“近似正态分布”,例如身高,体重,体温或成年无名指长度,但实际上没有数据是完美的正态分布。

教授的回答:

您是正确的,没有完美的正态分布。但是,我们并不是在寻求完美。除了直方图和集中趋势的度量外,我们还需要查看数据。关于分布的偏度和峰度统计信息告诉您什么?因为它们都在-1和+1的临界值之间,所以该数据被认为是正态分布的。


3
我想知道你教授的确切措辞。原则上,正态分布的均值,中位数和众数相同(但许多其他分布也相同),并且偏度为0,峰度(所谓的过剩)为0(其他分布也是如此)。充其量来说,稍有偏斜或峰度分布几乎是正常的。请注意,几乎所有真实数据在理论上都是充其量近似于命名分布。
尼克·考克斯

22
我不同意@ user2974951我知道在每一个好的文字中我都非常高兴,认为正态分布具有中位数和众数。尽管我毫不怀疑可以确定病理性的反例,但它广泛适用于连续分布。
尼克·考克斯

4
感谢您提供详细的细节,这两个方面都显示出优点,但是我对你们中的任何一个都不评分。但是,我强烈反对您的教授使用的“ 临界值 ”一词,因为偏度和峰度的的极限除了可以使用的经验法则外没有任何用处。取决于您对数据的处理方式,偏斜度< 1可能伴随着要转换数据,偏斜度可能大于1伴随着离开数据,而对于峰度也是如此。±1<1>1
尼克·考克斯

6
如果我们认真地让自己接受挑剔的艺术,那么我们应该观察到没有负的跌倒,而且跌倒是离散的,因此事实上的分布不可能是正态的。首先,这使问题无效。更严重的是,这个问题显然是旨在检查特定经验法则的虚构示例。实际上,根据我们研究的目标,假设正态分布可能合理或不合理。实际上,我们永远不会知道,因为我们只有一个样本。
Ioannis

5
@ user2974951您应该考虑删除第一条评论,因为您现在不同意该评论。到目前为止,它已经欺骗了三位读者以表明他们同意这一点!
whuber

Answers:


25

与教授讨论时遇到的问题是术语,其中一种误解正在阻碍传达潜在的有用想法。在不同的地方,你们俩都会犯错误。

因此,首先要解决的是:重要的是要清楚什么是发行版

一个正常的分布是特定的数学对象,你可以考虑作为价值无限的人口模型。(实际上,任何有限的人口都不能连续分布。)

松散地,(通过指定参数)此分布的作用是定义(通过代数表达式)实线上任意给定间隔内的总体值的比例。宽松程度稍差一些,它定义了来自该总体的单个值位于任何给定间隔中的概率。

观察到的样本实际上并没有正态分布。如果存在样本,则可能(有可能)从正态分布中提取样本。如果您查看样本的经验CDF,它是离散的。如果将其分类(如直方图所示),则样本具有“频率分布”,但不是正态分布。分布可以告诉我们有关总体中随机样本的一些信息(从概率的角度),并且样本还可以告诉我们有关总体的一些信息。

像“正态分布样本” *这样的短语的合理解释是“来自正态分布总体的随机样本”。

*(我通常会尽量避免自己说出来,原因在这里已经足够清楚了;通常我会把自己局限于第二种表达方式。)

定义了术语(如果还是有些宽松的话),现在让我们详细地研究这个问题。我将解决问题的特定部分。

正态分布必须具有均值=中位数=模式

这当然是正态概率分布的条件,尽管这不是从正态分布中抽取样本的要求。样本可能不对称,均值可能不同于中位数,依此类推。[但是,如果样本确实来自正常人群,我们可以合理地期望它们相距多远。]

所有数据必须包含在钟形曲线下

我不确定在这个意义上“包含在...之下”是什么意思。

并在均值周围完全对称。

没有; 您在这里谈论的是数据,而来自(绝对对称)正态总体的样本本身并非完全对称。

因此,从技术上讲,实际研究中几乎没有正态分布,

同意你的结论,但推理不正确;这不是数据不是完全对称的事实的结果(等);这是人口本身并不完全正常的事实。

如果偏斜/峰度小于1.0,则为正态分布

如果她这么说,那肯定是错误的。

样本偏斜度可能比其更接近0(绝对值的“小于”表示平均值而不是实际值),并且样本过量峰度也可能比0更近(它们甚至可能是偶然的,也可能是零的)。可能几乎完全为零),而从中抽取样本的分布很容易明显是非正态的。

我们可以走得更远-即使我们神奇地知道人口的偏度和峰度恰好是正常人口的偏度和峰度,它本身也不会告诉我们人口是正常的,甚至没有接近正常的水平。

该数据集是在52个疗养院的随机抽样中,每年跌倒的总数,这是较大人群的随机抽样。

计数的人口分布从来都不是正常的。计数是离散且非负的,正态分布是连续的并且在整个实线上。

但是,我们在此实际上专注于错误的问题。概率模型是正义的,模型。让我们不要将模型与真实事物混淆

问题不在于“ 数据本身是否正常?” (不可能),甚至“从中提取数据的总体是否正常?” (几乎永远不会这样)。

有一个更有用的问题要讨论:“如果将人群视为正态分布,我的推论将受到多大的影响?”

要想很好地回答这个问题,还很困难,并且可能需要花很多时间而不是浏览一些简单的诊断程序。

您显示的样本统计数据与正态性并没有特别的矛盾(如果您从正常人口中随机抽取了如此大小的样本,您可能会看到这样的统计数据或“更糟”的情况很少出现),但这并不意味着实际人口从中抽取样本会自动出于某种特定目的“足够接近”正常。重要的是要考虑目的(您要回答什么问题),以及为此目的采用的方法的鲁棒性,即使这样,我们仍然可能不确定它是否“足够好”。有时,最好不要简单地假设我们没有充分的理由进行先验(例如,基于类似数据集的经验)。

它不是正态分布

数据-甚至是从正常人口中提取的数据-都不会完全具有人口的属性;仅从这些数字来看,您没有充分的依据来推断这里的人口不正常。

另一方面,我们也没有足够合理的依据来说它与正常值“足够接近”-我们甚至没有考虑假设正常值的目的,因此我们不知道它可能对哪些分布特征敏感。

例如,如果我有两个样本用于有界测量,那我知道不会有很大的离散性(大多数情况下不会只取几个不同的值),并且相当接近对称,那么我可能会比较乐意使用两个样本在一些不太小的样本量下进行t检验;对于假设的轻微偏差,它具有中等程度的鲁棒性(某种程度的鲁棒性,而不是功率鲁棒性)。但是,例如,在测试点差相等时,我会谨慎地假设正态性,因为在该假设下的最佳测试对假设非常敏感。

因为它们都在-1和+1的临界值之间,所以该数据被认为是正态分布的。”

如果这确实是决定使用正态分布模型的标准,那么有时它会导致您进行相当差的分析。

这些统计数据的值确实为我们提供了有关从中抽取样本的总体的一些线索,但这与表明它们的值以任何方式都是选择分析的“安全指南”完全不同。


现在使用甚至比您有的问题更好的措辞版本来解决基本问题:

查看样本以选择模型的整个过程充满了问题-这样做会根据您所看到的改变任何后续分析选择的属性!例如,对于假设检验,您的显着性水平,p值和功效都不是您选择/计算的结果,因为这些计算是基于不基于数据的分析得出的。

参见,例如,Gelman and Loken(2014),“ 科学中的统计危机 ”,美国科学家,第102卷,第6期,第460页(DOI:10.1511 / 2014.111.460),它讨论了此类数据相关分析的问题。


嗨,彼得,对不起,我什至没有在那儿看到你的帖子。
Glen_b-恢复莫妮卡


41

您遗漏了这一点,并且可能还会变得“困难”,这在业界是不受欢迎的。她向您展示了一个玩具示例,以训练您评估数据集的正态性,也就是说,该数据集是否来自正态分布。查看分布时刻是检查正态性的一种方法,例如Jarque Bera测试基于这种评估。

是的,正态分布是完全对称的。但是,如果您从真实的正态分布中提取样本,则该样本很可能不是完全对称的。这就是您完全缺少的要点。您可以自己很轻松地进行测试。只需从高斯分布中生成样本,然后检查其矩即可。尽管真正的分布是这样,但它们永远不会是完全“正常”的。

这是一个愚蠢的Python示例。我正在生成100个随机数为100的样本,然后获取其均值和中位数。我打印第一个样本以显示均值和中位数不同,然后显示均值和中位数之间差异的直方图。您可以看到它很窄,但是差异基本上从不为零。注意,这些数字确实来自正态分布

码:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

输出: 在此处输入图片说明

聚苯乙烯

现在,是否应该将您问题中的示例视为正常示例取决于上下文。在您的课堂上讲的内容是错误的,因为您的教授想看看您是否知道她给您的经验法则,即偏度和过度峰度必须在-1比1范围。

我个人从未使用过这种特殊的经验法则(我不能称其为测试),甚至都不知道它的存在。显然,某些领域的某些人确实在使用它。如果将数据集描述信息插入到JB测试中,那将拒绝正常性。因此,毫无疑问,您暗示数据集不正常是正确的,但是从某种意义上来说,您错了,即您未能根据课堂上所讲授的内容应用您期望的规则。

如果我是您,我将有礼貌地与您的教授联系并向自己解释,并展示JB测试结果。我承认,根据她的测试,我的回答是错误的。如果您尝试以她在这里的辩论方式与她争论,那么您很难在测试中重新获得要点,因为您对中位数,均值和样本的推理能力很弱,这表明对样本与总体的了解不足。如果您改变音调,那么您将拥有一个案例。


23
(+1)就是重点。混淆随机变量和该随机变量的实现示例。
西安

15
Ť

可以公平地说,如果您的样本是完全正态分布的,那是证明样本不是随机的字符串证据?
JimmyJames

@ JimmyJames,4年前,《科学》杂志上曾发表过一篇论文,声称与同性恋布道者进行20分钟的交谈可以改变您对同性恋者的感受。事实证明,作者组成了他们的调查数据。它们太懒了,无法产生完美的高斯噪声,这就是它们的捕获方式 -参见Broockman等人的《 LaCour的不规则性》(2014)
Aksakal,

@Aksakal我不确定这与我要问的完全一样。在那种情况下,我认为那种情况下的论据是真实数据永远不会完全正常。我从您的陈述开始,“但是,如果您从真实的正态分布中抽取样本,则该样本很可能不是完全对称的。” 如果我是从理想的正态分布中随机采样,我不会期望每个连续的数据点都将恰好位于需要填充理想的正态曲线的位置。在我看来,这很像一个非随机选择过程。
JimmyJames

6

老师显然超出了他/她的元素,可能不应该教统计。对我来说,教一些错误比根本不教它更糟。

如果更清楚地区分“数据”和“生成数据的过程”,则所有这些问题都可以轻松解决。数据针对产生数据的过程。正态分布是此过程的模型。

谈论数据是否正态分布毫无意义。由于一个原因,数据始终是离散的。由于另一个原因,正态分布描述了潜在可观察量的无限,而不是特定观察量的有限集合。

此外,问题的答案“是过程所产生的数据的正态分布的过程 ”也总是“否”,而不管该数据的。有两个简单的原因:(i)我们进行的任何测量都必须是离散的,四舍五入到一定水平。(ii)完美的对称性,就像一个完美的圆,并不存在可观察的本质。总是有缺陷。

充其量,“这些数据如何告诉您有关数据生成过程的正常性”问题的答案可以如下所示:“如果这些数据确实来自于一个正态分布的过程。” 正确地回答并不能得出分布是正态的结论。

通过使用模拟,很容易理解这些问题。只需模拟正态分布的数据,然后将其与现有数据进行比较即可。如果数据是计数(0,1,2,3,...),则显然普通模型是错误的,因为它不会产生像0,1,2,3,...;这样的数字。取而代之的是,它会产生带有小数的数字,该数字将永远存在(或至少在计算机允许的范围内。)这种模拟应该是您学习正态性问题时要做的第一件事。然后,您可以更正确地解释图形和摘要统计信息。


10
我没有降低您的答案的等级,但认为您是根据学生的话来判断一名研究生教授。学生是对的,老师是错的可能性有多大?学生难道不是在歪曲他的教授和谈话内容吗?
Aksakal

根据我的经验和学生的话,我会说老师很可能是错的。在世界各地的大学中,几乎没有经过正规培训的老师讲授课程,甚至是研究生课程。如果认证机构只知道真相!
Peter Westfall

6
@ Possum-Pie,我可以猜到您期望什么。统计信息大概是101道菜,因此您必须查看偏度和峰度。如果它们与0和3的距离不够近,那么您说这是不正常的。就这样。实际上,这就是JB测试以更正式的方式所做的事情。练习的重点是让您记住高斯偏斜0和峰度3。您正在将这个愚蠢但必要的练习转变为哲学性的讨论。
Aksakal

2
老师的评论“因为它们都在-1和+1的临界值之间,所以该数据被认为是正态分布的”,肯定表明(i)缺乏理解或(ii)愿意教他/她知道的东西是错误的。我不认为这是对教师的准备或教学方法提出质疑的哲学讨论。
彼得·韦斯特伦

3
“一致性”语言很好。但是正如Possum-Pie所指出的那样,教师告诉学生“基于此测试/诊断,数据是正常的”,这在某些方面是错误的。教师(心理或其他方面)需要(i)将数据生成过程与数据区分开,(ii)告诉学生正态模型和其他模型是数据生成过程的模型,(iii)告诉他们正态分布始终是错误的模型,与诊断无关,并且(iv)告诉他们练习的目的是诊断非正常程度,而不回答是/否。然后解释它为什么重要。
彼得·韦斯特伦

4

我是一名工程师,因此在我的世界中,应用统计学家是我最常看到的,并获得最具体的价值。如果您打算进行应用工作,那么您需要在实践上扎根于理论之上:无论它是否优雅,飞机都必须飞行而不是坠毁。

正如我在这里所做的许多技术改进一样,当我以一种解决方式来思考这个问题时,是在思考“在存在噪声的情况下,它在现实世界中是什么样子”。

通常,我要做的第二件事是进行模拟,使我能够解决问题。

这是一个非常简短的探索:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

将其作为输出: 在此处输入图片说明

注意:请注意x轴,因为它是对数缩放的,而不是均匀缩放的。

我知道平均值和中位数完全相同。代码说明了这一点。经验实现对样本量非常敏感,如果没有真正无限的样本,那么它们就不可能与理论完美匹配。

您可以考虑中位数的不确定性是否包含估计的均值,反之亦然。如果平均值的最佳估计值在中值估计值的95%CI之内,则数据无法分辨出差异。数据表明它们在理论上是相同的。如果您获得更多数据,请查看其内容。


1
有趣的图。考虑到均值追随者离群值,我本来会以为均值通常会比中位数大。换句话说,红色条形表示中位数,绿色表示中位数。我想念什么?
Possum-Pie

1
@ Possum-Pie请记住,离群值可以在任一方向上...正态分布同时具有左尾和右尾!
Silverfish

2
@Will是箱图的非常标准的实现。
Glen_b-恢复莫妮卡

1
@Glen_b我见过很多教科书,它们没有教给离群点使用点,因此可以理解有人不习惯点。但是根据哈德利(Hadley)的说法,即使在图基(Tukey)在1970
Silverfish

1
是的,其中没有离群值的版本(仅基于5个数字的总结)实质上就是玛丽·斯皮尔的射程图(1952年)。(注:该论文错过了一些重要的历史性箱线图的前身,1952年之前)
Glen_b-恢复莫妮卡(Monica

4

在医学统计中,我们只评论分布的形状和外观。没有离散的有限样本永远不可能是正常的事实是无关紧要的和学究的。我会为此而打上你的错。

如果发行版看起来“大部分”是正常的,我们可以称其为正常。当我描述非统计受众的分布时,即使我知道正态分布不是潜在的概率模型,我也很乐于称呼近似正态的东西,但我觉得我会在这里支持您的老师……但是我们没有要验证的直方图或数据集。

提示,我将非常仔细地进行以下检查:

  • 谁是离群值,它们的值是多少,值是多少?
  • 数据是双峰的吗?
  • 数据看起来是否呈歪斜形状,以便进行某些转换(如对数)可以更好地量化观测值之间的“距离”?
  • 是否存在明显的截断或堆积,从而使化验或实验室无法可靠地检测到一定范围的值?

在一个数学运算如此之多的领域中,人们似乎会变得更加严格,既要说某种具有严格意义的“正态分布”,又要说“接近正态”。我从来没有说是1.932 2,但我可以说,这是近2
貂馅饼

1
“叛逆和学究”?认真吗 我同意负鼠派。我也永远不会说1.932与2.0相同。说数据是“正态”的,从正态分布作为生成数据的过程的模型的含义到正态分布从不对我们的过程建模的真实事实,这一切都令人困惑。应该教给每个人,当他们学习正态分布时,不要做出愚蠢的陈述。
彼得·韦斯特伦

2
@PeterWestfall我认为这里的部分问题是“数据来自正态分布”几乎从不从字面上看是真实的,即使它是真实的,也有可能无法得出结论。因此,由于该词组在字面上几乎不可能是真实的,因此人们会改用“数据正常”作为方便的简写,表示“出于实际目的,数据似乎足够接近正态性”或“ DGP的足够模型”。
银鱼

那么,为什么这么简单就教什么是对的呢?
彼得·韦斯特伦

3
@PeterW语言学的意义不仅仅在于教学,还在于在日常生活中使用(打算解释)该短语的方式:“数据是正常的”几乎从未用来表示“我知道数据抽样的人群是正常的”,因为这几乎不可能意味着那样。这将是更好,如果人们说:“数据似乎正常的”,甚至是“数据看起来normalish ”(即似乎足够接近正常,我们不关心从常态的偏差),但特别是在应用环境的人往往会说像这样的东西。
Silverfish

2

我认为您和您的教授在不同的背景下谈论。均值=中位数=众数相等是理论分布的特征,这不是唯一的特征。您不能说,如果对于财产持有以上的任何分配,则分配是正常的。T分布也是对称的,但不正常。因此,您正在谈论正态分布的理论属性,这些属性对于正态分布始终成立。

您的教授正在谈论样本数据的分发。他是对的,您将永远无法获取现实生活中的数据,您将发现均值=中位数=模式。这仅仅是由于采样误差。同样,这不太可能,样本数据的偏度系数为零,过量峰度为零。您的教授只是给您一个简单的规则,使您可以从样本统计信息中了解分布情况。通常这是不正确的(没有获得更多信息)。


3
据说教授是femaie。
尼克·考克斯

为什么没有得到mean = median = mode的原因主要是因为许多分布确实偏斜!(严格来说,平均中位数= =模式是可能的偏态分布也是如此,尽管是许多教科书上说。)
尼克·考克斯

1
我不同意缺乏均值/中位数/众数=抽样误差的相等性。假设您随机抽样了52个养老院的跌倒率。房屋27、34和52的人员长期短缺,跌倒次数总是高于平均水平。这些本垒打推向尾部,而不是由于采样错误。
Possum-Pie

1
@Possum Pie这里的数据是次要的,但是您在不同的地方给出了不同的信号。在这里,您谈论的是几个疗养院-但在您的问题中,您声明“在疗养院”。即使对偶发事件的细节一无所知也无济于事。
尼克·考克斯

@尼克·考克斯对不起,我澄清了。52个疗养院样本中每年的跌倒次数
Possum-Pie '18

1

出于实际目的,诸如此类的基本过程通常可以通过正态分布进行精细地近似,而不会引起任何人的注意。

但是,如果您想做修脚,那么这种情况下的基础过程就不能正态分布,因为它不能产生负值(跌倒次数不能为负)。如果实际上至少是双峰分布且第二个峰值接近零,我不会感到惊讶。


它是双峰的,具有4个跌落和13个跌落的模态。没有零跌落的报道。
Possum-Pie
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.