与教授讨论时遇到的问题是术语,其中一种误解正在阻碍传达潜在的有用想法。在不同的地方,你们俩都会犯错误。
因此,首先要解决的是:重要的是要清楚什么是发行版。
一个正常的分布是特定的数学对象,你可以考虑作为价值无限的人口模型。(实际上,任何有限的人口都不能连续分布。)
松散地,(通过指定参数)此分布的作用是定义(通过代数表达式)实线上任意给定间隔内的总体值的比例。宽松程度稍差一些,它定义了来自该总体的单个值位于任何给定间隔中的概率。
观察到的样本实际上并没有正态分布。如果存在样本,则可能(有可能)从正态分布中提取样本。如果您查看样本的经验CDF,它是离散的。如果将其分类(如直方图所示),则样本具有“频率分布”,但不是正态分布。分布可以告诉我们有关总体中随机样本的一些信息(从概率的角度),并且样本还可以告诉我们有关总体的一些信息。
像“正态分布样本” *这样的短语的合理解释是“来自正态分布总体的随机样本”。
*(我通常会尽量避免自己说出来,原因在这里已经足够清楚了;通常我会把自己局限于第二种表达方式。)
定义了术语(如果还是有些宽松的话),现在让我们详细地研究这个问题。我将解决问题的特定部分。
正态分布必须具有均值=中位数=模式
这当然是正态概率分布的条件,尽管这不是从正态分布中抽取样本的要求。样本可能不对称,均值可能不同于中位数,依此类推。[但是,如果样本确实来自正常人群,我们可以合理地期望它们相距多远。]
所有数据必须包含在钟形曲线下
我不确定在这个意义上“包含在...之下”是什么意思。
并在均值周围完全对称。
没有; 您在这里谈论的是数据,而来自(绝对对称)正态总体的样本本身并非完全对称。
因此,从技术上讲,实际研究中几乎没有正态分布,
我同意你的结论,但推理不正确;这不是数据不是完全对称的事实的结果(等);这是人口本身并不完全正常的事实。
如果偏斜/峰度小于1.0,则为正态分布
如果她这么说,那肯定是错误的。
样本偏斜度可能比其更接近0(绝对值的“小于”表示平均值而不是实际值),并且样本过量峰度也可能比0更近(它们甚至可能是偶然的,也可能是零的)。可能几乎完全为零),而从中抽取样本的分布很容易明显是非正态的。
我们可以走得更远-即使我们神奇地知道人口的偏度和峰度恰好是正常人口的偏度和峰度,它本身也不会告诉我们人口是正常的,甚至没有接近正常的水平。
该数据集是在52个疗养院的随机抽样中,每年跌倒的总数,这是较大人群的随机抽样。
计数的人口分布从来都不是正常的。计数是离散且非负的,正态分布是连续的并且在整个实线上。
但是,我们在此实际上专注于错误的问题。概率模型是正义的,模型。让我们不要将模型与真实事物混淆。
问题不在于“ 数据本身是否正常?” (不可能),甚至“从中提取数据的总体是否正常?” (几乎永远不会这样)。
有一个更有用的问题要讨论:“如果将人群视为正态分布,我的推论将受到多大的影响?”
要想很好地回答这个问题,还很困难,并且可能需要花很多时间而不是浏览一些简单的诊断程序。
您显示的样本统计数据与正态性并没有特别的矛盾(如果您从正常人口中随机抽取了如此大小的样本,您可能会看到这样的统计数据或“更糟”的情况很少出现),但这并不意味着实际人口从中抽取样本会自动出于某种特定目的“足够接近”正常。重要的是要考虑目的(您要回答什么问题),以及为此目的采用的方法的鲁棒性,即使这样,我们仍然可能不确定它是否“足够好”。有时,最好不要简单地假设我们没有充分的理由进行先验(例如,基于类似数据集的经验)。
它不是正态分布
数据-甚至是从正常人口中提取的数据-都不会完全具有人口的属性;仅从这些数字来看,您没有充分的依据来推断这里的人口不正常。
另一方面,我们也没有足够合理的依据来说它与正常值“足够接近”-我们甚至没有考虑假设正常值的目的,因此我们不知道它可能对哪些分布特征敏感。
例如,如果我有两个样本用于有界测量,那我知道不会有很大的离散性(大多数情况下不会只取几个不同的值),并且相当接近对称,那么我可能会比较乐意使用两个样本在一些不太小的样本量下进行t检验;对于假设的轻微偏差,它具有中等程度的鲁棒性(某种程度的鲁棒性,而不是功率鲁棒性)。但是,例如,在测试点差相等时,我会谨慎地假设正态性,因为在该假设下的最佳测试对假设非常敏感。
因为它们都在-1和+1的临界值之间,所以该数据被认为是正态分布的。”
如果这确实是决定使用正态分布模型的标准,那么有时它会导致您进行相当差的分析。
这些统计数据的值确实为我们提供了有关从中抽取样本的总体的一些线索,但这与表明它们的值以任何方式都是选择分析的“安全指南”完全不同。
现在使用甚至比您有的问题更好的措辞版本来解决基本问题:
查看样本以选择模型的整个过程充满了问题-这样做会根据您所看到的改变任何后续分析选择的属性!例如,对于假设检验,您的显着性水平,p值和功效都不是您选择/计算的结果,因为这些计算是基于不基于数据的分析得出的。
参见,例如,Gelman and Loken(2014),“ 科学中的统计危机 ”,美国科学家,第102卷,第6期,第460页(DOI:10.1511 / 2014.111.460),它讨论了此类数据相关分析的问题。