什么时候可以写出“我们假设经验分布为正态分布”?


9

在医学等应用学科的教学中,根深蒂固的是,人群中生物医学数量的测量遵循正常的“钟形曲线”。Google对字符串“我们假定为正态分布”的搜索返回结果!听起来,在气候变化研究中,“鉴于极少的极端数据点,我们假设温度异常呈正态分布”。或在企鹅的争议较小的文件上“假设雏鸡的孵化日期呈正态分布”;或 “我们假设GDP增长冲击呈正态分布”23,900, ... 和其他东西)。

最近,我发现自己质疑计数数据由于其严格的正性而被视为正态分布。当然,计数数据是离散的,这使得它们的正常性更加人为。但是,即使撇开后面的观点,为什么应该将连续的经验性测量(例如,体重,身高或血糖浓度)(通常被认为是“连续的”)视为正常的呢?他们所拥有的负面已实现的观察结果绝不会超过计数!

我了解到,当标准偏差明显低于平均值时,表明负值很少(“ 95%范围检查”),这可能是一个实际的假设,并且频率直方图也可以支持该偏差。但是问题似乎并不简单,快速搜索便产生了有趣的东西。

在《自然》杂志上,我们可以在DF Heath一封信中找到以下陈述:“我想指出的是,对于某些类型的数据的统计分析,假设数据是从正常人群中提取的,通常是错误的。对数正态分布的假设更好。这种选择已被统计学家,经济学家和物理学家广泛使用,但由于某些原因,其他学科的科学家常常忽略了这一点。”

Limpert指出,“对数正态模型可能在许多科学家认为正态为有效近似的意义上可以作为近似值”,同时指出正态拟合优度检验的功效较低,并且选择困难处理小样本时,凭经验得出正确的分布。

因此,问题是,“在没有进一步支持证据的情况下何时可以接受应用科学中经验度量的正态分布?” 而且,为什么其他选择(例如对数正态)没有,甚至可能不会被采用?


答案取决于您正在做的事情,以及它对与正态性的潜在偏差的敏感度(即,如果您使用比率的F检验来检验方差相等,则最好采用非常接近正常值...但是如果您针对均值的差异构建t间隔,则对于大样本,可能根本不需要使它们非常接近正常值。...以及您(或您的听众)的容忍度会对您所做的推断产生什么样的影响。
Glen_b-恢复莫妮卡

Answers:


6

我觉得你的问题真的很有趣。让我们考虑一些事情:

  1. 要说观察到的变量在现实生活中是连续的,那总是错误的,因为很难真正连续地进行测量。
  2. N(μ,σ2)(;+)fX(x)x=μσx=μ+σ
  3. XY=log(X)

话虽如此,说任何观察到的变量遵循正态或对数正态分布听起来有些疯狂。在实践中,如果该变量来自正态(或任何其他分布)总体,则要做的是测量观测到的频率与预期频率之间的偏差。如果您可以说这些偏差只是随机的(因为您是抽样的),那么您可以说类似没有足够的证据来拒绝该变量来自正常总体的原假设,这可以解释为我们将像(假设)变量遵循正态分布

回答您的第一个问题,我认为没有人这么大胆地说一个变量被假定为正态分布而没有进一步的证据。要说类似的话,您至少需要一个qq图,直方图,拟合优度检验或这些的组合。

χ2


感谢您的回答,其中涉及许多关键点。但是,我倾向于认为应用科学的“现实世界”中的事物结构化程度较低,并且通常采用直接切线来假设常态。
Antoni Parellada

1
如果正态分布,我没有提到的是历史的另一部分:它是iid随机变量之和的标准化的极限分布,正如中心极限定理中所述。如果您可以说您的变量是许多iid随机变量的总和,例如布朗运动背后的推理,那么您可以说它是一个正常的随机变量。这是我知道的唯一有效的快捷方式。如果需要,我可以在答案中包括此内容。
–toneloy
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.