在医学等应用学科的教学中,根深蒂固的是,人群中生物医学数量的测量遵循正常的“钟形曲线”。Google对字符串“我们假定为正态分布”的搜索返回结果!听起来,“在气候变化研究中,“鉴于极少的极端数据点,我们假设温度异常呈正态分布”。或在企鹅的争议较小的文件上“假设雏鸡的孵化日期呈正态分布”;或 “我们假设GDP增长冲击呈正态分布”,, ... 和其他东西)。
最近,我发现自己质疑计数数据由于其严格的正性而被视为正态分布。当然,计数数据是离散的,这使得它们的正常性更加人为。但是,即使撇开后面的观点,为什么应该将连续的经验性测量(例如,体重,身高或血糖浓度)(通常被认为是“连续的”)视为正常的呢?他们所拥有的负面已实现的观察结果绝不会超过计数!
我了解到,当标准偏差明显低于平均值时,表明负值很少(“ 95%范围检查”),这可能是一个实际的假设,并且频率直方图也可以支持该偏差。但是问题似乎并不简单,快速搜索便产生了有趣的东西。
在《自然》杂志上,我们可以在DF Heath的一封信中找到以下陈述:“我想指出的是,对于某些类型的数据的统计分析,假设数据是从正常人群中提取的,通常是错误的。对数正态分布的假设更好。这种选择已被统计学家,经济学家和物理学家广泛使用,但由于某些原因,其他学科的科学家常常忽略了这一点。”
Limpert指出,“对数正态模型可能在许多科学家认为正态为有效近似的意义上可以作为近似值”,同时指出正态拟合优度检验的功效较低,并且选择困难处理小样本时,凭经验得出正确的分布。
因此,问题是,“在没有进一步支持证据的情况下,何时可以接受应用科学中经验度量的正态分布?” 而且,为什么其他选择(例如对数正态)没有,甚至可能不会被采用?