常见分布的真实示例


28

我是一名研究生,对统计感兴趣。我总体上喜欢这种材料,但是有时我很难考虑将其应用于现实生活中。具体来说,我的问题是关于常用的统计分布(正态-β-伽玛等)。我猜在某些情况下,我得到了使分布变得非常漂亮的特定属性-例如指数的无记忆属性。但是对于其他许多情况,我对教科书中常见发行版的重要性和应用领域都没有直觉。

可能有很多很好的消息源可以解决我的问题,如果您能分享这些问题,我将非常高兴。如果我可以将其与现实生活中的示例联系起来,那么我会更加热衷于该材料。


8
Mathematica函数帮助页面 EstimatedDistribution上的“应用程序”下描述了涵盖广泛分布的14种应用程序。
ub

Answers:


23

Wikipedia的页面列出了许多概率分布,并提供了指向每个分布的更多详细信息的链接。您可以浏览列表并单击链接,以更好地了解通常使用不同发行版的应用程序的类型。

只需记住,这些分布用于建模现实,就像Box所说的那样:“所有模型都是错误的,有些模型是有用的”。

以下是一些常见的分布以及它们有用的一些原因:

常规:由于CLT,这对于查看均值和其他线性组合(例如回归系数)很有用。与此相关的是,如果已知由于许多不同的小原因而产生某种效应,则正态分布可能是合理的:例如,许多生物学措施是多个基因和多个环境因素的结果,因此通常近似于正态。

伽玛:右偏,对自然最小值为0的事物有用。通常用于经过时间和一些财务变量。

指数:伽玛的特例。它是无记忆的,易于扩展。

卡方():伽玛的特殊情况。作为平方正态变量的总和出现(因此用于方差)。χ2

Beta:定义在0到1之间(但可以转换为其他值),用于比例或其他必须在0到1之间的数量。

二项式:在给定数量的独立试验中,有多少“成功”具有相同的“成功”概率。

泊松:常见于计数。很好的特性是,如果某个时间段或某个区域内的事件数遵循泊松,那么该时间或区域内两倍的事件数仍遵循泊松(均值的两倍):这适用于添加泊松数或使用除2。

请注意,如果事件随时间发生,并且发生之间的时间遵循指数,则在一个时间段内发生的数字遵循泊松。

负二项式:最小值为0(或其他值,取决于版本)的计数,没有上限。从概念上讲,它是k个“成功”之前的“失败”次数。负二项式也是Poisson变量的混合,其均值来自伽玛分布。

几何:负二项式的特殊情况,它是第一个“成功”之前的“失败”次数。如果截断(舍入)一个指数变量以使其离散,则结果是几何的。


3
好,谢谢您的回答。但是,维基百科提供了我想要的更一般的描述。基本上,我的问题是为什么有些发行版很好?为了给出正态分布情况下的可能答案,可能与中心有限定理有关-这表示如果对无限量的观测值进行采样,则实际上可以渐近地看到,在给定独立性具有正态分布的情况下,这些观测值的足够统计量。我正在寻找更多类似的例子
。– Roark

不完全是真实的分布,但是双峰如何?在发现人类中许多性别差异不是双峰的之后,我想不出任何常见的现实生活例子。
天猫

添加多项式

3

渐近理论导致正态分布,极值类型,稳定定律和泊松。指数和威布尔趋势倾向于作为事件分布的参数时间。对于威布尔而言,它是用于最少样本的极值类型。与正态分布观测的参数模型有关,卡方,t和F分布出现在假设检验和置信区间估计中。卡方还出现在列联表分析和拟合检验的优度中。为了研究测试的功效,我们具有非中心的t和F分布。费舍尔对列联表的精确检验产生了超几何分布。在进行实验以估计比例时,二项式分布很重要。负二项式是对点过程中的超分散建模的重要分布。这应该为您在实用的参数分配方面提供一个良好的开端。对于(0,∞)上的非负随机变量,Gamma分布可以灵活地提供各种形状,并且对数正态也很常用。在[0,1]上,β族提供对称的分布,包括均匀分布以及左偏右或右偏的分布。

我还应该提到,如果您想了解有关统计分布的所有细节,那么Johnson和Kotz的经典系列书籍包括离散分布,连续单变量分布和连续多元分布以及《高级理论》第1卷由肯德尔(Kendall)和斯图尔特(Stuart)统计。


非常感谢vey的回答,这非常有用。再次感谢您,它确实对我有所帮助。
Roark 2012年

2

购买并至少阅读William J. Feller的前6章(前218页)“概率论及其应用简介,第2卷” http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb。至少阅读所有“解决问题”,最好尝试尽可能多地解决。您不需要阅读第一卷,我认为这不是特别值得一提的。

尽管作者在45 1/2年前就去世了,但在这本书还没完成之前,这简直就是最好的书,无一例外,它无助于建立概率和随机过程的直觉,并理解和发展各种发行版的感觉。 ,它们如何与现实世界现象以及可能发生的各种随机现象相关联。有了坚实的基础,您将可以在统计方面得到很好的服务。

如果您能在以后的章节中读到它,这会有些困难,那么您将比几乎每个人光明几年。简而言之,如果您知道Feller Vol 2,就知道概率(和随机过程)。这意味着,您不知道的任何内容(例如新开发的内容)都可以在此坚实的基础上快速掌握并掌握。

该线程中先前提到的几乎所有内容都在Feller Vol 2中(不是Kendall Advanced Statistics的所有材料,但在Feller Vol 2之后阅读这本书简直是小菜一碟),以及更多,更多,全部以应该发展您的随机思维和直觉的方式。约翰逊和科茨(Johnson and Kotz)在各种概率分布上对细节都有好处,Feller Vol 2对于学习如何概率思考,知道从约翰逊和科茨(Johnson and Kotz)中提取什么以及如何使用它很有用。


2

只是为了添加其他出色的答案。

np(每个实验的成功概率为零)以的方式λ=np保持恒定,远离零和无穷大。这告诉我们,当我们有大量单独的非常不可能的事件时,它很有用。有一些很好的例子:事故,例如一天在纽约发生的车祸次数,因为每两次有两辆车通过/相遇,发生撞车的可能性就非常低,而这样的机会的确是天文数字!现在您自己可以考虑其他示例,例如一年中世界上飞机失事的总数。一个经典的例子,在普鲁士骑兵中,骑手的死亡人数很高!

np(1p)p1pnpλpp


0

最近发表的研究这表明,与通常的想法相反,人类的表现不是正态分布的。分析了来自四个领域的数据:(1)基于最杰出的特定学科期刊的出版频率,对50个学科的学者进行了分析。(2)演员,例如演员,音乐家和作家,以及获得的著名奖项,提名或荣誉的数量。(3)10个国家的政客和选举/改选结果。(4)大学和专业运动员研究的是最个性化的措施,例如全垒打的数量,团体运动的接待和个人运动的总胜利。作者写道:“无论我们对数据进行多窄或宽泛的分析,我们都在每项研究中看到清晰一致的幂律分布。”


4
谁认为人类绩效是正态分布的?帕累托(1906!)提出了80-20的原理。
abaumann 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.