需要帮助通过直方图确定分布


13

我具有某个信号的已记录振幅最大值的样本总数。人口约为1500万样本。我生成了人口的直方图,但无法用这种直方图猜测分布。

EDIT1:带有原始样本值的文件在这里:原始数据

任何人都可以使用以下直方图来帮助估计分布: 在此处输入图片说明


1
并不是很重要,但是在使用直方图时,通常有助于在y轴上使用相对频率而不是绝对频率。
posdef 2011年

也就是说,在垂直轴上提供120000/15000000 = 0.008而不是120000?
mbaitoff 2011年

@mbaitoff:您对schenectady的回答的评论表明,您对获取分发名称的兴趣不大,但在找出为什么要以这种方式分发值的原因。它是否正确 ?
steffen 2011年

1
@mbaitoff,我不确定它是否完全适合您的应用程序,但是在相关的应用程序区域中,源和接收器之间经过(许多)随机反射的波的大小由瑞利分布或其一般化之一来建模,例如莱斯或Nakagami- 分布。
主教

2
对这些数据的真正兴趣在于十几个或更多峰值:数据量足够大以至于它们是真实的,从某种意义上说,它们是实际局部模式的证据。这里似乎有一组丰富的数据,其中包含大量信息,如果使用简单的参数公式来汇总其分布,这些信息将被忽略。
Whuber

Answers:


23

使用fitdistrplus:

这是fitdistrplus 的CRAN链接

这是fitdistrplus 的旧小插图链接

如果小插图链接不起作用,请搜索“使用库fitdistrplus从数据中指定分布”。

小插图很好地解释了如何使用该包装。您可以查看各种分布在短时间内如何适应。它还会生成一个库伦/灰图。

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

在此处输入图片说明

在此处输入图片说明


(+1):以前不知道那个包裹。
steffen 2011年

1
(+1(不知道是叫库伦/弗雷图我只好拿出我自己在一个点上。
Glen_b -Reinstate莫妮卡

第二个图像是plotdist同伴?我如何获得卡伦/弗莱图?
juanpablo

1
@juanpablo-试试descdist()。我更新了上面的帖子,以包含一些代码和旧小插图的链接。我无法使上面的小插图链接正常工作。因此,Google采取以下措施:“使用fitdistrplus库来指定数据的分布”。这是一个.pdf文件。
bill_080

3
@juanpablo-该语句f1g <- fitdist(x1, "gamma")使伽马分布适合原始数据x1并将其存储在中f1g。左上方的图表以条形图plot(f1g)显示了原始数据的直方图x1,而实线显示了拟合的伽玛密度图f1g。在直方图上绘制密度图(实线),以表明“拟合”表示数据的程度。
bill_080 2013年

6

人口约为1500万样本。

这样,您很可能能够拒绝任何简单的,封闭的表单的特定分发。

即使是图表左侧的微小凸起也足以使我们说“显然不是这样”。

另一方面,它可以通过许多常见分布很好地近似。很明显的候选对象是对数正态和伽玛等,但是还有很多其他的。如果您查看x变量的对数,则可以确定对数正态视线是否正确(取对数后,直方图应看起来是对称的)。

如果对数偏左,请考虑Gamma是否正确;如果对数偏右,请考虑反Gamma或(甚至更多偏斜)反高斯。但是,这项工作不仅仅在于找到一种足够接近的分布。这些建议实际上都没有那里似乎存在的所有功能。

如果您有任何理论来支持选择,请抛弃所有讨论并使用。


哇,这件事有什么直觉?真好!:)
onurcanbektas

1

我不确定为什么要将样本分类为具有如此大样本量的特定分布;为什么?简约,将其与另一个样本进行比较,寻找对参数的物理解释?

大多数统计软件包(R,SAS,Minitab)都允许将数据绘制在图形上,如果数据来自特定的分布,则该图形会生成一条直线。我已经看到如果数据正常(对数转换后即为对数正态),Weibull和卡方的图形会产生一条直线。此技术将使您能够看到异常值,并可以为数据点为何异常值指定原因。在R中,正态概率图称为qqnorm。


建议qqplot的好主意。但是,我认为您对该技术的解释有些模糊/难以理解。您能提供一些示例性的R代码吗?这将大大增加答案的价值。
steffen 2011年

我希望有人像我一样遇到这种情况并调查潜在的分布,因为这些值具有物理基础。
mbaitoff 2011年

我正在调查样本分发的物理背景-如何分发样本以及原因。
mbaitoff 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.