估计数据概率分布的不同非参数方法


10

我有一些数据,正在尝试拟合一条平滑曲线。但是,我不想对此施加太大的先验信念或过于强烈的先入之见(我的其余问题所隐含的那些除外)或任何特定的分布。

我只是想用一些平滑的曲线拟合它(或者对它可能来自的概率分布有一个很好的估计)。我知道的唯一方法是内核密度估计(KDE)。我想知道,人们是否知道其他估算此类事物的方法。我只想要它们的列表,然后就可以进行自己的研究以找出要使用的列表。

始终欢迎(并鼓励)提供任何链接或好的参考文献(或关于哪种参考文献的直觉)!


3
我不想对它强加任何先前的信念”-然后,您不能假设它是平滑的,甚至是连续的(这些都是先前的信念)。在这种情况下,ecdf是关于您唯一的手段。
Glen_b-恢复莫妮卡2014年

1
坚信我是解决问题的一种更好的方法。我的意思是我不想假设伯努利所说的话,或者可能是限制性的话。我不知道什么是ecdf。如果您有很好的建议或建议列表,请随时发布。
Pinocchio 2014年

我已经更新了我的问题。那个更好吗?更清晰?顺便说一下,对我的问题没有正确的答案,只有好的和不太有用的答案。:)
Pinocchio 2014年

2
ecdf = 经验CDF,抱歉。我们只能回答您要提出的问题,而不能回答您要提出的问题,因此表达您的假设时,请务必保持清楚。
Glen_b-恢复莫妮卡2014年

归一化的直方图可以看作是密度估计
Dason 2014年

Answers:


5

您没有指定要谈论连续随机变量,但是由于提到了KDE,因此我假设您打算这样做。

另两种拟合平滑密度的方法:

1)对数样条密度估计。在此,样条曲线拟合到对数密度。

示例文件:

Kooperberg和石头(1991),
“logspline密度估计的研究,”
计算统计与数据分析12,327-347

Kooperberg提供了一个链接到他的论文的PDF格式在这里,在“1991年”。

如果使用R,则有一个用于此的程序包。它产生的拟合的一个示例在这里。以下是那里的数据集的日志的直方图,以及对答案的对数线和核密度估计值的再现:

日志数据直方图

对数样条线密度估计:

对数线图

内核密度估计:

核密度估计

2)有限混合模型。在这里,选择了一些方便的分布族(在许多情况下为正态),并且假定密度是该族的几个不同成员的混合。请注意,内核密度估计可以看作是这样的混合(对于高斯内核,它们是高斯​​混合)。

更一般地说,这些可以通过ML或EM算法来拟合,或者在某些情况下可以通过矩匹配来拟合,尽管在特定情况下,其他方法也是可行的。

(有很多R包可以进行各种形式的混合建模。)

在编辑中添加:

3)平均移位直方图
(从字面上看,它并不平滑,但对于您未陈述的标准,它可能足够平滑):

想象一下以某个固定binwidth(b),在移动了 b/ķ 对于一些整数 ķ每次,然后取平均值。乍一看就像在binwidth上完成的直方图b/ķ,但更加流畅。

例如,在binwidth 1处分别计算4个直方图,但偏移+ 0,+ 0.25,+ 0.5,+ 0.75,然后平均任意给定高度的高度 X。您最终会得到如下结果:

平均移位直方图

这个答案中得到的图表。就像我在那儿说的那样,如果您付出如此努力,那么您也可以进行内核密度估计。


为此。对于混合模型-我猜您可以拟合2,然后3,然后4的分布的混合物,并在对数似然率没有显着增加或
诸如此类的情况下停止

4

遵循上面有关诸如平滑度等假设的评论。您可以使用混合模型和Dirichlet过程进行贝叶斯非参数密度估计。

下图显示了从“老忠实”数据的二元正态DP混合模型的MCMC估计中恢复的概率密度等值线。根据在最后一个MCMC步骤上获得的聚类,这些点被着色为IIRC。

在此处输入图片说明

2010年将提供一些良好的背景。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.