我有一些数据,正在尝试拟合一条平滑曲线。但是,我不想对此施加太大的先验信念或过于强烈的先入之见(我的其余问题所隐含的那些除外)或任何特定的分布。
我只是想用一些平滑的曲线拟合它(或者对它可能来自的概率分布有一个很好的估计)。我知道的唯一方法是内核密度估计(KDE)。我想知道,人们是否知道其他估算此类事物的方法。我只想要它们的列表,然后就可以进行自己的研究以找出要使用的列表。
始终欢迎(并鼓励)提供任何链接或好的参考文献(或关于哪种参考文献的直觉)!
我有一些数据,正在尝试拟合一条平滑曲线。但是,我不想对此施加太大的先验信念或过于强烈的先入之见(我的其余问题所隐含的那些除外)或任何特定的分布。
我只是想用一些平滑的曲线拟合它(或者对它可能来自的概率分布有一个很好的估计)。我知道的唯一方法是内核密度估计(KDE)。我想知道,人们是否知道其他估算此类事物的方法。我只想要它们的列表,然后就可以进行自己的研究以找出要使用的列表。
始终欢迎(并鼓励)提供任何链接或好的参考文献(或关于哪种参考文献的直觉)!
Answers:
您没有指定要谈论连续随机变量,但是由于提到了KDE,因此我假设您打算这样做。
另两种拟合平滑密度的方法:
1)对数样条密度估计。在此,样条曲线拟合到对数密度。
示例文件:
Kooperberg和石头(1991),
“logspline密度估计的研究,”
计算统计与数据分析,12,327-347
Kooperberg提供了一个链接到他的论文的PDF格式在这里,在“1991年”。
如果使用R,则有一个用于此的程序包。它产生的拟合的一个示例在这里。以下是那里的数据集的日志的直方图,以及对答案的对数线和核密度估计值的再现:
2)有限混合模型。在这里,选择了一些方便的分布族(在许多情况下为正态),并且假定密度是该族的几个不同成员的混合。请注意,内核密度估计可以看作是这样的混合(对于高斯内核,它们是高斯混合)。
更一般地说,这些可以通过ML或EM算法来拟合,或者在某些情况下可以通过矩匹配来拟合,尽管在特定情况下,其他方法也是可行的。
(有很多R包可以进行各种形式的混合建模。)
在编辑中添加:
3)平均移位直方图
(从字面上看,它并不平滑,但对于您未陈述的标准,它可能足够平滑):
想象一下以某个固定binwidth(),在移动了 对于一些整数 每次,然后取平均值。乍一看就像在binwidth上完成的直方图,但更加流畅。
例如,在binwidth 1处分别计算4个直方图,但偏移+ 0,+ 0.25,+ 0.5,+ 0.75,然后平均任意给定高度的高度 。您最终会得到如下结果:
从这个答案中得到的图表。就像我在那儿说的那样,如果您付出如此努力,那么您也可以进行内核密度估计。
一个流行的选择是随机森林(具体参见“ 决策森林:分类,回归,密度估计,流形学习和半监督学习的统一框架 ”的第五章)。
它详细描述了该算法,并针对其他常用选择(例如k-means,GMM和KDE)进行了评估。随机森林在R和scikit-learn中实现。
随机森林以巧妙的方式打包成袋装决策树。