如何找到概率密度函数的模式？

14

受到另一个问题的启发，我想问一个人如何找到函数的概率密度函数（PDF）的模式？ $f(x)$

为此有任何“烹饪书”程序吗？显然，这项任务比起初看起来要困难得多。

— 毫米
source

3

如果您想知道获得的答案是否完全不同，请注意，尼克的答案*与样本估计有关，而不是与已知pdf相关的情况；我在询问您的问题时询问的是已知pdf案例，但是如果您想了解如何从样本中做事，这是非常有用的文章。...（*皮埃尔的内容也涉及根据样本进行估算）

$\qquad\:$

— Glen_b-恢复莫妮卡

13

说“模式”意味着分布只有一个。通常，发行版可能有很多模式，或者（可能）没有。

如果模式不止一种，则需要指定是全部模式还是仅全局模式（如果恰好有一种模式）。

假设我们将自己限制为单峰分布*，那么我们可以说是“ the”模式，其发现方式与更一般地找到函数的最大值相同。

*请注意，页面说“，因为术语“模式”具有多种含义，术语“单峰”也具有多种含义），并且提供了模式的几种定义-可以更改确切地算作模式的值，无论是0 1还是0更多-并更改了识别它们的策略。还要特别注意如何一般的“更普遍”的是在首段什么单峰，短语“ 单峰的手段只有一个单一的最高值，在某种程度上定义 ”

该页面上提供的一种定义是：

连续概率分布的模式是概率密度函数（pdf）达到最大值的值

因此，给定模式的特定定义后，您会发现它，就像在更一般地处理函数时会发现“最高值”的特定定义一样（假设在该定义下分布是单峰的）。

在数学中，有多种策略可以根据情况确定此类事物。请参阅Wikipedia页面上关于极大值和极小值的“查找功能极大值和极小值”部分，其中进行了简要讨论。

例如，如果情况足够好（例如我们正在处理一个连续的随机变量，密度函数具有连续的一阶导数），则可以尝试查找密度函数的导数为零的位置，然后检查它是哪种类型的临界点（最大，最小，弯曲水平点）。如果恰好有一个这样的点是局部最大值，则应该是单峰分布的模式。

但是，总的来说，事情更加复杂（例如，模式可能不是关键点），并且出现了寻找功能最大化的更广泛的策略。

有时，很难找到代数为零的位置，或者至少很麻烦，但是仍然有可能以其他方式识别最大值。例如，可能在识别单峰分布的模式时可能会调用对称性考虑。或者可以在计算机上调用某种形式的数字算法，以数字方式找到模式。

这里有一些情况说明了您需要检查的典型情况-即使函数是单峰的且至少是分段连续的。

因此，例如，我们必须检查端点（中心图），导数更改符号的点（但可能不为零；第一张图）和不连续点（第三张图）。

在某些情况下，事情可能不像这三个那么整齐。您必须尝试了解要处理的特定功能的特征。

我没有涉及多变量的情况，在这种情况下，即使函数相当“不错”，仅仅找到局部最大值可能实际上要复杂得多（例如，这样做的数值方法实际上可能会失败，即使逻辑上必须成功）最终）。

— Glen_b-恢复莫妮卡
source

1

N (1, 1)

$N(1,1)$

N (- 1, 1)

$N(-1,1)$

@Dilip我将在其上添加一些文字。

— Glen_b-恢复莫妮卡2015年

1

@DilipSarwate同样，联合分布的模式可能与边际分布的模式不同。

— Marcelo Ventura

17

这个答案完全集中在样本的模式估计上，重点放在一种特定的方法上。如果您已经从某种意义上以分析或数值方式知道了密度，那么简单的首选答案就是直接寻找单个最大值或多个最大值，如@Glen_b的答案。

可以使用递归选择长度最短的半样本来计算“半样本模式”。尽管它的根源较长，但Bickel和Frühwirth（2006）很好地介绍了这个想法。

将模式估计为包含固定观测值的最短间隔的中点的想法至少可以追溯到Dalenius（1965）。关于该模式的其他估计量，另请参见Robertson和Cryer（1974），Bickel（2002）和Bickel和Frühwirth（2006）。

$n$ $x$ $x_{(1)} \le x_{(2)} \le \cdots \le x_{(n-1)} \le x_{(n)}$ 。

在此使用两个规则定义半采样模式。

$n = 1$ $x_{(1)}$ $n = 2$ $(x_{(1)} + x_{(2)}) / 2$ $n = 3$ $(x_{(1)} + x_{(2)}) / 2$ $x_{(1)}$ $x_{(2)}$ $x_{(2)}$ $x_{(3)}$ $(x_{(2)} + x_{(3)}) / 2$ $x_{(2)}$ 否则比。

$n \ge 4$ $3$ $h_1 = \lfloor n / 2\rfloor$ $k$ $k + h_1$ $x_{(k + h_1)} - x_{(k)}$ $k = 1, \cdots, n - h_1$ 。然后是其中最短的一半 $h_1 + 1$ $h_2 = \lfloor h_1 / 2\rfloor$

$x_{(k)}, \cdots, x_{(k + h)}$ $h = \lfloor n / 2 \rfloor$ $(x_k + x_{(k + h)}) / 2$ $x$ shorth

从实用数据分析师以及数学或理论统计学家的角度出发，一些粗略的评论都遵循了半样本模式的优缺点。无论项目是什么，将结果与标准汇总度量（例如，中位数或均值，包括几何和调和均值）进行比较并将结果与分布图相关联始终是明智的。此外，如果您对双峰或多峰的存在或程度感兴趣，则最好直接查看密度函数的适当平滑估计。

模式估计 通过汇总数据最密集的位置，半采样模式将模式的自动估计器添加到工具箱中。基于识别直方图甚至内核密度图上的峰的模式的更传统的估计方法，对关于仓位起点或宽度或内核类型和内核半宽度的决策很敏感，并且在任何情况下都很难实现自动化。当应用于单峰且近似对称的分布时，半样本模式将接近均值和中值，但比均值对任一尾部的离群值具有更大的抵抗力。当应用于单峰和非对称分布时，半样本模式通常会比均值或中位数更接近于其他方法确定的模式。

简单的半采样模式的想法是相当简单，易于解释不把自己作为统计专家谁的学生和研究人员。

图形解释 半样本模式可以轻松地与分布的标准显示相关，例如内核密度图，累积分布和分位数图，直方图和茎叶图。

同时请注意

不适用于所有分布 当应用于近似J形的分布时，半采样模式将近似于数据的最小值。当应用于近似U形的分布时，半样本模式将在分布的一半碰巧具有较高平均密度的范围内。两种行为似乎都没有特别有趣或没有用，但是同样很少有人要求针对J形或U形分布的单一模式类摘要。对于U形，如果不是无效的话，双峰将成为单模的想法。

领带最短的一半可能没有唯一定义。即使有测量数据，报告值的四舍五入也可能经常引起联系。在文献中很少讨论如何处理两个或更多个最短的一半。注意，两半可能重叠或不相交。

hsmode $t$ $t$ $\lceil t/ 2\rceil$

$-9, -4, -1 , 0, -1, 4, 9$ $-0.5$ $0$ $1 + \lfloor n / 2\rfloor$ $n$ $n$ ，这在给定其他需求的情况下很难实现，尤其是窗口长度永远不会随着样本大小而减少。我们更愿意相信，这对于合理大小的数据集来说是一个小问题。

$1 + \lfloor n / 2\rfloor$ $n$ $n$ $n = 1,$ $n = 2$ $\lceil n / 2\rceil$

$1.6, 3.11, 3.95, 4.2, 4.2, 4.62, 4.62, 4.62, 4.7, 4.87, 5.04, 5.29, 5.3, 5.38, 5.38, 5.38, 5.54, 5.54, 5.63, 5.71, 6.13, 6.38, 6.38, 6.67, 6.69, 6.97, 7.22, 7.72, 7.98, 7.98, 8.74, 8.99, 9.27, 9.74, 10.66.$ hsmode $5.00, 5.02, 5.04$

安德鲁斯，DF，PJ Bickel，FR Hampel，PJ Huber，WH罗杰斯和JW Tukey。1972年。 位置的可靠估计：调查和进展。 新泽西州普林斯顿：普林斯顿大学出版社。

Bickel，DR，2002年。对连续数据的模式和偏度的鲁棒估计。 计算统计与数据分析 39：153-163。

Bickel，DR和R.Frühwirth。2006年。在快速，稳健的模式估算器上：与具有应用程序的其他估算器比较。 计算统计和数据分析 50：3500-3530。

Dalenius，T.，1965年。模式-被忽略的统计参数。 皇家统计学会杂志A 128：110-117。

Grübel，R.，1988年。 统计年鉴 16：619-628。

Hampel，FR1975。超越位置参数：可靠的概念和方法。 国际统计研究所通报 46：375-382。

Maronna，RA，RD马丁和VJ Yohai。2006。 稳健统计：理论和方法。奇切斯特：约翰·威利。

罗伯逊（Robertson）和JD克莱尔（JD Cryer）。1974年。一种估计模式的迭代程序。 杂志，美国统计协会 69：1012-1016。

Rousseeuw，PJ，1984年。最小二乘回归中值。 杂志，美国统计协会 79：871-880。

Rousseeuw，PJ和AM Leroy。1987年。 稳健的回归和离群值检测。纽约：约翰·威利（John Wiley）。

此帐户基于以下文档：

考克斯，NJ 2007 HSMODE：Stata的模块来计算半样本模式，http://EconPapers.repec.org/RePEc:boc:bocode:s456818。

另见大卫·R·比克尔的网站在这里对其他软件实现信息。

— 尼克·考克斯
source

5

如果您在向量“ x”中有分布样本，我将这样做：

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

您应该调整密度函数，使其在顶部;-)足够平滑。

如果您只有分布的密度，我将使用优化器来找到模式（REML，LBBFS，单纯形等）...

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

或使用Monte-Carlo采样器从发行版（软件包rstan）中获取一些样本，然后使用上述步骤。（无论如何，Stan包作为“优化”功能来获取分发模式）。

— 皮埃尔·勒布朗
source

似乎不再使用这种估计。您必须指定内核宽度才能使用内核密度估计器。另一方面，HSM和HRM根本不需要调整，并且可以线性工作。

— 维克多