概率分布值超过1可以吗？

149

在有关朴素贝叶斯分类器的Wikipedia页面上，存在以下行：

$p(\mathrm{height}|\mathrm{male}) = 1.5789$ （1的概率分布是可以的。钟形曲线下的面积等于1。）

值如何确定？我认为所有概率值都表示在范围内。此外，假设有可能具有这样的值，那么在页面上显示的示例中如何获得该值？ $>1$ $0 \leq p \leq 1$

— babelproofreader
source

2

当我看到以为概率密度函数的高度可以是任何正数时，只要它在任何时间间隔内被积分，积分就小于或等于1。Wikipedia应该更正该条目。

— Michael Chernick'5

16

因为这可能对将来的读者有所帮助，所以我对这个问题的一般部分进行了几何翻译：“面积不超过的形状如何在任何方向上延伸超过？” 具体而言，形状是上半平面的一部分被PDF的图形界定在上方，并且所讨论的方向是垂直的。在几何设置（概率解释的horn）中，很容易想到示例，例如基数不大于的矩形和高度。

1

$1$

1

$1$

1 / 2

$1/2$

2

$2$

— ub

Wikipedia文章现在使用小写形式p表示概率密度，使用大写形式P表示概率

— Aprillion

我只想把这个留给下一个家伙：en.wikipedia.org/wiki/Dirac_delta_function

— 约书亚

值得注意的是，累积分布函数（PDF的积分）不能超过1。CDF在许多情况下使用起来更加直观。

— naught101

167

通过将该数字称为概率，该Wiki页面正在滥用语言。您是正确的，事实并非如此。实际上，这是每英尺的概率。具体来说，值为1.5789（对于6英尺的高度）意味着在5.99到6.01英尺之间的高度概率接近以下无单位值：

1.5789 [1 / foot] \times (6.01 - 5.99) [feet] = 0.0316

$1.5789\, [1/\text{foot}] \times (6.01 - 5.99)\, [\text{feet}] = 0.0316$

此值必须不超过1，你也知道。（高度的小范围（在此示例中为0.02）是概率设备的关键部分。它是高度的“微分”，我将其缩写为。）每单位某物的概率为与其他密度类似，称为密度，例如每单位体积的质量。 $d(\text{height})$

善意的概率密度可以具有任意大的值，甚至是无限大的值。

伽玛分布

此示例显示了Gamma分布（形状参数为和比例为）的概率密度函数。因为大多数密度小于，所以曲线必须上升到大于才能使所有概率分布所需的总面积为。 $3/2$ $1/5$ $1$ $1$ $1$

Beta分布

该密度（对于参数为的beta分布）在和处变为无穷大。总面积仍然是有限的（等于）！ $1/2, 1/10$ $0$ $1$ $1$

在该示例中，通过估计男性的身高呈正态分布，平均值为5.855英尺，方差为3.50e-2平方英尺，得出1.5789 / foot的值。（可以在上一个表中找到。）该方差的平方根是标准偏差0.18717英尺。我们重新将6英尺表示为平均值的标准差数：

z = (6 - 5.855) / 0.18717 = 0.7747

$z = (6 - 5.855) / 0.18717 = 0.7747$

用标准偏差除以产生关系

d z = d (height) / 0.18717

$dz = d(\text{height})/0.18717$

根据定义，正态概率密度等于

\frac{1}{\sqrt{2 π}} \exp (- z^{2} / 2) d z = 0.29544 d (height) / 0.18717 = 1.5789 d (height) .

$\frac{1}{\sqrt{2 \pi}}\exp(-z^2/2)dz = 0.29544\ d(\text{height}) / 0.18717 = 1.5789\ d(\text{height}).$

（实际上，我作弊：我只是要求Excel计算NORMDIST（6，5.855，0.18717，FALSE）。但是为了确保这一点，我确实确实根据公式对其进行了检查。）当我们去除基本差分，公式中仅保留数字，就像柴郡猫的笑容一样。我们的读者需要了解，必须将数字乘以一个小的高度差才能产生概率。 $d(\text{height})$ $1.5789$

— ub
source

我注意到，该Wiki页面上给出的示例使用概率密度代替实际概率来进行后验计算，大概是因为如果比较的单位相同，则出于比较目的，不必考虑单位方面。扩展此范围，如果不希望假设正态性，而是拥有可以从中估算密度的经验数据（例如核密度估算），则可以使用在x轴上给定值的读数作为有效值kde作为天真贝叶斯分类器中计算后验的输入，假设每单位相等？

— babelproofreader

1

@babelproofreader我相信后继者是通过训练数据的先验先验的贝叶斯更新。尚不清楚如何以类似的方式解释kde，但我在这方面不是专家。您的问题很有趣，您可以考虑单独发布。

— ub

您如何确定什么是好的差异？如果您选择了1的差异怎么办？那么概率将大于1？抱歉让我感到困惑。你可以解释吗？

— fiacobelli 2014年

3

@tree三角形的面积是其底长和高度的乘积的一半。

— ub

1

@ user929304您可以参考任何您感兴趣的理论教科书：这是概率和统计基础知识的一部分。在更好的入门教科书（例如Freedman，Pisani和Purves）中，很好地讨论了这种特定的概率密度概念。

— whuber

43

由于不了解变量为离散的概率质量函数与变量为连续的概率密度函数之间的差异，这是一个常见的错误。请参阅什么是概率分布：

连续概率函数是在连续间隔内为无数个点定义的，单个点处的概率始终为零。概率是按间隔而不是单点测量的。即，两个不同点之间的曲线下方的面积定义了该间隔的概率。这意味着概率函数的高度实际上可以大于1。积分必须等于1的属性等于所有概率之和必须等于1的离散分布的属性。

— 特里斯坦
source

14

NIST通常是权威性的，但在技术上是不正确的（并且从语法上讲是不合法的）：将概率定义为“无数个点”并不意味着“单个点的概率始终为零”。当然，他们只是在躲避无限基数的干扰，但是这里的推理是令人误解的。对于他们来说，最好省略引号中的第一句话。

— ub

23

我认为区间的连续均匀分布为这个问题提供了一个简单的示例：在连续均匀分布中，每个点的密度在每个点都相同（均匀分布）。此外，因为矩形下方的区域必须为曲线下方的区域必须为1），所以密度值必须为因为任何具有底边和区域矩形的高度都必须为。 $[a,b]$ $1/(b-a)$ $b-a$ $1$ $1/(b-a)$

因此，间隔上的均匀密度值为，间隔上的均匀密度值为，... $[0,0.5]$ $1/(0.5-0)=2$ $[0,0.1]$ $10$

4

我不知道维基百科的文章是否已在此线程的初始帖子之后进行过编辑，但是现在它说：“请注意，此处的值大于1是可以的–它是概率密度而不是概率，因为高度是连续变量。”，至少在当前情况下，P用于概率，p用于概率密度。是的，很草率，因为本文在某些地方用p表示概率，而在其他地方用p表示概率密度。

回到原始问题“概率分布值超过1可以吗？” 不，但是我已经看到它完成了（请参阅下面的最后一段）。

以下是解释> 1的可能性的方法。首先，请注意，人们可以而且确实付出了150％的努力，就像我们在体育运动中经常听到的，有时是在工作中https://www.youtube.com/watch?v=br_vSdAOHQQ。如果您确定会发生某事，则该概率为1。1.5的概率可以解释为您对事件将要发生的150％的把握-就像付出了150％的努力。

如果您的概率> 1，那么我想您的概率<0。负概率可以解释如下。0.001的可能性意味着几乎没有任何事件发生的机会。概率= 0表示“没有办法”。负概率（例如-1.2）对应于“您必须在开玩笑”。

3年前，当我还是一个辍学的小伙子时，我亲眼目睹了一个比打破航空声障更令人震惊的事件，那就是打破概率上的统一障碍。具有博士学位的分析师物理学专业花了2年的时间（可能提供150％的精力）开发了一个模型，用于计算检测到物体X的可能性，最后，他的模型和分析成功地完成了与美国关系密切的几位科学家和工程师的同行评审政府。我不会告诉您对象X是什么，但是对象X以及检测到它的可能性一直是美国政府关注的焦点。该模型包括 = Prob（事件y发生）的公式。 $P_y$ $P_y$ 以及其他一些项都组合成最终公式，即Prob（检测到对象X）。实际上，Prob（检测到对象X）的计算值在[0,1]范围内，正如Kolmogorov传统中的“传统”概率一样。原始形式的始终为[0,1]，并且包含“花园式”先验功能，这些功能可以在标准Fortran或任何科学计算器中使用。但是，只有分析师和上帝知道一个原因（也许是因为他在物理课和书籍中看到了它的实现，但是却不知道在少数情况下可以看到它起作用，而在很多情况下却不能得到这种结果）不，这个人的名字和科学/数学判断并非恰好是狄拉克的名字， $P_y$ $P_y$ （并忽略其余项），此后将其称为。正是这两项泰勒展开被插入到Prob的最终表达式中（检测到对象X）。在我向他指出之前，他没有意识到的是，使用他的所有参数的基本情况值，大约等于1.2。确实有可能 $P_y$ $P_y$ $P_y$ $P_y$ 升至约1.8。这就是打破团结障碍的可能性。但是这个家伙直到我向他指出之前，才知道自己已经完成了这项创举。他只是在昏暗的会议室中使用电池供电的信用卡大小的卡西欧科学计算器进行了快速计算（无法做到这一点）。太阳能计算器）。就像是查克·耶格尔（Chuck Yeager）乘飞机周日外出，几个月后才被告知他已经打破了音障。

— 马克·L·斯通
source

有趣的故事。您是否有其他信息，例如引文？

— Jay Schyler Raadt

1

@ Jay Schyler Raadt记录在stats.stackexchange.com/questions/4220/…，哈哈。

— Mark L. Stone

0

当随机变量是连续的并且其概率密度函数为，是概率，但是不是概率，可以大于1。报告的不是概率，而是。 $X$ $f(x)$ $f(x)dx$ $f(x)$ $f(\mbox{height}|\mbox{male})$ $f(\mbox{height}|\mbox{male})d\mbox{height}$

换句话说，对于连续随机变量，，，并且。条件概率也是如此。 $X$ $P(X\in[x,x+dx))=f(x)dx$ $P(X\in[a,b])=\int_{a}^{b}f(x)dx$ $P(X = x)=P(X \in [x,x])=0$

— 埃斯迈良
source

-1

在概率密度图的特定参数值处的点值可能是似然，对吗？如果是这样，则可以通过简单地将P（height | male）更改为L（height | male）来更正该语句。

— 迈克尔·卢
source