在有关朴素贝叶斯分类器的Wikipedia页面上,存在以下行:
(1的概率分布是可以的。钟形曲线下的面积等于1。)
值如何确定?我认为所有概率值都表示在范围内。此外,假设有可能具有这样的值,那么在页面上显示的示例中如何获得该值?
p
表示概率密度,使用大写形式P
表示概率
在有关朴素贝叶斯分类器的Wikipedia页面上,存在以下行:
(1的概率分布是可以的。钟形曲线下的面积等于1。)
值如何确定?我认为所有概率值都表示在范围内。此外,假设有可能具有这样的值,那么在页面上显示的示例中如何获得该值?
p
表示概率密度,使用大写形式P
表示概率
Answers:
通过将该数字称为概率,该Wiki页面正在滥用语言。您是正确的,事实并非如此。实际上,这是每英尺的概率。具体来说,值为1.5789(对于6英尺的高度)意味着在5.99到6.01英尺之间的高度概率接近以下无单位值:
此值必须不超过1,你也知道。(高度的小范围(在此示例中为0.02)是概率设备的关键部分。它是高度的“微分”,我将其缩写为。)每单位某物的概率为与其他密度类似,称为密度,例如每单位体积的质量。
善意的概率密度可以具有任意大的值,甚至是无限大的值。
此示例显示了Gamma分布(形状参数为和比例为)的概率密度函数。因为大多数密度小于,所以曲线必须上升到大于才能使所有概率分布所需的总面积为。
该密度(对于参数为的beta分布)在和处变为无穷大。总面积仍然是有限的(等于)!
在该示例中,通过估计男性的身高呈正态分布,平均值为5.855英尺,方差为3.50e-2平方英尺,得出1.5789 / foot的值。(可以在上一个表中找到。)该方差的平方根是标准偏差0.18717英尺。我们重新将6英尺表示为平均值的标准差数:
用标准偏差除以产生关系
根据定义,正态概率密度等于
(实际上,我作弊:我只是要求Excel计算NORMDIST(6,5.855,0.18717,FALSE)。但是为了确保这一点,我确实确实根据公式对其进行了检查。)当我们去除基本差分,公式中仅保留数字,就像柴郡猫的笑容一样。我们的读者需要了解,必须将数字乘以一个小的高度差才能产生概率。
由于不了解变量为离散的概率质量函数与变量为连续的概率密度函数之间的差异,这是一个常见的错误。请参阅什么是概率分布:
连续概率函数是在连续间隔内为无数个点定义的,单个点处的概率始终为零。概率是按间隔而不是单点测量的。即,两个不同点之间的曲线下方的面积定义了该间隔的概率。这意味着概率函数的高度实际上可以大于1。积分必须等于1的属性等于所有概率之和必须等于1的离散分布的属性。
我认为区间的连续均匀分布为这个问题提供了一个简单的示例:在连续均匀分布中,每个点的密度在每个点都相同(均匀分布)。此外,因为矩形下方的区域必须为曲线下方的区域必须为1),所以密度值必须为因为任何具有底边和区域矩形的高度都必须为。
因此,间隔上的均匀密度值为,间隔上的均匀密度值为,...
我不知道维基百科的文章是否已在此线程的初始帖子之后进行过编辑,但是现在它说:“请注意,此处的值大于1是可以的–它是概率密度而不是概率,因为高度是连续变量。”,至少在当前情况下,P用于概率,p用于概率密度。是的,很草率,因为本文在某些地方用p表示概率,而在其他地方用p表示概率密度。
回到原始问题“概率分布值超过1可以吗?” 不,但是我已经看到它完成了(请参阅下面的最后一段)。
以下是解释> 1的可能性的方法。首先,请注意,人们可以而且确实付出了150%的努力,就像我们在体育运动中经常听到的,有时是在工作中https://www.youtube.com/watch?v=br_vSdAOHQQ。如果您确定会发生某事,则该概率为1。1.5的概率可以解释为您对事件将要发生的150%的把握-就像付出了150%的努力。
如果您的概率> 1,那么我想您的概率<0。负概率可以解释如下。0.001的可能性意味着几乎没有任何事件发生的机会。概率= 0表示“没有办法”。负概率(例如-1.2)对应于“您必须在开玩笑”。
3年前,当我还是一个辍学的小伙子时,我亲眼目睹了一个比打破航空声障更令人震惊的事件,那就是打破概率上的统一障碍。具有博士学位的分析师 物理学专业花了2年的时间(可能提供150%的精力)开发了一个模型,用于计算检测到物体X的可能性,最后,他的模型和分析成功地完成了与美国关系密切的几位科学家和工程师的同行评审政府。我不会告诉您对象X是什么,但是对象X以及检测到它的可能性一直是美国政府关注的焦点。该模型包括 = Prob(事件y发生)的公式。 以及其他一些项都组合成最终公式,即Prob(检测到对象X)。实际上,Prob(检测到对象X)的计算值在[0,1]范围内,正如Kolmogorov传统中的“传统”概率一样。 原始形式的始终为[0,1],并且包含“花园式”先验功能,这些功能可以在标准Fortran或任何科学计算器中使用。但是,只有分析师和上帝知道一个原因(也许是因为他在物理课和书籍中看到了它的实现,但是却不知道在少数情况下可以看到它起作用,而在很多情况下却不能得到这种结果)不,这个人的名字和科学/数学判断并非恰好是狄拉克的名字,(并忽略其余项),此后将其称为。正是这两项泰勒展开被插入到Prob的最终表达式中(检测到对象X)。在我向他指出之前,他没有意识到的是,使用他的所有参数的基本情况值,大约等于1.2。确实有可能升至约1.8。这就是打破团结障碍的可能性。但是这个家伙直到我向他指出之前,才知道自己已经完成了这项创举。他只是在昏暗的会议室中使用电池供电的信用卡大小的卡西欧科学计算器进行了快速计算(无法做到这一点)。太阳能计算器)。就像是查克·耶格尔(Chuck Yeager)乘飞机周日外出,几个月后才被告知他已经打破了音障。