如何解释密度图的高度


12

我应该如何解释密度图的高度:

在此处输入图片说明

例如,在上面的图中,峰值在x = 18处约为0.07。我可以推断出大约7%的值在18左右吗?我能比这更具体吗?在x = 30处还有一个第二个峰,高度为0.02。这是否意味着大约2%的值在30左右?

编辑:关于概率分布值超过1的问题可以吗?讨论了> 1的概率值,这在这里根本不是问题。它还讨论了关于朴素贝叶斯分类的问题,这也不是重点。我想用简单的语言从这些密度曲线中得出数值推论。讨论了曲线下面积的作用,但我的问题是具体地,我们可以对存在于曲线上的特定x和y组合得出什么推论。例如,如何在该图上关联x = 30和y = 0.02。关于30和0.02之间的关系,我们可以写什么陈述。因为密度是一个单位值,所以可以说2%的值出现在29.5到30.5之间吗?如果是这样,我们如何解释值是否仅在0到1之间变化,如下图所示:

在此处输入图片说明

如果100%的值出现在0和1之间,为什么在0和1之外存在任何曲线?

在x = 0.1到x = 0.2处有一个平坦部分,其中y等于0.8。它形成一个矩形。我们如何找出在x = 0.1和x = 0.2之间出现值的比例

(附言:如果您觉得这个问题有趣/重要,请对其进行投票;)



4
尽管标题中的措词很精确,但提到的第一个线程是相关的,尽管它的主题是精确的,因为它指出了关键点,即对于连续变量计算出的概率密度不是概率。(更细微的版本将严格定义密度,并包括通过计数度量定义密度的可能性。)
Nick Cox

我同意@NickCox的观点,尽管进行了额外的编辑,但在Tim的紧密相关问题列表中,重点更多地放在区域(类似于第三个问题)和高度(类似于第二个问题)上。
Silverfish

3
在这些问题中还没有提出一个单独的问题,这就是为什么我认为这总体上是这些问题中的任何一个的重复:为什么在经验密度图而不是理论密度图上,可以在外部存在“密度”分布的支持(或观测值)?这需要对带宽以及内核密度图的构造和解释进行更多讨论。也许这个问题将受益于编辑并重新关注那些不会重复现有问题的问题。
Silverfish

Answers:


6

您在这里的措辞要小心。假设x是一个连续变量,则任何单个值的概率恰好为零。与您一样,谈论某个值某个点附近的可能性很好,尽管您可能希望更精确一些。我要寻找的第二个陈述是在其中提供间隔以及概率。

本质上,关于x的密度函数的积分将告诉您概率本身(这就是为什么它称为density)的原因。显然,您要积分的时间间隔可能会很小,因此您可以任意接近某个点。也就是说,当密度函数在该区间内变化非常缓慢时,您可以通过某种数值技术(例如梯形法则)来近似积分。

总结一下:密度函数的高度就是它的高度。您可能要得出的关于概率的任何结论都必须包括某种形式或另一种形式的积分。


这种曲线下的曲线面积总和是否等于1.0?
ecologist1234

1
@ ecologist1234是的,因为这是概率密度分布,所以从到的积分(“最差”)将得出1.0。这意味着所有数据都以100%的概率位于该间隔内的某个位置。
Fato39
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.