这是使用贝叶斯定理不断更新概率的正确方法吗?


9

假设我正在尝试找出某人最喜欢的冰淇淋口味是香草的可能性。

我知道这个人也喜欢恐怖电影。

考虑到他们喜欢看恐怖电影,我想找出这个人最喜欢的冰淇淋是香草的可能性。

我知道以下几点:

  1. 5%的人选择香草作为他们最喜欢的冰淇淋口味。(这是我的)P(A)
  2. 10%最喜欢香草冰淇淋的人中,有的人也喜欢恐怖电影。(这是我的)P(B|A)
  3. 1%最不喜欢香草冰淇淋的人中有的人也喜欢恐怖电影(这是我的)P(B|¬A)

因此,我这样计算: 我发现

P(A|B)=0.05×0.1(0.05×0.1)+(0.01×(10.05))
P(A|B)=0.3448(四舍五入到最接近的十分之一)。有一个34.48% 恐怖电影迷最喜欢的冰淇淋口味是香草。

但是后来我得知该人在过去30天内看过一部恐怖电影。这是我所知道的:

  1. 34.48% 是香草是该人最喜欢的冰淇淋口味的最新后验概率- P(A) 在下一个问题中。
  2. 20% 在过去30天内,最喜欢香草冰淇淋的人中有一部看过恐怖片。
  3. 5% 在过去30天内,最不喜欢香草冰淇淋的人中有过看过恐怖片的人。

这给出:

0.3448×0.2(0.3448×0.2)+(0.05×(10.3448))=0.6779
四舍五入时。

所以现在我相信有一个 67.79% 鉴于过去30天内看过恐怖电影,恐怖电影迷很喜欢冰淇淋。

但是,等等,还有另一件事。我还了解到该人拥有一只猫。

这是我所知道的:

  1. 67.79% 是香草是该人最喜欢的冰淇淋口味的最新后验概率- P(A) 在下一个问题中
  2. 40% 最喜欢香草冰淇淋的人中也有猫
  3. 10% 不喜欢香草冰淇淋的人中也有猫

这给出:

0.6779×0.4(0.6779×0.4)+(0.1×(10.6779))=0.8938
四舍五入时。

我的问题基本上可以归结为:我是否使用贝叶斯定理正确地更新了概率?我的方法有其他问题吗?


1
爱=最爱?您没有发布爱的程度。如果您喜欢它,那将是您的最爱。澄清是否需要。
generic_user

好点子。我将“爱”更改为“收藏”。这在语法上是不正确的,但没有说“选择最喜欢的冰淇淋口味的香草”那样罗word。我希望这可以解决问题。
user1626730

Answers:


7

这是正确的。仅当您顺序接收的信息是独立的(例如,对随机变量的同义观察)时,这种类型的顺序更新才有效。如果每个观察值都不是独立的(在这种情况下),则需要考虑联合概率分布。正确的更新方法是回到先前的状态,找出某人喜欢恐怖电影,在过去30天内看过恐怖电影并拥有一只猫的共同可能性,因为他们选择或不选择香草作为自己的最喜欢的冰淇淋口味,然后一步一步更新。

当您的数据不是独立的时,像这样顺序更新将迅速使您的后验概率大大高于或低于应有的概率。


1
“连续接收的信息是独立的”是什么意思?如果您的意思是“与要预测的事件无关”,那么您是否知道我如何知道所获取的信息是否独立?
user1626730

给定您要预测的事件的条件独立性。如果它们与您要预测的事件无关,那么它们将对您没有任何好处。至于如何判断-您必须考虑一下数据是什么。在这种情况下,是否有人在过去30天内看过恐怖片显然并不取决于他们是否喜欢恐怖片。
乔纳森·克里斯坦森

当您说“有条件地独立”时,我想您的意思是每个P(B)(即热爱恐怖电影,拥有猫咪)都没有关系吗?如果是这样,猫的所有权变量是否会独立于喜欢恐怖电影的人?
user1626730

是的,您可以提出以下论点:猫的拥有权与爱好恐怖电影无关。但这不是必须的,例如,也许女人既更可能爱猫,又不太可能爱恐怖电影。
乔纳森·克里斯坦森

嗯,我不太确定您所说的关于女人和猫的含义。您能进一步解释一下吗?
user1626730
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.