22

我正在研究最大似然估计，并且我读到似然函数是每个变量的概率的乘积。为什么是产品？为什么不算总和？我一直在尝试在Google上进行搜索，但找不到任何有意义的答案。

maximum-likelihood

— 瑞琪
source

7

注意，并不一定是这种情况，通常，最大似然是根据随机变量的联合密度定义的。当然，如果它们是独立的，则它们的关节密度仅仅是边缘人群的乘积

— 蚂蚁

请记住，乘法只是加法的简写。当我说2乘3时，我的意思是2 + 2 + 2。我们繁殖是因为我们很懒。谁有时间艰难地做到这一点？您可以添加它是否可以帮助您了解正在发生的事情（帮助我了解了Monty Hall问题），但过一会儿您会对此感到无聊。

— candied_orange

假设您有80％的概率染棕色头发，而75％的概率染棕色眼睛。您是否认为棕色头发和棕色眼睛的可能性是80% + 75% = 155%多少？怎么样80% * 75% = 60%？

— njzk2 '16

39

这是一个非常基本的问题，而不是使用正式的语言和数学符号，我将尝试在一个可以理解该问题的所有人都可以理解该答案的水平上回答。

想象一下，我们有猫赛跑。他们有75％的可能性出生为白色，而25％的可能性出生为灰色，没有其他颜色。而且，它们具有50％的概率具有绿色的眼睛和50％的概率具有蓝色的眼睛，并且外套的颜色和眼睛的颜色是独立的。

现在，让我们看一看八只小猫的窝：

您会看到4分之一（即25％）是灰色。此外，每2人中就有1人或50％的人有蓝眼睛。现在的问题是

几只小猫有灰色的皮毛和蓝色的眼睛？

你可以数一下，答案是一个。即，或8只小猫的12.5％。 $\frac{1}{4} \times \frac{1}{2} = \frac{1}{8}$

为什么会发生？因为任何猫都有四分之一的概率变成灰色。因此，选择四只猫，您可以期望其中的一只是灰色的。但是，如果您只从多只猫中选出四只猫（并获得1只灰猫的期望值），则一只灰色的猫有两只眼睛的可能性就是蓝眼睛。这意味着，在您选择的猫总数中，首先将总数乘以25％即可得到灰色猫，然后将所有选定的25％的猫乘以50％即可得到蓝眼睛的猫。这使您有机会染上蓝眼睛的灰猫。

总结它们会给你，即 $\frac{1}{4} + \frac{1}{2}$ 在8中占或6。在我们的图片中，这相当于将蓝眼睛的猫与灰色毛的猫相加-并计算一只灰色蓝眼睛的小猫两次！这样的计算可以占有一席之地，但是在概率计算中却是很不寻常的，而且肯定不是您要问的那个。 $\frac{3}{4}$

— 朗姆斯乔
source

1

我知道这里的其他答案是同一回事。我仍然认为这里需要可视化表示-如果OP能够自己可视化该概念，那么他可能已经找到答案了。

— rumtscho

这实际上是一个了不起的答案，因为它将每个独立变量显示为cat矩阵中的独立轴。这使得它很容易理解。我将用这个例子教我的孩子们！

— dotancohen

3

这个答案实际上是有缺陷的，因为它仍然使观察值和期望值混为一谈。看到猫的受欢迎程度之后，我将尝试寻找时间进行更新，并解释一下为什么用这种对猫进行细分的方法为我们提供了最大似然估计（或解决了挑选8只随机猫并发现它们不是猫的问题）。我在图片上画的那些。

— rumtscho

为什么这不能成为这类猫的全部人口呢？（假设它们具有某些特殊的研究性质，例如，它们的舌头是化学发光的。）那么，混合是无害的。

— 埃里克·塔

16

两个事件之间的独立性意味着一个事件的发生不影响另一个事件发生的可能性。因此，对于任何两个事件和在样品空间我们说，和是独立当且仅当和。现在对两个以上的我们说的事件，该事件 $A$ $B$ $S$ $A$ $B$ $P(A$ $B)=P(A\cap B) = P(A)P(B)$ 是独立当且仅当对于所有子集。 $A_1,A_2,...A_n$ $P(\underset{i\in I}{\cap A_i})= \prod_{i\in I} P(A_i)$ $I \subset [1,2,...,n]$

在这种可能性下，我们假设存在一个样本，其中独立且均布的观测值（iid）来自未知概率密度函数的分布，这意味着该联合密度函数为 $x_1, x_2, …, x_n$ $n$ 。 $f(x_1,x_2,...,x_n|\theta) = \prod_{i=1}^{i=n}f(x_i|\theta)$

— 巴格特·纳索尔
source

6

$P(A \cap B)$ $P(A) P(B)$

因此，如果您假设所有观察结果都是独立的，那么观察所有观察到的值的概率就等于各个概率的乘积。

— 悬崖AB
source

8

如果您也解释了原因，我认为这会对OP有所帮助

P (A \cap B)

$P(A \cap B)$ 在这里很有趣。

— Greenparker

你好，谢谢你的回复！为什么要最大化似然性（联合密度函数）？为什么我不能最大化所有观察（或任何其他函数）的概率之和？我想找到选择关节密度函数的原因。Wikipedia通过使用联合密度函数开始。但是，为什么要使用联合密度函数呢？这就是我一直试图理解的。

— 瑞奇

@haziqRazali MLE的想法是选择估计值，以便使您最有可能给出分布的样本。因此，最大可能性的名称是

— Repmat

1

@HaziqRazali像“为什么最大化可能性”这样的问题是一个新问题（该问题在网站的其他地方已被问及回答）

— Glen_b-恢复莫妮卡

3

为什么不添加？

因为那显然没有任何意义。假设您有一个四分之一和一个镍，并且您想同时翻转它们。该季度有50％的机会上涨，镍有50％的机会上涨。如果两个机会的总和都是总和，那将是100％的机会，这显然是错误的，因为它没有HT，TH和TT的机会。

为什么要相乘？

因为确实有道理。当您将四分之一硬币正面向上的50％几率乘以镍正面数字向上的50％几率时，两枚硬币都正面朝上的概率为0.5 x 0.5 = 0.25 = 25％。假设有四种可能的组合（HH，HT，TH，HT），并且每种可能性均等，则非常合适。在评估两个独立事件均发生的可能性时，我们将其各自的概率相乘。

— 蒙蒂·哈德（Monty Harder）
source

2

I am reading these posts because, like the Original Poster, my need is to understand why the 'Likelihood' fn is the 'Product' of the density of each sample value -'x'. A readable and logical reason is given under the heading Principle of maximum likelihood Ref: [http://www-structmed.cimr.cam.ac.uk/Course/Likelihood/likelihood.html] A further quotation Mathematically, the likelihood is defined as the probability of making the set of measurements (same ref.) In short, the probabilty that you arrived at the sample that you have at hand.

— Genie
source

0

最大似然法的目标是找到估计量，该估计量将观察变量（内生变量）的确定值的概率最大化。这就是为什么我们必须增加发生概率的原因。

例如：假设秘书在一小时内可以接听的电话数量遵循泊松分布。然后，您提取样本的2个值（每小时5个电话和8个电话）现在您必须回答此问题。该参数的值是多少，可以使同时接听5个电话和8个电话的概率最大化？之后，尝试用概率概率回答观察山姆的所有值

由于独立的随机变量，

f（y1 = 5个电话）* f（y2 = 8个电话）= ∏if（y，θ）= L（θ，y1，y2）

最后，尝试回答观察样本所有值的概率。

— 恩佐·卡巴尼亚斯（EnzoCabañas）
source

可能性-为什么要成倍增长？

为什么不添加？

为什么要相乘？