我想知道统计中是否曾经使用过最大似然估计。我们学习了它的概念,但我不知道它何时实际使用。如果我们假设数据的分布,我们会找到两个参数,一个用于平均值,一个用于方差,但是您实际在实际情况下使用它吗?
有人可以告诉我一个简单的例子吗?
我想知道统计中是否曾经使用过最大似然估计。我们学习了它的概念,但我不知道它何时实际使用。如果我们假设数据的分布,我们会找到两个参数,一个用于平均值,一个用于方差,但是您实际在实际情况下使用它吗?
有人可以告诉我一个简单的例子吗?
Answers:
我想知道统计中是否曾经使用过最大似然估计。
当然!实际上很多-但并非总是如此。
我们学习了它的概念,但我不知道它何时实际使用。
当人们拥有参数分布模型时,他们通常会选择使用最大似然估计。当模型正确时,最大似然估计器将具有许多方便的属性。
举一个例子-广义线性模型的使用非常普遍,在这种情况下,描述均值的参数由最大似然估计。
可能会发生某些参数是通过最大似然估计的,而另一些则不是。例如,考虑过度分散的Poisson GLM -不能通过最大似然来估计分散参数,因为在这种情况下MLE没有用。
如果我们假设数据的分布,我们找到两个参数
好吧,有时您可能有两个,但是有时您有一个参数,有时是三个或四个或更多。
一个用于均值,另一个用于方差,
您是否正在考虑某个特定模型?这并非总是如此。考虑估计指数分布,泊松分布或二项式分布的参数。在每种情况下,都有一个参数,方差是描述平均值的参数的函数。
或考虑具有三个参数的广义伽玛分布。或四参数beta分布,它具有(也许不足为奇)四个参数。还应注意,(取决于特定的参数设置)平均值或方差或两者均可能不是由单个参数表示,而是由多个参数的函数表示。
例如,伽玛分布,其中三个参数化具有相当普遍的用途- 两种最常见它们具有的均值和方差都是两个参数的函数。
通常,在回归模型,GLM或生存模型(包括许多其他模型类型)中,模型可能取决于多个预测变量,在这种情况下,与该模型下每个观察值相关的分布可能具有其自己的参数之一(或甚至与许多预测变量(“独立变量”)相关的参数。
考虑到数据分布的假设,虽然最大似然估计器看起来有些可疑,但通常使用拟最大似然估计器。这个想法是从假设分布开始并求解MLE,然后删除显式的分布假设,而是查看估算器在更一般的条件下的性能。因此,准MLE只是成为获得估算器的一种聪明方法,然后大量工作便推导出了估算器的属性。由于丢弃了分布假设,因此准MLE通常没有良好的效率属性。
作为玩具例子,假设有一个独立同分布样本,并且您想要一个X的方差的估计量。你可以通过假设开始X 〜Ñ (μ ,σ 2),使用正常的PDF写的可能性,并且求解argmax以获得σ 2 = Ñ - 1 Σ (X 我 - ˉ X)2。然后我们可以问一些问题,例如在什么条件下一致的估计,是公正的(它不是),是N叉一致的,什么是它的asypmtotic分配等
最大似然估计通常在机器学习中用于训练:
请注意,在某些情况下,您倾向于添加一些正则化,有时它等效于最大后验估计,例如,为什么套索罚分等于先验的双指数(Laplace)?。
有人可以告诉我一个简单的例子吗?
一个非常典型的例子是逻辑回归。逻辑回归是机器学习中常用的一种对数据点进行分类的技术。例如,逻辑回归可以用于对电子邮件是否为垃圾邮件进行分类或对某人是否患有疾病进行分类。
具体地说,逻辑回归模型说的是数据点的概率 在第1类中的内容如下:
The parameter vector is typically estimated using MLE.
Specifically, using optimization methods, we find the estimator such that the expression is minimized. This expression is the negative log likelihood, so minimizing this is equivalent to maximizing the likelihood.
We are using MLE all the time, but we may not feel it. I will give two simple examples to show.
Example 1
If we observe coin flip result, with head out of flips (assuming iid. from Bernoulli), how to guess the parameter (prob of head) of the coin? We may say , using "counting".
Why use counting? this is actually implicitly using MLE! Where the problem is
To solve the equation, we will need some calculus, but the conclusion is counting.
Example 2
How would we estimate a Gaussian distribution parameters from data? We use empirical mean as estimated mean and empirical variance as estimated variance, which is also coming from MLE!.