的维基百科页面声称可能性和概率是不同的概念。
在非技术术语中,“可能性”通常是“概率”的代名词,但在统计使用中,在角度上存在明显的区别:在给定一组参数值的情况下,某些观察到的结果的概率的数字被视为给定观测结果的参数值集的可能性。
有人可以更深入地描述这意味着什么吗?另外,一些关于“概率”和“可能性”如何不同的示例将是很好的。
的维基百科页面声称可能性和概率是不同的概念。
在非技术术语中,“可能性”通常是“概率”的代名词,但在统计使用中,在角度上存在明显的区别:在给定一组参数值的情况下,某些观察到的结果的概率的数字被视为给定观测结果的参数值集的可能性。
有人可以更深入地描述这意味着什么吗?另外,一些关于“概率”和“可能性”如何不同的示例将是很好的。
Answers:
答案取决于您要处理离散变量还是连续随机变量。因此,我将相应地拆分答案。我将假设您需要一些技术细节,而不必用普通英语解释。
离散随机变量
假设您有一个采用离散值的随机过程(例如,掷硬币10次的结果,10分钟内到达商店的顾客数量等)。在这种情况下,我们可以通过对潜在的随机过程做出适当的假设来计算观察到特定结果集的概率(例如,硬币落头的概率为,抛硬币的概率是独立的)。
用以及将随机过程描述为的参数集表示观察到的结果。因此,当我们谈论概率时,我们要计算。换句话说,给定特定的值,是我们观察到由表示的结果的概率。
但是,当我们对现实生活中的随机过程进行建模时,我们通常不知道。我们仅观察,然后目标是得出的估计值,鉴于观察到的结果,这将是一个合理的选择。我们知道,给定值,观察到的概率为。因此,“自然”的估算过程是选择值,该值将使我们实际观测到的概率最大化。换句话说,我们找到了最大化以下功能的参数值:
称为似然函数。注意,根据定义,似然函数以观察到的为条件,并且它是未知参数的函数。
连续随机变量
在连续情况下,情况相似,但有一个重要区别。我们不再谈论在给定的情况下观察到的概率,因为在连续情况下。在不涉及技术的情况下,基本思想如下:
将与结果相关的概率密度函数(pdf)表示为:。因此,在连续情况下,我们通过最大化以下函数来估算给定观测结果的:
在这种情况下,我们不能从技术上断言我们在最大化与观察到的结果相关的PDF时发现的参数值使观察到的可能性最大化。
几乎每个人都会回答这种问题,我希望所有的回答都是好的。但是您是数学家,道格拉斯,所以让我提供数学答复。
统计模型必须连接两个不同的概念实体:data(它们是某个集合的元素(例如向量空间))和可能的数据行为定量模型。模型通常由有限维流形,带边界的流形或函数空间上的点表示(后者称为“非参数”问题)。θ
数据通过函数连接到可能的模型。对于任何给定的,旨在作为的概率(或概率密度)。另一方面,对于任何给定的,可以视为的函数,并且通常假定具有某些良好的性质,例如连续第二次微分。以这种方式查看并调用这些假设的意图是通过将称为“可能性” 来宣布的。
这就像微分方程中变量和参数之间的区别:有时我们想研究解(即,我们将变量作为参数),有时我们想研究解如何随参数变化。主要区别在于,在统计学中,我们几乎不需要研究两组参数的同时变化;没有统计对象自然地对应于更改数据和模型参数。这就是为什么您比在类似的数学设置中了解更多有关这种二分法的原因。
由于已经有一些很好的数学解释,因此我将尽力减少对数学的解释。
正如罗宾•吉兰德(Robin Girand)指出的,概率和可能性之间的差异与概率和统计量之间的差异密切相关。从某种意义上说,概率和统计自己关心的是彼此相反或相反的问题。
考虑抛硬币。(我的答案将与Wikipedia上的示例1相似。)如果我们知道硬币是公平的(),则典型的概率问题是:连续获得两个正面的概率是多少。答案是。P (H H )= P (H )× P (H )= 0.5 × 0.5 = 0.25
一个典型的统计问题是:硬币是否公平?为了回答这个问题,我们需要问:我们的样本在多大程度上支持我们的假设,即?
要注意的第一点是,问题的方向已经颠倒了。在概率中,我们从假定的参数()开始,并估计给定样本(连续两个头)的概率。在统计中,我们从观察(连续两个头)开始,对我们的参数进行推断()。p = P (H )= 1 - P (T )= 1 - q
Wikipedia上的示例1向我们展示了连续2个头之后的最大似然估计为。但是数据绝不能排除真正的参数值(此刻我们不在乎细节)。实际上,在(硬币两次抛出)之后,只有非常小的值,特别是可以合理地消除。在第三次掷出尾巴之后,我们现在可以消除(即它不是两头硬币)的可能性,但是数据之间的大多数值可以合理地支持p M L E = 1 p (H )= 0.5 p (H )p (H )= 0 n = 2 P (H )= 1.0 p (H )。(的精确二项式95%置信区间为0.094至0.992。
经过100次抛硬币和(例如)70次抛掷,我们现在有一个合理的依据可以怀疑硬币实际上是不公平的。现在的准确95%CI 为0.600至0.787,并且在给定情况下,从100次抛掷中观察到极端结果为70个或更多头(或尾)的概率为0.0000785。p (高)= 0.5
尽管我没有明确使用似然计算,但本示例捕捉了似然的概念:似然是度量样本在多大程度上支持参数模型中参数的特定值的度量。
我将从费舍尔(Fisher)提出的似然理论的角度为您提供观点-也是引用的Wikipedia文章中统计定义的基础。
假设您有一个随机变量,它由参数化分布,其中是表征的参数。则的概率为:,且已知。
更常见的是,您有数据而是未知的。给定假设的模型,似然度被定义为观测数据的概率作为的函数:。注意,是已知的,但是是未知的;实际上,定义可能性的动机是确定分布的参数。
虽然好像我们只是重新写的概率函数,这样一个关键结果是似然函数并没有服从概率法则(例如,它不绑定到[0,1]区间内)。但是,似然函数与观测数据的概率成正比。
这种可能性的概念实际上导致了另一种思想流派,即“似然论者”(不同于惯常论者和贝叶斯论者),您可以在Google上搜索所有各种历史性辩论。基石是似然性原则,该原则本质上说我们可以直接从似然函数执行推断(贝叶斯或频繁主义者都不接受此推断,因为它不是基于概率的推断)。如今,学校中许多被称为“常客”的东西实际上是常客和可能性思维的结合体。
为了获得更深刻的见识,爱德华兹的《可能性》是一个不错的起点和历史参考。对于现代人来说,我推荐理查德·罗亚尔(Richard Royall)的精彩专着《统计证据:可能性范式》。
鉴于以上所有出色的技术答案,让我重新回到语言上:概率量化了对预期的期望(结果),似然性量化了信任(在模型中)。
假设有人向我们挑战“可盈利的赌博游戏”。然后,概率将帮助我们计算预期的收益和损失情况(均值,众数,中位数,方差,信息比率,风险价值,赌徒破产等等)。相反,似然性将帮助我们量化我们是否首先信任那些概率。还是我们“闻老鼠”。
顺便说一句-由于上面提到了统计学的信仰-我认为似然比是贝叶斯世界以及常客主义的组成部分:在贝叶斯世界中,贝叶斯公式只是将先验与似然相结合而产生后验。
如果我有一个公平的硬币(参数值),那么它出现的概率为0.5。如果我掷一枚硬币100次并且朝正面飞了52次,那么它很可能是公平的(可能性的数值可能采取多种形式)。
可以从两个角度看:
通常,此表达式仍然是其两个参数的函数,因此它只是一个强调问题。
就我而言,最重要的区别是可能性不是的概率。
在一个估计问题中,给出X,似然性 描述X的分布而不是。也就是说,是没有意义的,因为似然度不是的pdf ,尽管它确实在某种程度上表征了。
您知道电视连续剧“ num3ers”的飞行员吗?在该节目中,FBI试图找到似乎是随机选择受害者的连环犯罪分子的家园?
FBI的数学顾问和代理人的兄弟以最大似然法解决了该问题。首先,他假设如果犯罪分子居住在位置,则犯罪发生在位置处的“ gugelhupf形” 概率 。(该奶油圆蛋糕的假设是,犯罪既不犯罪在他的近邻,也没有前往远无比的选择自己的下一个随机的受害者。)这个模型描述的概率为不同的给出一个固定的。换句话说,是具有固定参数的的函数。
当然,联邦调查局不知道罪犯的住所,也不希望预测下一个犯罪现场。(他们希望首先找到罪犯!)反之,FBI已经知道犯罪现场并想找到罪犯的住所。
所以FBI特工的辉煌哥哥,试图找到最有可能 所有可能值之中,即最大化为实际观测到的。因此,他现在将视为具有固定参数的的函数。形象地说,他在地图上四处张望,直到它最佳地“适合”了已知的犯罪现场。然后,FBI敲开古格尔胡普夫中心的门。
要强调的透视这种变化,被称为似然的(功能),而是概率的(功能)。两者实际上都是相同的函数但从不同的角度来看,并且和将其角色转换为变量和参数。θ p θ(X )X p (X | θ )X θ