Questions tagged «likelihood»

给定一个随机变量 X由参数化分布,似然度定义为观测数据作为的函数的概率F(X;θ)θ:L(θ)=P(θ;X=x)

10
“可能性”和“概率”之间有什么区别?
的维基百科页面声称可能性和概率是不同的概念。 在非技术术语中,“可能性”通常是“概率”的代名词,但在统计使用中,在角度上存在明显的区别:在给定一组参数值的情况下,某些观察到的结果的概率的数字被视为给定观测结果的参数值集的可能性。 有人可以更深入地描述这意味着什么吗?另外,一些关于“概率”和“可能性”如何不同的示例将是很好的。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


4
如果负可能性等于可能性的最大值,为什么我们要使其最小呢?
这个问题困扰了我很长时间。我了解使用“对数”来最大程度地提高可能性,所以我不问“对数”。 我的问题是,由于最大化对数可能性等于最小化“负对数可能性”(NLL),为什么我们要发明这种NLL?为什么我们不一直使用“阳性可能性”?NLL在什么情况下受到青睐? 我在这里找到了一些解释。https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/,它似乎在深度上解释了明显的等效性,但并不能解决我的困惑。 任何解释将不胜感激。


9
人们为什么使用p值而不是计算给定数据的模型概率?
粗略地说,p值给出了在给定假设(模型)的情况下观察到的实验结果的概率。有了这个概率(p值),我们想判断我们的假设(可能性有多大)。但是,鉴于观察到的结果,计算假设的概率不是更自然吗? 在更多细节。我们有一枚硬币。我们翻转它20次,得到14个头(20个中的14个是我所说的“实验结果”)。现在,我们的假设是硬币是公平的(头和尾的概率彼此相等)。现在,我们计算p值,该值等于在20次硬币翻转中获得14个或更多正面的概率。好的,现在我们有了这个概率(0.058),我们想用这个概率来判断我们的模型(我们有一个公平的硬币的可能性如何)。 但是,如果我们想估计模型的概率,为什么不给定实验就计算模型的概率呢?为什么在给定模型(p值)的情况下计算实验的概率?

3
如何严格定义可能性?
可能性可以通过几种方式定义,例如: 功能LLL从Θ×XΘ×X\Theta\times{\cal X}其中映射(θ,x)(θ,x)(\theta,x)到L(θ∣x)L(θ∣x)L(\theta \mid x)即L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} 。 随机函数L(⋅∣X)L(⋅∣X)L(\cdot \mid X) 我们也可以认为,可能是只有“观察”的可能性L(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) 在实践中,似然性仅将关于信息θθ\theta带到一个乘性常数,因此我们可以将似然性视为函数的等价类,而不是函数 考虑参数化的变化时,会发生另一个问题是:如果ϕ=θ2ϕ=θ2\phi=\theta^2是新的参数,我们通常表示由L(ϕ∣x)L(ϕ∣x)L(\phi \mid x)上的可能性ϕϕ\phi和这不是先前的功能的评价L(⋅∣x)L(⋅∣x)L(\cdot \mid x)在θ2θ2\theta^2但在ϕ−−√ϕ\sqrt{\phi}。这是一种滥用但有用的表示法,如果不加以强调,可能会给初学者造成困难。 您最喜欢的可能性的严格定义是什么? 另外你怎么骂L(θ∣x)L(θ∣x)L(\theta \mid x)?我通常会说“ 观察x时的可能性”之类的话。θθ\thetaxxx 编辑:鉴于下面的一些评论,我意识到我应该弄清楚上下文。我考虑一个参数的家庭给一个统计模型{f(⋅∣θ),θ∈Θ}{f(⋅∣θ),θ∈Θ}\{f(\cdot \mid \theta), \theta \in \Theta\}密度相对于一些占主导地位的措施,每个f(⋅∣θ)f(⋅∣θ)f(\cdot \mid \theta)对观测的空间定义XX{\cal X}。因此我们定义L(θ∣x)=f(x∣θ)L(θ∣x)=f(x∣θ)L(\theta \mid x)=f(x \mid \theta),问题是“什么是LLL ?”(问题不是关于可能性的一般定义)

3
Fisher信息是什么信息?
假设我们有一个随机变量X〜˚F(x | θ )X〜F(X|θ)X \sim f(x|\theta)。如果θ0θ0\theta_0是真正的参数,则所述似然函数应最大化和衍生物等于零。这是最大似然估计器背后的基本原理。 据我了解,费舍尔信息被定义为 一世(θ )= E [ (∂∂θF(X| θ))2]一世(θ)=Ë[(∂∂θF(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] 因此,如果θ0θ0\theta_0是真实参数,一世(θ )= 0一世(θ)=0I(\theta) = 0。但如果θ0θ0\theta_0是不是真正的参数,那么我们将有费希尔信息量更大。 我的问题 Fisher信息是否衡量给定MLE的“错误”?换句话说,是否存在积极的Fisher信息并不意味着我的MLE不够理想? “信息”的定义与Shannon使用的定义有何不同?我们为什么称其为信息?

3
经验似然的一些说明性应用是什么?
我听说过欧文的经验可能性,但是直到最近我才对它感兴趣,直到我在一篇感兴趣的论文中碰到了它(Mengersen等,2012)。 在我的努力去理解它,我已经收集所观察到的数据的似然性被表示为L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x) ,其中∑ipi=1∑ipi=1\sum_i p_i = 1且pi>0pi>0p_i > 0。 但是,我无法在将这种表示法与如何用于对观察结果进行推论的连接上进行精神上的飞跃。也许我太扎根于考虑模型的似然参数? 无论如何,我一直在Google学术搜索中寻找一些采用经验可能性的论文,这些论文将有助于我将这个概念内化……无济于事。显然,有Art Owen的《Empirical Likelihood》一书,但Google图书遗漏了所有可口的东西,而且我在图书馆之间借阅的过程仍很缓慢。 同时,有人可以请我指出清楚说明经验可能性的前提以及如何应用的论文吗?EL本身的说明性描述也将受到欢迎!

5
维基百科关于可能性的条目似乎模棱两可
我有一个关于“条件概率”和“可能性”的简单问题。(我已经在这里调查了这个问题,但无济于事。) 它从可能性的Wikipedia 页面开始。他们说: 的似然性的一组参数值中的,,给出的结果,等于所给出的那些参数值的那些观察到的结果的概率,也就是Xθθ\thetaxxx 大号(θ|X)=P(X | θ )L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) 大!因此,用英语,我这样读:“在给定数据X = x(左侧)的情况下,参数等于theta的可能性等于在给定参数的情况下数据X等于x的可能性。等于theta”。(粗体是我的重点)。 但是,在同一页面上,不少于3行,然后Wikipedia条目继续说: 假设是一个随机变量,其随机变量 p取决于参数\ theta。然后功能XXXpppθθ\theta 大号(θ|X)= pθ(x )= Pθ(X= x ),L(θ∣x)=pθ(x)=Pθ(X=x),\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x), \, 被认为是\ theta的函数的函数θθ\theta被称为似然函数(\ theta的似然函数θθ\theta,给定随机变量 X的结果x)。有时,参数值\ theta的X值x的概率表示为P(X = x \ mid \ theta);通常写为P(X = x; \ …

1
从MCMC样本计算边际可能性
这是一个反复出现的问题(请参阅本文,本文和文章),但是我有不同的看法。 假设我有一堆来自通用MCMC采样器的采样。对于每个样本,我知道对数似然和对数在先。如果有帮助,我也知道每个数据点的对数似然值\ log f(x_i | \ theta)(此信息对某些方法(例如WAIC和PSIS-LOO)有所帮助)。θθ\thetalogf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta)logf(θ)log⁡f(θ)\log f(\theta)logf(xi|θ)log⁡f(xi|θ)\log f(x_i | \theta) 我想仅凭我拥有的样本以及可能的其他一些功能评估(但不重新运行即席 MCMC)来获得(粗略)边际可能性的估计。 首先,让我们清除表。众所周知,谐波估计器是有史以来最差的估计器。让我们继续前进。如果使用封闭形式的先验和后验进行Gibbs采样,则可以使用Chib方法。但是我不确定如何在这些情况之外进行概括。还有一些方法需要您修改采样过程(例如通过回火的后验者),但是我对此并不感兴趣。 我正在考虑的方法包括用参数(或非参数)形状g(\ theta)近似基础分布g(θ)g(θ)g(\theta),然后将归一化常数ZZZ视为一维优化问题(即,使某些误差最小的ZZZ之间Zg(θ)Zg(θ)Z g(\theta)和f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)评价对样品)。在最简单的情况下,假设后验近似为多元法线,我可以将g(\ theta)拟合g(θ)g(θ)g(\theta)为多元法线,并得到类似于拉普拉斯近似的东西(我可能想使用一些其他函数求值来细化位置模式)。但是,我可以将其用作g(θ)g(θ)g(\theta)更灵活的族,例如多元ttt分布的变体混合。 我知道只有在Zg(θ)Zg(θ)Z g(\theta)是f(\ textbf {x} | \ theta)f(\ theta)的合理近似值的情况下,此方法才有效f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta),但是任何理由或谨慎的说法对于为什么这样做都是非常不明智的会吗 您会建议阅读吗? 完全非参数方法使用一些非参数族,例如高斯过程(GP),来近似logf(x|θ)+logf(θ)log⁡f(x|θ)+log⁡f(θ)\log f(\textbf{x}|\theta) + \log f(\theta)(或其一些其他非线性变换,例如(作为平方根)和贝叶斯正交,以隐式集成基础目标(请参见此处和此处)。这似乎是一种有趣的替代方法,但在精神上是类似的(另请注意,就我而言,全科医生会很笨拙)。

5
贝叶斯定理直觉
我一直在尝试根据先验,后验,似然和边际概率对贝叶斯定理进行基于直觉的理解。为此,我使用以下等式: 其中代表假设或信念,代表数据或证据。 我已经了解了后验的概念-它是一个结合了先验信念和事件可能性的统一实体。我不明白的是什么呢的可能性,意味着什么?为什么边际 ABP(B | A )= P(A | B )P(B )P(一)P(乙|一种)=P(一种|乙)P(乙)P(一种)P(B|A) = \frac{P(A|B)P(B)}{P(A)}一种一种A乙乙B分母中的概率? 在回顾了一些资源之后,我发现了这句话: 的似然性是事件的重量通过的发生给定 ...是后验事件的概率,假定事件已经发生。A P (B | A )B A乙乙B一种一种AP(B | A )P(乙|一种)P(B|A)乙乙B一种一种A 以上2句话对我来说似乎是相同的,只是写法不同。谁能解释一下两者之间的区别?

3
Frequentist和Bayesian在“可能性”的定义上有什么区别吗?
有些资料说似然函数不是条件概率,有些则说是。这让我很困惑。 根据我所见的大多数资料,给定样本,具有参数的分布的可能性应该是概率质量函数的乘积:θθ\thetannnxixix_i L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta) 例如,在Logistic回归中,我们使用优化算法来最大化似然函数(最大似然估计),以获得最优参数,从而获得最终的LR模型。给定我们假设彼此独立的训练样本,我们希望最大化概率乘积(或联合概率质量函数)。这对我来说似乎很明显。nnn 根据“ 可能性,条件概率和失败率之间的关系 ”,“可能性不是概率,也不是条件概率”。它还提到:“仅在贝叶斯对似然性的理解中,即,如果假设是随机变量,那么似然性就是条件概率。”θθ\theta 我读到了关于在常客和贝叶斯之间对待学习问题的不同观点。 根据消息来源,对于贝叶斯推断,我们具有先验,似然性,并且我们希望使用贝叶斯定理获得后验:P(θ)P(θ)P(\theta)P(X|θ)P(X|θ)P(X|\theta)P(θ|X)P(θ|X)P(\theta|X) P(θ|X)=P(X|θ)×P(θ)P(X)P(θ|X)=P(X|θ)×P(θ)P(X)P(\theta|X)=\dfrac{P(X|\theta) \times P(\theta)}{P(X)} 我不熟悉贝叶斯推理。为什么P(X|θ)P(X|θ)P(X|\theta),其是在它的参数条件所观察到的数据的分发,也被称为可能性有多大?在Wikipedia中,它说有时写成L(θ|X)=p(X|θ)L(θ|X)=p(X|θ)L(\theta|X)=p(X|\theta)。这是什么意思? Frequentist和Bayesian对可能性的定义之间有区别吗? 谢谢。 编辑: 解释贝叶斯定理的方法有多种-贝叶斯定理和惯常论的解释(请参阅:贝叶斯定理-维基百科)。

6
后验与先验和可能性大不相同
如果先验和可能性彼此之间非常不同,则有时会发生后验与两者都不相似的情况。例如,请参阅此图片,它使用正态分布。 尽管从数学上讲这是正确的,但是这似乎与我的直觉不符-如果数据与我坚信不移的信念或数据不符,我希望这两个范围都不会表现良好,并且期望后验整个范围或围绕先验和可能性的双峰分布(我不确定哪个更合乎逻辑)。我当然不会期望在既不符合我先前的信念也不符合数据的范围内出现后紧态。我知道随着收集到更多数据,后验将朝着可能性发展,但是在这种情况下,这似乎是违反直觉的。 我的问题是:我对这种情况的理解是有缺陷的(还是有缺陷的)。在这种情况下,后验函数是否正确?如果没有,还可以如何建模? 为了完整性起见,先验被指定为,似然度被指定为。N(μ = 6.1 ,σ = 0.4 )ñ(μ = 1.5 ,σ= 0.4 )N(μ=1.5,σ=0.4)\mathcal{N}(\mu=1.5, \sigma=0.4)ñ(μ = 6.1 ,σ= 0.4 )N(μ=6.1,σ=0.4)\mathcal{N}(\mu=6.1, \sigma=0.4) 编辑:看一些给出的答案,我觉得我没有很好地解释这种情况。我的观点是,鉴于模型中的假设,贝叶斯分析似乎会产生非直觉的结果。我的希望是,后验将以某种方式“解释”错误的建模决策,但考虑到这一点绝对不是这种情况。我将在回答中对此进行扩展。

1
将很小的似然值转换(归一化)为概率
我正在编写一种算法,在给定模型的情况下,我计算一组数据集的似然度,然后需要对每种似然度进行标准化(以概率表示)。因此[0.00043,0.00004,0.00321]之类的内容可能会转换为[0.2,0.03,0.77]之类的内容。 我的问题是,我正在使用的对数可能性很小(例如,在对数空间中,值类似于-269647.432,-231444.981等)。在我的C ++代码中,当我尝试添加两个(通过采用它们的指数)时,得到的答案是“ Inf”。我试图将它们添加到日志空间(日志的加法/减法)中,但是再次遇到相同的问题。 谁能对此发表自己的见解?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.