Questions tagged «likelihood»

给定一个随机变量 X由参数化分布,似然度定义为观测数据作为的函数的概率F(X;θ)θ:L(θ)=P(θ;X=x)

5
可能性原则“确实”重要的示例?
是否有一个例子,两个具有成比例可能性的不同可辩证检验会导致一个明显不同(且同样可辩驳)的推论,例如,p值相差一个数量级,但替代方法的功效却相似? 我看到的所有示例都是非常愚蠢的,将二项式与否定二项式进行比较,第一个的p值为7%,第二个3%的p值是“不同的”,仅在对任意阈值做出二元决策的范围内显着性(例如5%)(顺便说一句,这是一个相当低的推论标准),甚至不用费心去看能力。例如,如果我将阈值更改为1%,则两者都会得出相同的结论。 我从未见过一个示例,它会导致明显不同且可辩驳的推断。有这样的例子吗? 我之所以问是因为,我已经在这个主题上花了很多笔墨,好像“可能性原则”是统计推断基础中的基本要素。但是,如果最好的例子是像上面的例子那样愚蠢的例子,则该原理似乎完全无关紧要。 因此,我正在寻找一个非常有说服力的示例,其中如果不遵循LP,则证据权重将在给定一项检验的情况下绝大多数指向一个方向,而在另一种具有成比例可能性的检验中,证据权重将压倒性地指向相反的方向,这两个结论看起来都是明智的。 理想情况下,一个能证明我们可以有任意相距甚远,但是合理的,解答,诸如与测试p=0.1p=0.1p =0.1与p=10−10p=10−10p= 10^{-10}具有比例似然和等效功率,以检测相同的替代。 PS:布鲁斯的答案根本没有解决这个问题。

2
如果似然性原则与频繁出现的可能性发生冲突,那么我们是否丢弃其中之一?
在最近发表在这里的评论中,有一位评论者指向拉里·瓦瑟曼(Larry Wasserman)的博客,他指出(没有任何消息来源),频繁推断与似然原理相冲突。 似然原理简单地说,产生相似似然函数的实验应产生相似的推论。 这个问题分为两部分: 频繁推断的哪些部分,风格或派别特别违反似然性原则? 如果发生冲突,我们是否必须丢弃其中一个?如果是这样,那是哪一个?我会为就事论事表明,如果我们要丢弃的东西那么我们应该抛弃频率论者推断其冲突的部分,因为黑客和罗亚尔使我确信,可能性的原则是不言自明的。

1
轮廓可能性的缺点是什么?
考虑参数的向量,其中是目标参数,而是令人讨厌的参数。θ 1 θ 2(θ1个,θ2)(θ1,θ2)(\theta_1, \theta_2)θ1个θ1\theta_1θ2θ2\theta_2 如果是根据数据构造的似然度,则的轮廓似然度定义为其中是的MLE,固定值为。X θ 1个大号P(θ 1 ; X )= 大号(θ 1,θ 2(θ 1); X )θ 2(θ 1)θ 2 θ 1大号(θ1个,θ2; X )L(θ1,θ2;x)L(\theta_1, \theta_2 ; x)Xxxθ1个θ1\theta_1大号P(θ1个; x )= L (θ1个,θ^2(θ1个); X )LP(θ1;x)=L(θ1,θ^2(θ1);x)L_P(\theta_1 ; x) = L(\theta_1, \hat{\theta}_2(\theta_1) ; x)θ^2(θ1个)θ^2(θ1) \hat{\theta}_2(\theta_1)θ2θ2\theta_2θ1个θ1\theta_1 ∙∙\bullet关于的轮廓似然最大化会导致与相同的估计,而后者是同时通过关于和的似然最大化而获得的。θ 1 θ 1 θ 2θ1个θ1\theta_1θ^1个θ^1\hat{\theta}_1θ1个θ1\theta_1θ2θ2\theta_2 ∙∙\bullet我认为的标准偏差也可以根据轮廓似然的二阶导数来估算。θ^1个θ^1\hat{\theta}_1 ∙∙\bullet的似然统计量可以用轮廓似然表示:。H0:θ1个= …

5
在实践中,“仅根据比例的乘法常数来定义可能性”是什么意思?
我正在阅读一篇论文,作者从最大似然估计的讨论到贝叶斯定理,似乎是对初学者的介绍。 作为一个可能性示例,它们从二项分布开始: p(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} 然后登录双方 ℓ(θ|x,n)=xln(θ)+(n−x)ln(1−θ)ℓ(θ|x,n)=xln⁡(θ)+(n−x)ln⁡(1−θ)\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta) 具有以下基本原理: “因为可能性仅被定义为比例的乘性常数(或对数似然的加性常数),所以我们可以通过降低二项式系数并写出对数似然来代替似然来重新定标。” 数学上是有道理的,但我不明白“似然仅定义为比例乘性常数”的含义,以及这如何使二项式系数下降并从变为\ ell(\ theta | x,n)。p(x|n,θ)p(x|n,θ)p(x|n,\theta)ℓ(θ|x,n)ℓ(θ|x,n)\ell(\theta|x,n) 在其他问题(此处和此处)中也出现了类似的术语,但实际上仍不清楚可能的定义是什么,或者使信息达到可乘的常数。有可能用外行的术语解释吗?

4
使用对数似然比与可能性的理论动机
我试图在更深层次上理解统计和概率论中对数似然性(也许更一般地说对数概率)的普遍性。对数概率随处可见:我们通常使用对数似然进行分析(例如,最大化),Fisher信息是根据对数似然的二阶导数定义的,熵是预期的对数概率,Kullback-Liebler散度涉及对数概率,预期差异是预期对数可能性,等等。 现在,我感谢许多实际和方便的原因。许多常见和有用的pdf都来自指数族,这在对数转换时会导致术语的简化。总和比产品更容易使用(尤其是用于区分)。对数概率比直概率有很大的浮点优势。对数转换pdf通常会将非凹函数转换为凹函数。但是对数概率的理论原因/合理性/动机是什么? 作为我困惑的一个示例,请考虑Fisher信息(FI)。理解FI的通常解释是对数似然率的二阶导数告诉我们对数似然率有多“峰值”:对数似然率高度峰值意味着MLE已得到很好的指定,我们相对确定其价值,尽管近似平坦的对数似然(低曲率)意味着许多不同的参数值(就对数似然而言)几乎与MLE一样好,所以我们的MLE更加不确定。 这一切都很好,但是仅仅找到似然函数本身的曲率(不进行对数转换)是否更自然?乍一看,对数转换的强调似乎是任意和错误的。当然,我们对实际似然函数的曲率更感兴趣。Fisher使用计分函数和对数似然的Hessian的动机是什么? 答案是否简单,最后,我们从对数似然渐近地得到了不错的结果?例如,Mram /后部的Cramer-Rao和正态性。还是有更深层次的原因?

4
当我们通常使用无信息或主观先验时,贝叶斯框架在解释方面如何更好?
人们经常认为贝叶斯框架在解释(相对于频繁主义者)方面具有很大的优势,因为贝叶斯框架在给定数据而不是频繁主义者框架中的p (x | θ )的情况下计算参数的概率。到目前为止,一切都很好。p (θ | x )p(θ|X)p(\theta|x)p (x | θ )p(X|θ)p(x|\theta) 但是,整个方程式基于: p (θ | x )= p (x | θ )。p (θ )p (x )p(θ|X)=p(X|θ)。p(θ)p(X)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} 在我看来有点可疑,原因有两个: 在许多论文中,通常使用无信息的先验(均匀分布),然后仅使用,因此贝叶斯算法与常客得到的结果相同-那么贝叶斯框架如何更好地解释,当贝叶斯后验概率和常客概率是相同的分布时?它只是产生相同的结果。p (θ | x )= p (x | θ )p(θ|X)=p(X|θ)p(\theta|x) = p(x|\theta) 当使用信息先验时,您会得到不同的结果,但是贝叶斯方法受主观先验的影响,因此整个也具有主观色彩。p (θ | …

1
有关似然原理的问题
我目前尝试理解似然原理,但坦率地说我根本不懂。因此,即使这些问题可能是非常基本的问题,我也会将所有问题写成列表。 在此原则的上下文中,“所有信息”一词到底意味着什么?(就像样本中的所有信息都包含在似然函数中一样。) 该原理是否以某种可证明的事实与p(x|y)∝p(y|x)p(x)p(x|y)∝p(y|x)p(x)p(x|y)\propto p(y|x)p(x)?原则上的“可能性”与p(y|x)p(y|x)p(y|x)是否相同? 数学定理怎么会是“有争议的”?我对数学的(弱)理解是,一个定理要么被证明,要么未被证明。似然原理属于哪一类? 基于公式的贝叶斯推理对似然原理有何重要性?p(x|y)∝p(y|x)p(x)p(x|y)∝p(y|x)p(x)p(x|y)\propto p(y|x)p(x)

2
比较模型及其对数转换版本的AIC
我的问题的实质是: 让Y∈RnY∈RnY \in \mathbb{R}^n与平均值的多元正态随机变量μμ\mu和协方差矩阵ΣΣ\Sigma。让Z:=log(Y)Z:=log⁡(Y)Z := \log(Y),即Zi=log(Yi),i∈{1,…,n}Zi=log⁡(Yi),i∈{1,…,n}Z_i = \log(Y_i), i \in \{1,\ldots,n\}。如何比较适合观察到的实现模型的AIC YYY与适合观察到的实现模型的AIC ZZZ? 我最初的问题和稍长的问题: 让Y∼N(μ,Σ)Y∼N(μ,Σ)Y \sim \mathcal{N}(\mu,\Sigma)是一个多变量正态随机变量。如果我想比较适合于YYY的模型与适合对的模型log(Y)log⁡(Y)\log(Y),可以看看它们的对数似然性。但是,由于这些模型不是嵌套的,因此我无法直接比较对数可能性(以及诸如AIC之类的东西),但必须对其进行转换。 我知道如果X1,…,XnX1,…,XnX_1,\ldots,X_n是具有联合pdf 随机变量,g(x1,…,xn)g(x1,…,xn)g(x_1,\ldots,x_n)并且Yi=ti(X1,…,Xn)Yi=ti(X1,…,Xn)Y_i = t_i(X_1,\ldots,X_n)进行一对一转换titit_i和i∈{1,…,n}i∈{1,…,n}i \in \{1,\ldots,n\},则PDF的Y1,…,YnY1,…,YnY_1,\ldots,Y_n其中 J是与变换关联的雅可比行列式。f(y1,…,yn)=g(t−11(y),…,t−1n(y))det(J)f(y1,…,yn)=g(t1−1(y),…,tn−1(y))det(J)f(y_1,\ldots,y_n)=g(t_1^{-1}(y),\ldots,t_n^{-1}(y))\det(J)JJJ 我是否只需要使用转换规则进行比较 到 l (log (Y ))= log (n ∏ i = 1 ϕ (log (y i); μ ,Σ ))l(Y)=log(∏i=1nϕ(yi;μ,Σ))l(Y)=log⁡(∏i=1nϕ(yi;μ,Σ))l(Y) = \log(\prod_{i=1}^{n}\phi(y_i;\mu,\Sigma))l(log(Y))=log(∏i=1nϕ(log(yi);μ,Σ))l(log⁡(Y))=log⁡(∏i=1nϕ(log⁡(yi);μ,Σ))l(\log(Y))=\log(\prod_{i=1}^{n}\phi(\log(y_i);\mu,\Sigma)) 还是我还能做些什么? [edit]忘记将对数放在最后两个表达式中。

2
一个具有极高可能性的真正简单模型的例子将是什么?
近似贝叶斯计算是一种非常酷的技术,适用于基本上所有随机模型,适用于似然性难以解决的模型(例如,如果您固定了参数但无法通过数值,算法或分析方法来计算似然性,则可以从模型中进行采样)。当向观众介绍近似贝叶斯计算(ABC)时,最好使用一些示例模型,该模型非常简单,但仍然有些有趣,并且具有难以克服的可能性。 一个非常简单的模型仍然有难以解决的可能性,这将是一个很好的例子吗?

3
为单变量指数Hawkes过程寻找MLE
单变量指数霍克斯过程是一个自激点过程,事件到达率为: λ(t)=μ+∑ti&lt;tαe−β(t−ti)λ(t)=μ+∑ti&lt;tαe−β(t−ti) \lambda(t) = \mu + \sum\limits_{t_i<t}{\alpha e^{-\beta(t-t_i)}} 其中是事件的到达时间。t1,..tnt1,..tn t_1,..t_n 对数似然函数为 −tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln(μ+αe−β(tj−ti))−tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln⁡(μ+αe−β(tj−ti)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum\limits_{i<j}{\ln(\mu+\alpha e^{-\beta(t_j-t_i)})} 可以递归计算: −tnμ+αβ∑(e−β(tn−ti)−1)+∑ln(μ+αR(i))−tnμ+αβ∑(e−β(tn−ti)−1)+∑ln⁡(μ+αR(i)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum{\ln(\mu+\alpha R(i))} R(i)=e−β(ti−ti−1)(1+R(i−1))R(i)=e−β(ti−ti−1)(1+R(i−1)) R(i) = e^{-\beta(t_i-t_{i-1})} (1+R(i-1)) R(1)=0R(1)=0 R(1) = 0 我可以使用什么数值方法找到最大似然法?最简单的实用方法是什么?

2
我们常客真的是隐性/不了解贝叶斯主义者吗?
对于给定的推理问题,我们知道贝叶斯方法通常在形式和结果上都不同于后继方法。经常有人(通常包括我在内)经常指出,他们的方法不需要先验,因此更多是“数据驱动”而不是“判断驱动”。当然,贝叶斯定律可以指向非信息性先验,或者说是实用的,只使用一个真正的分散先验。 我的担忧,尤其是在对惯常的客观性感到自鸣得意之后,尤其是我声称的“客观”方法可以在贝叶斯框架中提出,尽管有一些不同寻常的先验和数据模型。在那种情况下,我只是幸福地对荒谬的先验知识一无所知,并且仿照我的常客主义方法所暗示的那样吗? 如果贝氏指出,这样的提法,我想,我的第一反应是说“嗯,这是很好的,你可以这样做,但我怎么这不是想这个问题!”。但是,谁在乎我如何看待它或如何制定它。如果我的程序在统计学上/数学上等效于某些贝叶斯模型,那么我隐式地(不经意间!)执行贝叶斯推断。 下面的实际问题 这种认识大大破坏了任何自鸣得意的诱惑。但是,我不确定贝叶斯范式是否可以容纳所有惯常做法(同样,只要贝叶斯选择合适的先验和可能性)是否成立。我知道相反的说法是错误的。 我之所以这样问,是因为我最近发布了一个关于条件推断的问题,这使我想到了以下论文:在此处(请参阅3.9.5,3.9.6) 他们指出了Basu的著名结果,即可能有不止一个辅助统计信息,这引发了关于哪个“相关子集” 最相关的问题。更糟糕的是,它们显示了两个示例,这些示例说明即使您具有唯一的辅助统计信息,也无法消除其他相关子集的存在。 他们继续得出结论,只有贝叶斯方法(或与之等效的方法)才能避免此问题,从而实现无条件的条件推断。 贝叶斯统计惯常主义统计可能并非如此-这是我在这里向这个小组提出的问题。但是看来,这两种范式之间的根本选择在于哲学上而不是目标上:您需要较高的条件精度还是较低的无条件误差:⊃⊃\supset 当我们必须分析一个奇异的实例时,高条件精度似乎是适用的-尽管这种方法可能不适用于下一个数据集(超条件/专业化),但我们希望适合这种特殊的推断。 如果在某些情况下我们愿意做出有条件的错误推断,则低无条件错误是合适的,只要我们将长期运行的错误最小化或加以控制即可。老实说,写完这篇文章后,我不确定为什么要这么做,除非我被束缚了时间并且无法进行贝叶斯分析……嗯。 我倾向于基于似然的惯性论推论,因为我从似然函数中得到了一些(渐近/近似)条件性,但不需要摆弄先验条件-但是,我对贝叶斯推论越来越适应,尤其是当我看到了用于小样本推断的先前的aa 正则化术语。 抱歉,放在一边。我的主要问题的任何帮助表示赞赏。

2
常客对电压表的看法是什么?
常客对电压表的故事及其变化有何看法?其背后的想法是,如果后来获悉那些假设事件不可能像假设的那样发生,那么必须对吸引假设事件的统计分析进行修订。 在维基百科上的故事的版本如下。 工程师抽取电子管的随机样本并测量其电压。测量范围为75至99伏。统计员计算样本均值和真实均值的置信区间。后来统计学家发现电压表的读数只能读到100,因此人口似乎被“审查了”。如果统计学家是正统的,这就需要进行新的分析。但是,工程师说,他还有另一个读到1000伏特的电表,如果电压超过100伏,他会使用该电表。这对统计学家来说是一件轻松的事,因为这意味着人口实际上是未经审查的。但是,第二天,工程师通知统计人员该第二个仪表在测量时没有工作。统计人员确定工程师在仪表固定好之前不会暂停测量,并告知他需要新的测量。工程师大为震惊。“接下来,您会问我的示波器”。 这个故事显然是愚蠢的,但我不清楚用它取笑的方法会带来什么自由。我敢肯定,在这种情况下,繁忙的应用统计学家不会为此担心,但是铁杆学术常客呢? 使用教条常识性方法,我们是否需要重复实验?我们能否从现有数据中得出任何结论? 为了解决故事中提出的更笼统的观点,如果我们想利用已经拥有的数据,是否可以对假设结果进行必要的修改以适应常人主义框架?

1
您是否必须遵循似然性原则才能成为贝叶斯?
这个问题是由以下问题引起的:什么时候(如果有的话)频频论方法实质上比贝叶斯方法好? 正如我在我对该问题的解决方案中所发布的那样,我认为,如果您是常客,则不必相信/坚持似然性原则, 因为经常使用常客的方法会违反该原则。但是,这通常是在适当先验的假设下,贝叶斯方法从不违反似然原理。 那么,现在说您是贝叶斯主义者是否在可能性原则上确认了自己的信念或共识,还是说作为贝叶斯主义者的论点只是产生了不违反似然原则的好结果?

1
线性高斯卡尔曼滤波器的LogLikelihood参数估计
我已经编写了一些代码,可以对n维状态向量进行线性高斯状态空间分析(使用许多不同的Kalman型滤波器[Information Filter等])。筛选器效果很好,我得到了一些不错的输出。但是,通过对数似然估计进行参数估计会使我感到困惑。我不是统计学家,而是物理学家,所以请保持友好。 让我们考虑线性高斯状态空间模型 yt=Ztαt+ϵt,yt=Ztαt+ϵt,y_t = \mathbf{Z}_{t}\alpha_{t} + \epsilon_{t}, αt+1=Ttαt+Rtηt,αt+1=Ttαt+Rtηt,\alpha_{t + 1} = \mathbf{T}_{t}\alpha_{t} + \mathbf{R}_{t}\eta_{t}, 其中是我们的观察向量,我们在时间步处的状态向量。粗体为状态空间模型的变换矩阵,这些变换矩阵是根据所考虑的系统的特性设置的。我们还有ytyty_{t}αtαt\alpha_{t}ttt η 吨〜Ñ 我d (0 ,Q 吨),α 1〜Ñ 我d (一个1,P 1)。ϵt∼NID(0,Ht),ϵt∼NID(0,Ht),\epsilon_{t} \sim NID(0, \mathbf{H}_{t}), ηt∼NID(0,Qt),ηt∼NID(0,Qt),\eta_{t} \sim NID(0, \mathbf{Q}_{t}), α1∼NID(a1,P1).α1∼NID(a1,P1).\alpha_{1} \sim NID(a_{1}, \mathbf{P}_{1}). 其中。现在,我已经通过猜测初始参数和方差矩阵和来推导并实现了该通用状态空间模型的Kalman滤波器的递归,我可以生成图喜欢H 1 Q 1t=1,…,nt=1,…,nt = 1,\ldots, nH1H1\mathbf{H}_{1}Q1Q1\mathbf{Q}_{1} 其中的点是100年1月的尼罗河水位,线是“卡拉姆估计”状态,虚线是90%的置信度。 现在,对于此一维数据集,矩阵和分别只是标量和。所以现在我想使用卡尔曼滤波器的输出和对数似然函数为这些标量获取正确的参数Q 吨 σ ε σ …

2
具有异方差测量误差的AR(1)过程
1.问题 我对变量进行了一些测量,其中,我通过MCMC获得了分布,为简单起见,我将其假设为均值的高斯和方差。ytyty_tt=1,2,..,nt=1,2,..,nt=1,2,..,nfyt(yt)fyt(yt)f_{y_t}(y_t)μtμt\mu_tσ2tσt2\sigma_t^2 对于这些观察,我有一个物理模型,例如,但是残差似乎是相关的;特别是,我有物理上的理由认为流程足以考虑相关性,因此我计划通过MCMC获得拟合系数,为此我需要可能性。我认为解决方案很简单,但是我不太确定(它看起来很简单,以至于我遗漏了一些东西)。g(t)g(t)g(t)rt=μt−g(t)rt=μt−g(t)r_t = \mu_t-g(t)AR(1)AR(1)AR(1) 2.推导可能性 零均值流程可写为: 其中,我假设。因此,要估计的参数为(在我的情况下,我还必须添加模型的参数,但这不是问题)。但是,我观察到的是变量 ,其中我假设和是已知的(测量误差)。因为是高斯过程,所以也是。我特别知道 X 吨 = φ X 吨- 1 + ε 吨,(1 )ε 吨〜Ñ (0 ,σ 2 瓦特)θ = { φ ,σ 2 瓦特 } 克(吨)- [R 吨 = X 吨 + η 吨,(2 )η 吨〜ñ (AR(1)AR(1)AR(1)Xt=ϕXt−1+εt, (1)Xt=ϕXt−1+εt, (1)X_t = \phi X_{t-1}+\varepsilon_t,\ \ …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.