Questions tagged «fisher-information»

Fisher信息测量对数似然的曲率,并可用于评估估计器的效率。


2
有关Fisher信息矩阵以及与Hessian和标准误差的关系的基本问题
好的,这是一个非常基本的问题,但是我有点困惑。我在论文中写道: 通过计算(观察到的)Fisher Information矩阵对角元素的平方根的倒数,可以找到标准误差: 由于R中的优化命令最小化-日志大号的(观察到的)费舍尔信息矩阵可以通过计算的Hessian的逆找到: 我(μ,σ2)=^ h-1sμ^,σ^2= 1我( μ^,σ^2)------√sμ^,σ^2=1个一世(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*}− 日志大号-日志⁡大号-\log\mathcal{L}我( μ^,σ^2)= 高− 1一世(μ^,σ^2)=H-1个\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*} 我的主要问题:这是我所说的正确吗? 我有些困惑,因为在第7页的此资源中它说: 信息矩阵是黑森州矩阵的期望值的负数 (因此,没有黑森州的反面。) 而在第7页(脚注5)的此来源中指出: 所观察到的Fisher信息等于。(- 高)− 1(-H)-1个(-H)^{-1} (所以这是相反的。) 我知道减号,何时使用减号,何时不使用,但是为什么取反号与否有区别?

3
Fisher信息是什么信息?
假设我们有一个随机变量X〜˚F(x | θ )X〜F(X|θ)X \sim f(x|\theta)。如果θ0θ0\theta_0是真正的参数,则所述似然函数应最大化和衍生物等于零。这是最大似然估计器背后的基本原理。 据我了解,费舍尔信息被定义为 一世(θ )= E [ (∂∂θF(X| θ))2]一世(θ)=Ë[(∂∂θF(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] 因此,如果θ0θ0\theta_0是真实参数,一世(θ )= 0一世(θ)=0I(\theta) = 0。但如果θ0θ0\theta_0是不是真正的参数,那么我们将有费希尔信息量更大。 我的问题 Fisher信息是否衡量给定MLE的“错误”?换句话说,是否存在积极的Fisher信息并不意味着我的MLE不够理想? “信息”的定义与Shannon使用的定义有何不同?我们为什么称其为信息?

3
Fisher度量与相对熵之间的联系
有人能以纯粹的数学严格方式证明 Fisher信息量度与相对熵(或KL散度)之间的以下联系吗? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) 其中a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n),gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) p(x;a) dxg_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dx和gi,jdaidaj:=∑i,jgi,jdaidajgi,jdaidaj:=∑i,jgi,jdaidajg_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j是爱因斯坦求和约定。 我在John Baez的漂亮博客中找到了上述内容,Vasileios Anagnostopoulos在评论中谈到了这一点。

2
分层模型中的Fisher信息
给定以下层次模型, 和 其中是正态分布。有没有办法来得到一个确切的表达式的边缘分布的Fisher信息给出Ç。也就是说,什么是Fisher信息: p(x | c)= \ int p(x | \ mu)p(\ mu | c)d \ mu 在给定c的情况下,我可以得到X的边际分布的表达式。但是区分wrt c然后接受期望似乎非常困难。我是否缺少明显的东西?任何帮助,将不胜感激。μ 〜大号一个p 升一Ç ë(0 ,Ç )Ñ(⋅ ,⋅ )X Ç p (X | C ^ )= ∫ p (X | μ )p (μ | C ^ )ð μ X ç çX∼N(μ,1),X∼N(μ,1), X \sim …

2
为什么Fisher信息矩阵为正半定号?
让。Fisher信息矩阵的定义为:θ ∈ [Rñθ∈Rn\theta \in R^{n} 一世(θ )我,Ĵ= - Ë[ ∂2日志(f(X| θ))∂θ一世∂θĴ∣∣∣θ ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] 如何证明Fisher信息矩阵是正半定的?

2
与Jeffreys不同,先验的示例导致后验不变
我将在两周前在这里提出的问题重新发布“答案”:为什么Jeffreys事前有用?不过,这确实是一个问题(我当时也无权发表评论),所以我希望可以这样做: 在上面的链接中,讨论了Jeffreys Prior的有趣特征是,在重新参数化模型时,所得后验分布给出了服从变换施加的约束的后验概率。比方说,如那里所讨论的,从所述成功概率移动时θθ\theta在Beta-伯努利例如赔率ψ=θ/(1−θ)ψ=θ/(1−θ)\psi=\theta/(1-\theta),它应该是的情况下,该后验满足P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3\leq\theta\leq 2/3\mid X=x)=P(1/2\leq\psi\leq 2\mid X=x)。 我想创建一个将θθ\theta转换为奇数ψψ\psi的Jeffreys先验不变性的数值示例,更有趣的是,缺少其他先验(例如Haldane,均等或任意先验)。 现在,如果成功概率的后验是Beta(对于任何Beta先验,不仅是Jeffreys),则赔率的后验遵循具有相同参数的第二种Beta分布(请参阅Wikipedia)。然后,正如下面的数字示例中突出显示的那样(至少对我来说),对于Beta优先级的任何选择(与alpha0_U和一起玩)都是不变的beta0_U,这不仅是Jeffreys,参见。程序的输出。 library(GB2) # has the Beta density of the 2nd kind, the distribution of theta/(1-theta) if theta~Beta(alpha,beta) theta_1 = 2/3 # a numerical example as in the above post theta_2 = 1/3 odds_1 = theta_1/(1-theta_1) # the corresponding odds odds_2 = theta_2/(1-theta_2) …

2
为什么要精确使用观察到的Fisher信息?
在标准的最大似然设定(IID样品从一些分布密度˚F ý(Ý | θ 0)),并在正确指定模型的情况下,Fisher信息由下式给出ÿ1个,… ,YñY1,…,YnY_{1}, \ldots, Y_{n}Fÿ(y| θ0fy(y|θ0f_{y}(y|\theta_{0} 一世(θ )= − Eθ0[ ∂2θ2lnFÿ(θ )]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] 相对于生成数据的真实密度的期望值。我已经阅读了观察到的Fisher信息 Ĵ^(θ )= - ∂2θ2lnFÿ(θ )J^(θ)=−∂2θ2ln⁡fy(θ)\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) 之所以使用,主要是因为在某些情况下,计算(预期)Fisher信息所涉及的积分可能不可行。是什么让我困惑的是,即使积分是可行的,期望有相对于真实模型,即涉及到未知参数值取。如果是这样的情况下,它似乎不知道θ 0是不可能的计算予。这是真的?θ0θ0\theta_{0}θ0θ0\theta_{0}一世II

2
观察到的信息矩阵是否是预期信息矩阵的一致估计?
我试图证明在弱一致性最大似然估计器(MLE)处评估的观测信息矩阵是预期信息矩阵的弱一致性估计器。这是被广泛引用的结果,但没有人提供参考或证明(我已经用尽我认为Google搜索结果的前20页和我的统计资料教科书)! 使用MLE的弱一致序列,我可以使用大数弱定律(WLLN)和连续映射定理来获得所需的结果。但是,我相信不能使用连续映射定理。相反,我认为需要使用统一的大数定律(ULLN)。有人知道有证明这一点的参考文献吗?我尝试了ULLN,但为简洁起见,现在省略。 对于这个问题的冗长,我深表歉意,但必须引入一些符号。表示法如下(我的证明在结尾)。 假设我们有随机变量的IID样本{Y1,…,YN}\{Y_1,\ldots,Y_N\}与密度f(Y~|θ)f(\tilde{Y}|\theta),其中θ∈Θ⊆Rk\theta\in\Theta\subseteq\mathbb{R}^{k}(这里Y~\tilde{Y}是具有相同密度的只是一般随机变量作为样本的任何成员)。向量Y=(Y1,…,YN)TY=(Y_1,\ldots,Y_N)^{T}是所有样本向量的向量,其中Yi∈RnY_{i}\in\mathbb{R}^{n}所有i=1,…,Ni=1,\ldots,N。密度的真实参数值是θ0\theta_{0}和 θ Ñ(Ý)是的弱一致最大似然估计(MLE) θ 0。根据规律性条件,Fisher信息矩阵可以写为θ^N(Y)\hat{\theta}_{N}(Y)θ0\theta_{0} I(θ)=−Eθ[Hθ(logf(Y~|θ)]I(\theta)=-E_\theta \left[H_{\theta}(\log f(\tilde{Y}|\theta)\right] 其中Hθ{H}_{\theta}是Hessian矩阵。等效样本为 IN(θ)=∑i=1NIyi(θ),I_N(\theta)=\sum_{i=1}^N I_{y_i}(\theta), 其中Iyi=−Eθ[Hθ(logf(Yi|θ)]I_{y_i}=-E_\theta \left[H_{\theta}(\log f(Y_{i}|\theta)\right]。所观察到的信息矩阵是; J(θ)=−Hθ(logf(y|θ)J(\theta) = -H_\theta(\log f(y|\theta), (有些人的需求矩阵在评估θ,但有些却没有)。样本观察信息矩阵为:θ^\hat{\theta} JN(θ)=∑Ni=1Jyi(θ)J_N(\theta)=\sum_{i=1}^N J_{y_i}(\theta) 其中Jyi(θ)=−Hθ(logf(yi|θ)J_{y_i}(\theta)=-H_\theta(\log f(y_{i}|\theta)。 我可以证明在所述估计的概率收敛到我(θ ),但不ñ - 1 Ĵ Ñ(θ Ñ(Ý ))到我(θ 0)N−1JN(θ)N^{-1}J_N(\theta)I(θ)I(\theta)N−1JN(θ^N(Y))N^{-1}J_{N}(\hat{\theta}_N(Y))I(θ0)I(\theta_{0})。到目前为止,这是我的证明; Now (JN(θ))rs=−∑Ni=1(Hθ(logf(Yi|θ))rs(J_{N}(\theta))_{rs}=-\sum_{i=1}^N (H_\theta(\log f(Y_i|\theta))_{rs} is element (r,s)(r,s) of JN(θ)J_N(\theta), for any r,s=1,…,kr,s=1,\ldots,k. If the sample …

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
Fisher信息矩阵的存在条件
不同的教科书列举了Fisher信息矩阵存在的不同条件。下面列出了几种这样的条件,每种条件都出现在“ Fisher信息矩阵”的某些但不是全部定义中。 是否有一套标准的,最少的条件? 在以下5个条件中,可以消除哪些条件? 如果可以消除其中一个条件,那么您为什么认为它首先包含在其中? 如果不能消除其中一个条件,是否意味着那些未指定条件的教科书给出了错误的定义,或者至少是不完整的定义? Zacks,《统计推断理论》(1971年),第1页。194. 对于所有 ,矩阵是正定的。 I(θ)I(θ)\mathcal{I}\left(\theta\right)θ∈Θθ∈Θ\theta\in\Theta 谢尔维什,《统计理论》(1997年,第二版,更正),定义2.78,第2页。111 集合对于所有都是相同的。 C={x:f(x;θ)>0}C={x:f(x;θ)>0}C=\left\{x:f\left(x;\theta\right)>0\right\}θθ\theta Borovkov,《数学统计》(1998年)。p。147 wrt是连续可微的。 f(x;θ)f(x;θ)f\left(x;\theta\right)θiθi\theta_i Borovkov,《数学统计》(1998年)。p。147 是连续且可逆的。 I(θ)I(θ)\mathcal{I}\left(\theta\right) Gourieroux&Monfort,《统计与计量经济学模型》,第一卷(1995)。定义(a),第81-82页 存在 ∂2∂θi∂θjf(x;θ)∂2∂θi∂θjf(x;θ)\frac{\partial^2}{\partial\theta_i\partial\theta_j}f\left(x;\theta\right) 相比之下,这是雷曼兄弟(Lehman&Cassella)的条件的完整列表。点估计理论(1998)。p。124: ΘΘ\Theta是一个开放区间(有限,无限或半无限) 对于所有 ,集合是相同的。 C={x:f(x,θ)>0}C={x:f(x,θ)>0}C=\left\{x:f\left(x,\theta\right)>0\right\}θ∈Θθ∈Θ\theta\in\Theta ∂f(x;θ)∂θi∂f(x;θ)∂θi\frac{\partial f\left(x;\theta\right)}{\partial\theta_i}存在且是有限的。 这是Barra(1971年,数学的国家统计概念)中的条件的完整列表。第1页,定义1。35: 该得分为定义的所有,每个组件是平方可积,并且具有一体。 θ∈Θθ∈Θ\theta\in\Theta=0=0=0 有趣的是,雷曼兄弟(Lehman&Cassella)和巴拉(Barra)都没有规定在每个的整数符号下是可区分的。我调查过的大多数其他教科书中都出现这种情况。 ∫f(x;θ) μ(dx)∫f(x;θ) μ(dx)\int f\left(x;\theta\right)\space \mu\left(dx\right)θiθi\theta_i

1
Fisher信息的决定因素
(我在math.se上发布了类似的问题。) 在信息几何中,Fisher信息矩阵的行列式是统计流形上的自然体积形式,因此它具有很好的几何解释。例如,它出现在Jeffreys先验的定义中的事实与其在重新参数化下的不变性相关,这是(imho)几何性质。 但是统计中的决定因素是什么?它衡量任何有意义的东西吗?(例如,我想说的是如果它为零,那么参数不是独立的。这会进一步吗?) 此外,至少在某些“简单”情况下,是否有任何封闭的形式可以计算出来?

2
超参数化模型的Fisher信息矩阵行列式
考虑一个带有参数(成功概率)的伯努利随机变量。似然函数和Fisher信息(矩阵)为:X∈{0,1}X∈{0,1}X\in\{0,1\}θθ\theta1×11×11 \times 1 L1(θ;X)I1(θ)=p(X|θ)=θX(1−θ)1−X=detI1(θ)=1θ(1−θ)L1(θ;X)=p(X|θ)=θX(1−θ)1−XI1(θ)=detI1(θ)=1θ(1−θ) \begin{align} \mathcal{L}_1(\theta;X) &= p(\left.X\right|\theta) = \theta^{X}(1-\theta)^{1-X} \\ \mathcal{I}_1(\theta) &= \det \mathcal{I}_1(\theta) = \frac{1}{\theta(1-\theta)} \end{align} 现在考虑带有两个参数的“过度参数化”版本:成功概率θ1θ1\theta_1和失败概率θ0θ0\theta_0。(请注意θ1+θ0=1θ1+θ0=1\theta_1+\theta_0=1,并且此约束表示参数之一是多余的。)在这种情况下,似然函数和Fisher信息矩阵(FIM)为: L2(θ1,θ0;X)I2(θ1,θ0)detI2(θ)=p(X|θ1,θ0)=θX1θ1−X0=(1θ1001θ0)=1θ1θ0=1θ1(1−θ1)L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01−XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1−θ1) \begin{align} \mathcal{L}_2(\theta_1,\theta_0;X) &= p(\left.X\right|\theta_1,\theta_0) = \theta_1^{X}\theta_0^{1-X} \\ \mathcal{I}_2(\theta_1,\theta_0) &= \left( \begin{matrix} \frac{1}{\theta_1} & 0 \\ 0 & \frac{1}{\theta_0} \end{matrix} \right) \\ \det \mathcal{I}_2(\theta) &= \frac{1}{\theta_1 \theta_0} = \frac{1}{\theta_1 (1-\theta_1)} \end{align} …

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
观测到的费舍尔信息
从Y. Pawitan的“在所有可能性中:使用可能性进行统计建模和推断”中,重新参数化的可能性被定义为 使得如果g是一对一,则L ^ *(\ psi)= L(g ^ {-1} (\ psi))(第45页)。我试图显示练习2.20,其中指出如果\ theta是标量(并且我假设g也应该是标量函数),则 I ^ *(g(\ hat {\ theta}))= I( \ hat {\ theta})\ left | \ frac {\ partial g(\ hat {\ theta})} {\ partial \ hat {\ theta}} \ right | ^ {-2}, 其中 I(\ theta) =-\ frac {\ …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.