Questions tagged «likelihood»

给定一个随机变量 X由参数化分布,似然度定义为观测数据作为的函数的概率F(X;θ)θ:L(θ)=P(θ;X=x)

2
轮廓似然的Hessian用于标准误差估计
这个问题是由这个问题引起的。我查找了两个来源,这就是我发现的内容。 A. van der Vaart,渐进统计: 几乎不可能显式计算轮廓似然,但其数值评估通常是可行的。然后,轮廓似然可用于减小似然函数的维数。轮廓似然函数通常以与参数模型的(普通)似然函数相同的方式使用。除了上述的最大的他们的点作为估计,在二阶导数用作的估计减去e的渐近协方差矩阵的逆矩阵。最近的研究似乎证实了这种做法。 θθ^θ^\hat\thetaθ^θ^\hat\theta J. Wooldridge,《截面和面板数据的计量经济学分析》(两个版本均相同): 作为研究渐近性质的设备,由于通常取决于所有,因此集中目标函数的值是有限的,在这种情况下,目标函数不能写为独立的,均匀分布的求和的和。当我们从某些非线性面板数据模型集中特定于个体的效果时,就会出现一种方程式(12.89)是iid函数之和的设置。此外,集中目标函数对于建立看似不同的估算方法的等效性可能很有用。WG(W,β)g(W,β)g(W,\beta)w ^WW Wooldridge在更广泛的M估计量上下文中讨论了这个问题,因此它也适用于最大似然估计量。 因此,对于同一个问题,我们得到两个不同的答案。我认为魔鬼在于细节。对于某些模型,对于某些模型,我们可以安全地使用轮廓似然的hessian。是否有任何一般结果为我们何时(或不能这样做)提供条件?

3
贝叶斯分析的可能性与条件分布
我们可以将贝叶斯定理写成 p(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta} 其中是后验的,是条件分布的,而是先验的。p(θ|x)p(θ|x)p(\theta|x)f(X|θ)f(X|θ)f(X|\theta)p(θ)p(θ)p(\theta) 要么 p(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta} 其中是后验的,是似然函数,而是先验的。p(θ|x)p(θ|x)p(\theta|x)L(θ|x)L(θ|x)L(\theta|x)p(θ)p(θ)p(\theta) 我的问题是 为什么要使用似然函数而不是条件分布来进行贝叶斯分析? 您能否用语言说出可能性与条件分布之间的区别是什么?我知道可能性不是概率分布和。L(θ|x)∝f(X|θ)L(θ|x)∝f(X|θ)L(\theta|x) \propto f(X|\theta)

2
了解逻辑回归和可能性
参数估计/逻辑回归训练如何真正起作用?我将尽我所能。 输出是y的逻辑函数输出,其概率形式取决于x的值: P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx) P(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}} 对于一个维度,所谓的赔率定义如下: p(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1xp(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x{{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x} 现在添加log函数以线性形式获取W_0和W_1: Logit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log({{p(y=1|x)}\over{1-p(y=1|x)}})=\omega_0+\omega_1x 现在到问题部分 使用似然性(Big X是y) 谁能说出为什么我们两次考虑y = 1的概率?由于: L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=\prod^N_{i=1,y_i=1}P(x_i)\prod^N_{i=1,y_i=0}(1-P(x_i))P(y=0|x)=1−P(y=1|x)P(y=0|x)=1−P(y=1|x)P(y=0|x)=1-P(y=1|x) 以及如何从中得到ω的值?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

6
如果您使用使最大化的点估计,那对您的哲学有何看法?(是常客还是贝叶斯或其他?)
如果有人说 “该方法对最大使用参数的MLE点估计,因此它是常客的;而且它不是贝叶斯。”P (x | θ )P(x|θ)\mathrm{P}(x|\theta) 你同意吗? 背景资料:最近我读了一篇自称是常客的论文。我不同意他们的主张,充其量我感到模棱两可。本文未明确提及MLE(或MAP)。他们只进行点估计,就好像这个点估计是正确的一样继续进行。他们不对这个估计量的采样分布进行任何分析,或者类似的分析;该模型非常复杂,因此可能无法进行此类分析。他们也不在任何时候使用“后”一词。他们只是将这一点的估计值作为票面价值,然后转到他们感兴趣的主要主题-推断丢失的数据。我认为他们的方法没有任何东西可以说明他们的哲学。他们可能打算成为常客(因为他们觉得有必要在袖子上穿上自己的哲学),但是他们的实际做法却很简单/方便/懒惰/模棱两可。我现在要说的是,这项研究实际上没有任何哲学依据。相反,我认为他们的态度更加务实或方便: “我已经观察到数据,并且希望估计一些缺失的数据。有一个参数控制着和之间的关系。我真的不在乎只是作为达到目的的一种手段。如果我有一个的估计,它将使从预测变得更加容易。我会选择一个的点估计,因为它很方便,尤其是我会选择最大化的。”ž θ žXxxžzzθθ\thetažzzθ θ ž X θ θ P(X | θ )Xxxθθ\thetaθθ\thetazzzxxxθθ\thetaθ^θ^\hat{\theta}P(x|θ)P(x|θ)\mathrm{P}(x|\theta) 一个无偏估计量的想法显然是一个频率主义的概念。这是因为它不以数据为条件,并且描述了一个很好的属性(无偏),该属性可以容纳参数的所有值。 在贝叶斯方法中,数据和参数的作用有点相反。特别是,我们现在以观察到的数据为条件,并继续对参数的值进行推断。这需要先验。 到目前为止,一切都很好,但是MLE(最大似然估计)在哪里适合呢?我给人的印象是,很多人认为它是频率论者(或更确切地说,它不是贝叶斯主义者)。但是我觉得它是贝叶斯方法,因为它涉及获取观察到的数据,然后找到使最大化的。MLE隐式地使用统一的先验并以数据为条件,并使最大化。公平地说,MLE看起来既是频率派的又是贝叶斯的?还是每个简单的工具都必须完全属于这两种类别之一?P (p 一个ř 一米ë 吨ë [R | d 一吨一)P(data|parameter)P(data|parameter)P(data | parameter)P(parameter|data)P(parameter|data)P(parameter | data) MLE是一致的,但我认为一致性可以表示为贝叶斯思想。给定任意大的样本,估计值收敛于正确答案。对于参数的所有值,语句“估计值将等于真实值”成立。有趣的是,如果您以观察到的数据为条件,则该语句也成立,从而使其成为贝叶斯式。除了MLE之外,还有其他有趣的地方,但对于无偏估计器却没有。 这就是为什么我认为MLE是方法中的“最高级贝叶斯”方法,可以说是“频繁方法”。 无论如何,大多数频率属性(例如无偏)都适用于所有情况,包括有限的样本量。一致性仅在不可能的情况下保持有效(一个实验中有无限个样本),这一事实表明一致性并不是一个有用的属性。 给定一个现实的(即有限的)样本,是否存在一个适用于MLE的Frequentist属性?如果不是这样,那么MLE并不是真正的频率偏高者。

3
为什么使用滤波器结果而不是更平滑的结果来计算卡尔曼滤波器中的似然性?
我以非常标准的方式使用卡尔曼滤波器。该系统由状态方程和观察方程。Xt + 1= FXŤ+ vt + 1XŤ+1个=FXŤ+vŤ+1个x_{t+1}=Fx_{t}+v_{t+1}ÿŤ= 高XŤ+ A zŤ+ wŤÿŤ=HXŤ+一种žŤ+wŤy_{t}=Hx_{t}+Az_{t}+w_{t} 教科书教导,在应用卡尔曼滤波器并获得“一步一步的预测”(或“滤波后的估计”)之后,我们应该使用它们来计算似然函数:X^t | t − 1X^Ť|Ť-1个\hat{x}_{t|t-1} FÿŤ| 一世t − 1,žŤ(yŤ| 一世t − 1,žŤ) = DET [ 2 π(高Pt | t − 1H′+ R ) ]− 12经验值{ − 12(yŤ- 高X^t | t − 1- 一个žŤ)′(高Pt | t − 1H′+ R )− …

2
为什么后验密度与先验密度乘以似然函数成比例?
根据贝叶斯定理,。但是根据我的计量经济学文本,它说。为什么会这样呢?我不明白为什么被忽略。P (θ | y )∝ P (y | θ )P (θ )P (y )P(y| θ)P(θ )= P(θ | y)P(y)P(y|θ)P(θ)=P(θ|y)P(y)P(y|\theta)P(\theta) = P(\theta|y)P(y)P(θ | y)α P(y| θ)P(θ )P(θ|y)∝P(y|θ)P(θ)P(\theta|y) \propto P(y|\theta)P(\theta)P(y)P(y)P(y)

1
从简单的R lm模型重新计算对数似然
我只是想用dnorm()重新计算lm模型(在R中)的logLik函数提供的对数似然率。 对于大量数据(例如n = 1000),它可以(几乎完美)工作: > n <- 1000 > x <- 1:n > set.seed(1) > y <- 10 + 2*x + rnorm(n, 0, 2) > mod <- glm(y ~ x, family = gaussian) > logLik(mod) 'log Lik.' -2145.562 (df=3) > sigma <- sqrt(summary(mod)$dispersion) > sum(log(dnorm(x = y, mean = predict(mod), …

1
P值和似然原理
这个问题在课堂上出现:如果我们使用p值评估实验中的假设,那么我们不遵守似然原理的哪一部分:充分性或条件性? 我的直觉是说充分性,因为计算p值取决于实验的未观察结果,而充分性似乎在单个实验中处理的观察更多,而条件性似乎对不同的实验进行更多的处理。

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx


1
观测到的费舍尔信息
从Y. Pawitan的“在所有可能性中:使用可能性进行统计建模和推断”中,重新参数化的可能性被定义为 使得如果g是一对一,则L ^ *(\ psi)= L(g ^ {-1} (\ psi))(第45页)。我试图显示练习2.20,其中指出如果\ theta是标量(并且我假设g也应该是标量函数),则 I ^ *(g(\ hat {\ theta}))= I( \ hat {\ theta})\ left | \ frac {\ partial g(\ hat {\ theta})} {\ partial \ hat {\ theta}} \ right | ^ {-2}, 其中 I(\ theta) =-\ frac {\ …

2
稳健的边际可能性MCMC估计器?
我正在尝试通过蒙特卡洛方法来计算统计模型的边际可能性: f(x)=∫f(x∣θ)π(θ)dθf(x)=∫f(x∣θ)π(θ)dθf(x) = \int f(x\mid\theta) \pi(\theta)\, d\theta 可能性表现良好-平滑,对数凹入-但维数高。我已经尝试过重要性抽样,但是结果很奇怪,并且在很大程度上取决于我使用的建议。我简要地考虑了假设哈密顿量在前一个统一的基础上,进行哈密顿量计算θθ\theta并以谐波均值,直到我看到了。经验教训,谐波均值可以具有无限方差。是否存在替代MCMC估算器,该估算器几乎一样简单,但具有良好的方差?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.