Questions tagged «bayesian»

贝叶斯推断是一种统计推断的方法,该方法依赖于将模型参数视为随机变量,并应用贝叶斯定理来推导有关参数或假设的主观概率陈述(取决于观察到的数据集)。

3
贝叶斯分析的可能性与条件分布
我们可以将贝叶斯定理写成 p(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta} 其中是后验的,是条件分布的,而是先验的。p(θ|x)p(θ|x)p(\theta|x)f(X|θ)f(X|θ)f(X|\theta)p(θ)p(θ)p(\theta) 要么 p(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta} 其中是后验的,是似然函数,而是先验的。p(θ|x)p(θ|x)p(\theta|x)L(θ|x)L(θ|x)L(\theta|x)p(θ)p(θ)p(\theta) 我的问题是 为什么要使用似然函数而不是条件分布来进行贝叶斯分析? 您能否用语言说出可能性与条件分布之间的区别是什么?我知道可能性不是概率分布和。L(θ|x)∝f(X|θ)L(θ|x)∝f(X|θ)L(\theta|x) \propto f(X|\theta)


3
研究人员1运行1000个回归,研究人员2仅运行1,两者都得到相同的结果-他们应该做出不同的推论吗?
想象一个研究人员正在探索一个数据集并运行1000个不同的回归,他发现其中一个有趣的关系。 现在想象一下,具有相同数据的另一位研究人员 仅进行了1次回归,结果发现另一位研究人员进行了1000次回归才能找到相同的结果。研究者2不认识研究者1。 研究人员1是否应做出与研究人员2不同的推论?为什么?例如,研究人员1应该执行多重比较校正,而研究人员2不应该执行多重比较校正吗? 如果研究人员2首先向您显示了他的单一回归,您将做出什么推论?如果该研究人员1向您显示了他的结果之后,您是否应该更改自己的推断?如果是这样,那为什么重要呢? PS 1:如果谈论假设研究者使问题变得抽象,请考虑一下:假设您使用最佳方法对论文进行了一次回归。然后,另一位研究人员使用相同的数据探索了1000种不同的回归,直到发现与您运行的完全相同的回归。你们两个应该推论吗?两种情况的证据是否相同?如果您知道其他研究人员的结果,是否应该更改自己的推论?公众应如何评估两项研究的证据? PS 2:请尽量具体,并在可能的情况下提供数学/理论上的依据!

2
MCMC样本的模式可靠性
John Kruschke在他的《做贝叶斯数据分析》一书中指出,使用R中的JAGS ...根据MCMC样本进行的模式估算可能相当不稳定,因为该估算基于平滑算法,该算法对MCMC样本中的随机隆起和波动敏感。(进行贝叶斯数据分析,第205页,第8.2.5.1节) 虽然我对Metropolis算法和Gibbs采样之类的精确形式有所了解,但我也不熟悉所提到的平滑算法,以及为什么这意味着从MCMC样本中估计模式是不稳定的。是否有人能够直观地了解平滑算法的作用以及为什么会使模式的估计不稳定?
12 bayesian  mcmc  mode 

3
具有良好的常客属性意味着什么?
我经常听到这个短语,但从未完全理解它的意思。短语“良好的常客属性”目前在Google上有2750笔点击,在Scholar.google.com 上有 536笔,在stats.stackexchange.com上有4笔。 我发现一个明确的定义最接近来自最终幻灯片在这个斯坦福大学演讲,其状态 报告95%置信区间的意思是,即使在不同的估计问题之间,您也可以将“真实”参数“圈住”在您提出的95%的索赔中。这是具有良好的频繁性的估计程序的定义特征:它们在重复使用时经过仔细检查。 对此进行一点思考,我认为“良好的频率特性”一词意味着对贝叶斯方法,特别是区间构造的贝叶斯方法的某种评估。我知道贝叶斯区间意味着包含概率为的参数的真实值。频率间隔的构造应使得,如果间隔构造的过程被重复了很多次,则大约p * 100 %pppp * 100 %p∗100%p*100\%的间隔将包含参数的真实值。贝叶斯间隔通常不会保证间隔的百分比将覆盖参数的真实值。但是,某些贝叶斯方法也碰巧具有这样的性质:如果重复很多次,它们将覆盖大约的真实值。当他们拥有该属性时,我们就说它们具有“良好的常客属性”。p * 100 %p∗100%p*100\% 是对的吗?我认为这还不止于此,因为该短语是指良好的常客属性,而不是具有良好的常客属性。



1
我何时应该担心贝叶斯模型选择中的Jeffreys-Lindley悖论?
我正在考虑使用RJMCMC探索各种复杂性的大型(但有限)模型。每个模型的参数向量的先验是非常有用的。 在哪种情况下(如果有),当更复杂的模型之一更适合时,我应该担心Jeffreys-Lindley悖论偏爱更简单的模型吗? 有没有简单的例子可以突出贝叶斯模型选择中的悖论问题? 我已经读了几篇文章,分别是西安的博客和安德鲁·盖尔曼的博客,但是我仍然不太了解这个问题。

2
使用贝叶斯神经网络的优点是什么
最近,我阅读了有关贝叶斯神经网络(BNN)[Neal,1992],[Neal,2012]的一些论文,这些论文给出了神经网络中输入和输出之间的概率关系。通过MCMC训练这种神经网络,这与传统的反向传播算法不同。 我的问题是:使用这种神经网络有什么优势?更具体地说,您能否提供一些更适合BNN而非NN的示例?

2
Wishart-Wishart后验的参数是什么?
当推断用于生成 D维向量的正态分布的精度矩阵时 我们通常将Wishart放在之前,因为Wishart分布是具有已知均值和未知方差的多元正态分布的命题: 其中是自由度和的ΛΛ\boldsymbol{\Lambda}NNNx1,..,xNx1,..,xN\mathbf{x_1},..,\mathbf{x_N} xi∼N(μ,Λ−1)xi∼N(μ,Λ−1)\begin{align} \mathbf{x_i} &\sim \mathcal{N}(\boldsymbol{\mu, \Lambda^{-1}}) \\ \end{align}ΛΛ\boldsymbol{\Lambda}Λ∼W(υ,Λ0)Λ∼W(υ,Λ0)\begin{align} \mathbf{\Lambda} &\sim \mathcal{W}(\upsilon, \boldsymbol{\Lambda_0}) \\ \end{align}υυ\upsilonΛ0Λ0\boldsymbol{\Lambda_0}比例矩阵。为了增加模型的鲁棒性和灵活性,我们对Wishart的参数设置了优先级。例如,Görür和Rasmussen建议: 其中是伽马分布。Λ01υ−D+1∼W(D,1DΛx)∼G(1,1D)Λ0∼W(D,1DΛx)1υ−D+1∼G(1,1D)\begin{align} \mathbf{\Lambda_0} &\sim \mathcal{W}(D, \frac{1}{D}\boldsymbol{\Lambda_x}) \\ \frac{1}{\upsilon-D + 1} &\sim \mathcal{G}(1, \frac{1}{D}) \\ \end{align}GG\mathcal{G} 题: 为了采样Λ0Λ0\boldsymbol{\Lambda_0} p(Λ0|X,Λ,υ,D,Λx)∝W(Λ|υ,Λ0)W(Λ0|D,1DΛx)p(Λ0|X,Λ,υ,D,Λx)∝W(Λ|υ,Λ0)W(Λ0|D,1DΛx)\begin{align} p(\boldsymbol{\Lambda_0 | X, \Lambda}, \upsilon, D, \boldsymbol{\Lambda_x}) \propto \mathcal{W}(\boldsymbol{\Lambda} | \upsilon, \boldsymbol{\Lambda_0}) \mathcal{W}(\boldsymbol{\Lambda_0} |D, \frac{1}{D}\boldsymbol{\Lambda_x}) \\ …

1
如何在MCMC中解释自相关图
通过阅读John K. Kruschke 的《做贝叶斯数据分析》一书,我也熟悉贝叶斯统计数据,该书也被称为“小狗书”。在第9章中,通过以下简单示例介绍了层次模型: 和伯努利观察是3枚硬币,每次10个翻转。一个显示9个头,另一个显示5个头,另一个显示1个头。yjiθjμκ∼Bernoulli(θj)∼Beta(μκ,(1−μ)κ)∼Beta(Aμ,Bμ)∼Gamma(Sκ,Rκ)yji∼Bernoulli(θj)θj∼Beta(μκ,(1−μ)κ)μ∼Beta(Aμ,Bμ)κ∼Gamma(Sκ,Rκ)\begin{align} y_{ji} &\sim {\rm Bernoulli}(\theta_j) \\ \theta_j &\sim {\rm Beta}(\mu\kappa, (1-\mu)\kappa) \\ \mu &\sim {\rm Beta}(A_\mu, B_\mu) \\ \kappa &\sim {\rm Gamma}(S_\kappa, R_\kappa) \end{align} 我已经使用pymc来推断超参数。 with pm.Model() as model: # define the mu = pm.Beta('mu', 2, 2) kappa = pm.Gamma('kappa', 1, 0.1) # define the prior …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
为什么这种分配是统一的?
我们正在调查贝叶斯统计检验,并且遇到一种奇怪的现象(对我来说至少是这样)。 考虑以下情况:我们有兴趣测量哪个人口A或B具有较高的转化率。对于健全性检查,我们将设置,也就是说,两组转换的可能性相等。我们使用二项式模型生成人工数据,例如pA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) 然后,我们尝试使用贝叶斯beta二项式模型估计以便获得每种转换率的后验,例如pA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) 我们的测试统计量是通过蒙特卡洛通过计算来计算的。S=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) 令我惊讶的是,如果,则。我的想法是,随着样本大小增加,它将以0.5为中心,甚至收敛到0.5 。 pA=pBpA=pBp_A = p_BS∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}NNN 我的问题是,为什么 当时?p 甲 = p 乙S∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}pA=pBpA=pBp_A = p_B 这是一些Python代码来演示: %pylab from scipy.stats import beta …

2
情报平方计分和获胜者确定
有一个称为“情报平方”的NPR播客。每集都播放有关一些争议性声明的现场辩论,例如“第二修正案不再相关”或“对大学校园采取平权行动弊大于利”。四名代表辩论,两名代表议案,两名反对。 为了确定哪一方获胜,在辩论前后都要对观众进行投票。从绝对百分比上获得更多收益的一方被视为获胜者。例如: For Against Undecided Before 18% 42% 40% After 23% 49% 28% Winner: Against team -- The motion is rejected. 直觉上,我认为这种衡量成功的方法是有偏见的,我想知道如何以公平的方式对听众进行投票以确定赢家。 我立即在当前方法中看到了三个问题: 在极端情况下,如果一方以100%达成共识,那么他们只能平局或输球。 如果没有未定的决定,则初始协议较少的那一侧可被视为具有较大的样本量,可从中进行抽取。 未定的一面不太可能真正地未定。如果我们假设双方是两极分化的,那么如果我们被迫放弃一方,似乎我们先前对未定人群的信念应该是。Beta (#赞成,#反对)Beta(# For,# Against)\text{Beta}(\text{# For}, \text{# Against}) 鉴于我们必须依靠受众调查,是否有更公平的方法来判断谁获胜?
12 bayesian  rating 

3
贝叶斯vs MLE,过度拟合问题
他在Bishop的PRML书中说,过度拟合是最大似然估计(MLE)的问题,贝叶斯可以避免这种情况。 但是我认为,过度拟合问题更多地与模型选择有关,而不是与用于参数估计的方法有关。也就是说,假设我有一个数据集,它是通过,现在我可以选择不同的模型来拟合数据并找出哪一个是最好的。所考虑的模型是具有不同阶数的多项式,是阶数1,是阶数2,是阶数9。DDDf(x)=sin(x),x∈[0,1]f(x)=sin(x),x∈[0,1]f(x)=sin(x),\;x\in[0,1]HiHiH_iH1H1H_1H2H2H_2H3H3H_3 现在,我尝试以适应数据与各3款,每个模型都有其paramters,表示为的。DDDwiwiw_iHiHiH_i 使用ML,我将获得模型参数的点估计,并且太简单了,总是会拟合数据,而太复杂了,会拟合数据,只有会很好地拟合数据。wwwH1H1H_1H3H3H_3H2H2H_2 我的问题是 1)模型将使数据过拟合,但我认为这不是ML的问题,而是模型本身的问题。因为将ML用于不会导致过拟合。我对吗?H3H3H_3H1,H2H1,H2H_1,H_2 2)与贝叶斯算法相比,机器学习确实有一些缺点,因为它仅给出模型参数的点估计,并且过于自信。贝叶斯不仅仅依赖于参数的最可能值,而且还依赖于给定观测数据所有可能参数值,对吗?wwwDDD 3)为什么贝叶斯可以避免或减少过度拟合?据我了解,我们可以使用贝叶斯模型进行模型比较,也就是说,给定数据,我们可以找出所考虑的每种模型的边际可能性(或模型证据),然后选择边际可能性最高的模型(对) ?如果是这样,那为什么呢?DDD

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.