Questions tagged «bayesian»

贝叶斯推断是一种统计推断的方法,该方法依赖于将模型参数视为随机变量,并应用贝叶斯定理来推导有关参数或假设的主观概率陈述(取决于观察到的数据集)。

1
概率比率与PDF比率
我正在使用贝叶斯解决聚类问题。经过一些计算,我最终需要获得两个概率的比率: P(A)/P(B)P(A)/P(B)P(A)/P(B) 以获得。这些概率是通过将两个不同的2D多元KDE集成而获得的,如以下答案所示:P(H|D)P(H|D)P(H|D) P(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy 其中f^(x,y)f^(x,y)\hat{f}(x, y)和g^(x,y)g^(x,y)\hat{g}(x, y)是KDE,并且对低于阈值f^(ra,sa)f^(ra,sa)\hat{f}(r_a, s_a)和g^(rb,sb)g^(rb,sb)\hat{g}(r_b, s_b)。两个KDE都使用高斯内核。可以在这里看到与我正在使用的KDE类似的KDE代表性图像:在2D中集成内核密度估计器。 我通过stats.gaussian_kde python函数来计算KDE,因此我假设它具有以下一般形式: KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}} n我的点阵列的长度在哪里,h使用的带宽是多少。 上面的积分是使用蒙特卡洛过程计算的,该过程在计算上非常昂贵。我已经读过某处(忘了在哪里,对不起),在这种情况下,可以用在阈值点评估的PDF(KDE)比率替换概率比率,以获得同样有效的结果。我对此感兴趣,因为计算KDEs的比率要比计算MC积分的比率要快几个数量级。 因此问题被简化为该表达式的有效性: P(A)P(B)=f^(ra,sa)g^(rb,sb)P(A)P(B)=f^(ra,sa)g^(rb,sb)\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)} 在什么情况下(如果有的话)我可以说这种关系是正确的? [固定错字(编辑)] …

1
严格冯·诺依曼不等式的例子
令表示相对于先验的估计器的贝叶斯风险,令表示参数空间上所有先验的集合,而表示所有(可能是随机的)决策规则。r(π,δ)r(π,δ)r(\pi, \delta)δδ\deltaππ\piΠΠ\PiΘΘ\ThetaΔΔ\Delta 约翰·冯·诺伊曼(John von Neumann)的极小极大不等式的统计解释表明: supπ∈Πinfδ∈Δr(π,δ)≤infδ∈Δsupπ∈Πr(π,δ),supπ∈Πinfδ∈Δr(π,δ)≤infδ∈Δsupπ∈Πr(π,δ), \sup_{\pi\in\Pi} \inf_{\delta\in\Delta} r(\pi, \delta) \leq \inf_{\delta\in\Delta}\sup_{\pi\in\Pi} r(\pi, \delta), 当\ Theta和\ Delta都是有限的时,保证对某些δ′δ′\delta'和\ pi'具有严格的相等性。π′π′\pi'ΘΘ\ThetaΔΔ\Delta 有人可以提供不平等严格的具体例子吗?

1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?

1
使用pymc进行贝叶斯网络推断(初学者的困惑)
我目前正在Daphne Koller在Coursera上参加PGM课程。这样,我们通常将贝叶斯网络建模为变量的因果关系图,这些变量是观察数据的一部分。但是在PyMC教程和示例中,我通常看到它的建模方式与PGM或至少我感到困惑。在PyMC中,任何观察到的真实世界变量的父母通常都是您用来对变量建模的分布参数。 现在我的问题确实是一个实际的问题。假设我有3个变量用于观察数据(A,B,C)(仅出于此目的,假设它们都是连续变量)。从某些领域的知识来看,可以说A和B导致C。因此,我们在这里有一个BN-A,B是父母,C是孩子。现在从BN方程P(A,B,C)= P(C | A,B)* P(A)* P(B) 我可以说A和B是一些具有一定mu和sigma的正态分布,但是如何建模P(C | A,B)?我想学习的一般想法是如何使用PyMC学习此BN,以便可以查询BN。还是我必须以某种方式用模型的参数来增加BN。 使用pymc可以解决此问题吗?还是我的基本原理有误? 任何帮助,将不胜感激!

1
分层贝叶斯模型与经验贝叶斯
您是否认为HBM与EB是超参数在采样/估计/等“游戏中”的两个选择?这两者之间显然存在联系。 您会认为HBM比EB更“完全贝叶斯”吗?在哪里可以看到“完全贝叶斯”和其他替代方案之间的区别? 谢谢。

5
贝叶斯主义者是否曾经争论过,在某些情况下他们的方法与惯常方法相提并论/重叠?
贝叶斯主义者是否曾经争论说他们的方法可以归纳为常人主义方法,因为人们可以使用非信息先验,因此可以恢复典型的常人主义模型结构? 如果确实使用过这种说法,谁能将我引到一个我可以阅读该论点的地方? 编辑:这个问题的措词可能不完全是我想表达它的方式。问题是:“是否有讨论使用贝叶斯方法和频繁主义者方法通过使用特定先验来重叠/相交/具有共同点的情况的讨论?” 一个例子是使用不适当的先验,但是我很确定这只是冰山一角。p (θ )= 1p(θ)=1p(\theta) = 1

6
如果您使用使最大化的点估计,那对您的哲学有何看法?(是常客还是贝叶斯或其他?)
如果有人说 “该方法对最大使用参数的MLE点估计,因此它是常客的;而且它不是贝叶斯。”P (x | θ )P(x|θ)\mathrm{P}(x|\theta) 你同意吗? 背景资料:最近我读了一篇自称是常客的论文。我不同意他们的主张,充其量我感到模棱两可。本文未明确提及MLE(或MAP)。他们只进行点估计,就好像这个点估计是正确的一样继续进行。他们不对这个估计量的采样分布进行任何分析,或者类似的分析;该模型非常复杂,因此可能无法进行此类分析。他们也不在任何时候使用“后”一词。他们只是将这一点的估计值作为票面价值,然后转到他们感兴趣的主要主题-推断丢失的数据。我认为他们的方法没有任何东西可以说明他们的哲学。他们可能打算成为常客(因为他们觉得有必要在袖子上穿上自己的哲学),但是他们的实际做法却很简单/方便/懒惰/模棱两可。我现在要说的是,这项研究实际上没有任何哲学依据。相反,我认为他们的态度更加务实或方便: “我已经观察到数据,并且希望估计一些缺失的数据。有一个参数控制着和之间的关系。我真的不在乎只是作为达到目的的一种手段。如果我有一个的估计,它将使从预测变得更加容易。我会选择一个的点估计,因为它很方便,尤其是我会选择最大化的。”ž θ žXxxžzzθθ\thetažzzθ θ ž X θ θ P(X | θ )Xxxθθ\thetaθθ\thetazzzxxxθθ\thetaθ^θ^\hat{\theta}P(x|θ)P(x|θ)\mathrm{P}(x|\theta) 一个无偏估计量的想法显然是一个频率主义的概念。这是因为它不以数据为条件,并且描述了一个很好的属性(无偏),该属性可以容纳参数的所有值。 在贝叶斯方法中,数据和参数的作用有点相反。特别是,我们现在以观察到的数据为条件,并继续对参数的值进行推断。这需要先验。 到目前为止,一切都很好,但是MLE(最大似然估计)在哪里适合呢?我给人的印象是,很多人认为它是频率论者(或更确切地说,它不是贝叶斯主义者)。但是我觉得它是贝叶斯方法,因为它涉及获取观察到的数据,然后找到使最大化的。MLE隐式地使用统一的先验并以数据为条件,并使最大化。公平地说,MLE看起来既是频率派的又是贝叶斯的?还是每个简单的工具都必须完全属于这两种类别之一?P (p 一个ř 一米ë 吨ë [R | d 一吨一)P(data|parameter)P(data|parameter)P(data | parameter)P(parameter|data)P(parameter|data)P(parameter | data) MLE是一致的,但我认为一致性可以表示为贝叶斯思想。给定任意大的样本,估计值收敛于正确答案。对于参数的所有值,语句“估计值将等于真实值”成立。有趣的是,如果您以观察到的数据为条件,则该语句也成立,从而使其成为贝叶斯式。除了MLE之外,还有其他有趣的地方,但对于无偏估计器却没有。 这就是为什么我认为MLE是方法中的“最高级贝叶斯”方法,可以说是“频繁方法”。 无论如何,大多数频率属性(例如无偏)都适用于所有情况,包括有限的样本量。一致性仅在不可能的情况下保持有效(一个实验中有无限个样本),这一事实表明一致性并不是一个有用的属性。 给定一个现实的(即有限的)样本,是否存在一个适用于MLE的Frequentist属性?如果不是这样,那么MLE并不是真正的频率偏高者。


1
非信息先验的意义是什么?
为什么还要提供非信息性先验?他们不提供有关信息。那为什么要使用它们呢?为什么不仅使用信息先验?例如,假设。那么是的非先验信息吗?θθ\thetaθ∈[0,1]θ∈[0,1] \theta \in [0,1]θ∼U(0,1)θ∼U(0,1)\theta \sim \mathcal{U}(0,1)θθ\theta

2
何时使用引导与贝叶斯技术?
我有一个涉及可靠性测试的相当复杂的决策分析问题,而逻辑方法(对我而言)似乎涉及使用MCMC支持贝叶斯分析。但是,已经建议使用引导方法会更合适。有人可以提出一个(或三个)参考文献来支持使用另一种技术(即使在特定情况下)吗?FWIW,我有来自多个不同来源的数据,很少/零故障观察。我也有子系统和系统级别的数据。 似乎应该可以进行这样的比较,但是我没有找到通常的嫌疑人。在此先感谢您提供任何指导。

2
分层贝叶斯模型(?)
请为统计术语but之以鼻:)我在这里发现了几个与广告和点击率有关的问题。但是他们对我的等级状况的了解都没有对我有太大帮助。 还有一个相关的问题,即相同的贝叶斯模型的这些等效表示吗?,但我不确定它们是否确实存在类似问题。另一个问题是贝叶斯分层二项式模型的先验论证了有关超优先级的细节,但是我无法将其解决方案映射到我的问题上 我在网上有几个新产品的广告。我让广告投放了几天。到那时,足够多的人点击了广告,以查看哪个获得了最多的点击。在排除所有点击次数最多的广告之后,我让该广告再运行几天,以查看点击广告后实际有多少人购买。那时我知道首先投放广告是否是个好主意。 我的统计数据非常嘈杂,因为我每天只卖几件商品,所以我没有很多数据。因此,很难估计看到广告后有多少人买东西。每150次点击中只有约1次导致购买。 一般而言,我需要通过某种方式使用所有广告的全局统计信息来平滑每个广告组的统计信息,以了解是否会尽快在每个广告上赔钱。 如果我等到每个广告都看到足够的购买,我就会破产,因为它花费的时间太长:测试10个广告,我需要多花10倍的钱,以便每个广告的统计数据足够可靠。到那时我可能已经亏钱了。 如果我平均购买所有广告,那么我将无法淘汰效果不佳的广告。 我可以使用全球购买率( N $子分配的优先级吗?这意味着我为每个广告获得的数据越多,该广告获得的统计信息就越独立。如果没有人点击广告,我认为全球平均水平是合适的。perclick)anduseitasapriorforperclick)anduseitasapriorfor per click) and use it as a prior for 我会为此选择哪个发行版? 如果我在A上有20次点击,在B上有4次点击,该如何建模?到目前为止,我已经发现二项分布或泊松分布在这里可能有意义: purchase_rate ~ poisson (?) (purchase_rate | group A) ~ poisson (仅估算A组的购买率?) 但是,接下来我该怎么做才能真正计算出purchase_rate | group A。如何将两个发行版连接在一起以使组A(或任何其他组)有意义。 我必须先拟合模型吗?我有可用于“训练”模型的数据: 广告A:352次点击,5次购买 广告B:15次点击,0次购买 广告C:3519次点击,130次购买 我正在寻找一种方法来估计任何一组的概率。如果一个组只有几个数据点,那么我本质上想回落到全局平均值。我对贝叶斯统计信息有些了解,并且阅读了很多PDF,这些人描述了如何使用贝叶斯推理和共轭先验进行建模等。我认为有一种方法可以正确执行此操作,但是我无法弄清楚如何正确建模。 我会很高兴能以贝叶斯方式解决问题的提示。这将对在线查找示例产生很大帮助,我可以使用这些示例来实际实现此目标。 更新: 非常感谢您的回复。我开始对我的问题越来越了解。谢谢!让我问几个问题,看看我现在对这个问题的理解是否更好: 因此,我假设转换是作为Beta分布分布的,并且Beta分布具有两个参数和。baaabbb 所述的参数是超参数,所以它们的参数现有?因此,最终我将转化次数和点击次数设置为Beta分发的参数吗? 11212\frac{1}{2} 1212\frac{1}{2} 在某些时候,当我想比较不同的广告时,我会计算。如何计算该公式的每个部分?P(conversion|ad=X)=P(ad=X|conversion)∗P(conversion)P(ad=X)P(conversion|ad=X)=P(ad=X|conversion)∗P(conversion)P(ad=X)P(\mathrm{conversion} | …

1
在可能简单到具有解析形式的情况下,找出后验分布的步骤?
计算科学也曾问过这个问题。 我试图计算一些系数的自回归的贝叶斯估计,11个的数据样本: 其中 ε 我是高斯均值为0,方差 σ 2 ë 于载体上的先验分布(μ ,α )吨是高斯均值(0 ,0 ),并与对角项等于一个对角协方差矩阵到 σ 2 pYi=μ+α⋅Yi−1+ϵiYi=μ+α⋅Yi−1+ϵi Y_{i} = \mu + \alpha\cdot{}Y_{i-1} + \epsilon_{i} ϵiϵi\epsilon_{i}σ2eσe2\sigma_{e}^{2}(μ,α)t(μ,α)t(\mu, \alpha)^{t}(0,0)(0,0)(0,0)σ2pσp2\sigma_{p}^{2}。 基于自回归式,这意味着,数据点(分布)是正常的均值μ + α &CenterDot;&YiYiY_{i}和方差 σ 2 ë。因此,所有数据点(Y )的密度共同(假设独立性,这对我正在编写的程序很好)将为: p (Yμ+α⋅Yi−1μ+α⋅Yi−1\mu + \alpha\cdot{}Y_{i-1}σ2eσe2\sigma_{e}^{2}(Y)(Y)(Y)p(Y|(μ,α)t)=∏i=21112πσ2e−−−−√exp−(Yi−μ−α⋅Yi−1)22σ2e.p(Y|(μ,α)t)=∏i=21112πσe2exp⁡−(Yi−μ−α⋅Yi−1)22σe2. p(Y \quad | (\mu, \alpha)^{t}) = \prod_{i=2}^{11}\frac{1}{\sqrt{2\pi\sigma_{e}^{2}}}\exp{\frac{-(Y_{i} - \mu - \alpha\cdot{}Y_{i-1})^{2}}{2\sigma_{e}^{2}}}. 根据贝叶斯定理,我们可以将上述密度与先验密度相乘,然后只需要归一化常数即可。我的直觉是,这应该算是高斯分布,因此我们可以担心最后的归一化常数,而不用用和α上的积分来显式地计算它。μμ\muαα\alpha 这是我遇到的麻烦。如何计算先验密度(即多元变量)与单变量数据密度乘积的乘积?后验纯粹是和α的密度,但是我看不到如何从这样的乘积中得到。μμ\muαα\alpha …

2
设计一个好的混合/哈密顿蒙特卡洛算法,我应该知道些什么?
我正在为PyMC设计一种混合蒙特卡洛采样算法,并且试图使其尽可能地简化和通用,因此我正在寻找有关设计HMC算法的好的建议。我已阅读雷德福的调查章节和Beskos等。等人最近发表的有关HMC最佳(步长)调整的论文,我收集了以下技巧: 动量变量应该与协方差分布,其中Ç通常是一样的东西分配(为简单分布)的协方差矩阵,但可以想见,是不同的(对于滑稽形分布)。默认情况下,我在该模式下使用粗麻布。C−1C−1C^{-1}CCC 轨迹应使用跳越法计算(其他集成商似乎不值得) 对于非常大的问题,最佳接受率是.651,否则更高。 步长大小应该被缩放等,其中,大号是自由变量和d是维数。L×d(1/4)L×d(1/4)L\times d^{(1/4)}LLLddd 当存在轻尾或其他具有奇数稳定性特征的区域时,步长应更小。步长随机化可以对此有所帮助。 还有其他我应该采纳或至少考虑的想法吗?我应该阅读其他论文吗?例如,是否有值得采用的自适应步长算法?轨迹长度是否有好的建议?实际上是否有更好的集成商? 有人请使其成为社区Wiki。

2
如何参数化两个正态分布变量的比率或一个的倒数?
问题: 我正在参数化分布,以用作贝叶斯元分析中的先验和数据。数据在文献中以摘要统计的形式提供,几乎专门假定为正态分布(尽管所有变量均不能小于0,某些变量是比率,某些变量是质量,等等)。 我遇到了两种情况,但我没有解决方案。有时感兴趣的参数是数据的倒数或两个变量的比率。 例子: 两个正态分布变量的比率: 数据:氮和碳百分比的平均值和标准偏差 参数:碳氮比。 正态分布变量的倒数: 数据:质量/面积 参数:面积/质量 我当前的方法是使用仿真: 例如,对于一组碳和氮百分比数据,均值:xbar.n,c,方差:se.n,c,样本大小:nn,nc: set.seed(1) per.c &lt;- rnorm(100000, xbar.c, se.c*n.c) # percent C per.n &lt;- rnorm(100000, xbar.n, se.n*n.n) # percent N 我想参数化ratio.cn = perc.c / perc.n # parameter of interest ratio.cn &lt;- perc.c / perc.n 然后为我的先前选择范围为的最佳拟合分布0 → ∞0→∞0 \rightarrow \infty library(MASS) dist.fig …

2
在贝叶斯推断中,为什么某些项从后验预测中删除?
在Kevin Murphy 对高斯分布的共轭贝叶斯分析中,他写道,后验预测分布是 p (x ∣ D )= ∫p (X | θ )p (θ | d )dθp(x∣D)=∫p(x∣θ)p(θ∣D)dθ p(x \mid D) = \int p(x \mid \theta) p(\theta \mid D) d \theta 其中是适合模型的数据,而是看不见的数据。我不明白的是为什么对的依赖性在积分的第一项中消失了。使用基本的概率规则,我期望:dDDXxxdDD p (a )p (a ∣ b )p (x ∣ D )= ∫p (a ∣ c )p (c )dC= ∫p …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.