统计和大数据 bayesian

2

我是统计学的初学者（仅参加了一门大学课程），但是我有编程背景。我刚刚开始使用针对Ruby的贝叶斯分类器库，并且正在寻找想法进行分析。现在，我在搞乱Tweet的分类，但是您有什么想法吗？更重要的是，我如何了解哪种数据类型适合朴素的贝叶斯分类。谢谢。

11 bayesian naive-bayes

2

为什么对MCMC采样器有反对使用Jeffreys或基于熵的先验的建议？

Stan的开发人员在其Wiki页面上指出：我们不喜欢的一些原理：不变性，杰弗里斯，熵相反，我看到了很多正态分布建议。到目前为止，我使用了不依赖于采样贝叶斯方法，并且是那种高兴地明白了为什么是二项式可能性的不错选择。θ 〜贝塔（ α = 12，β= 12）θ〜贝塔（α=1个2，β=1个2）\theta \sim \text{Beta}\left(\alpha=\frac{1}{2},\beta=\frac{1}{2}\right)

11 bayesian mcmc prior pymc stan

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

5

贝叶斯定理的解释适用于乳腺X线摄影阳性结果

我正在尝试将贝叶斯定理的结果应用于经典的乳房X射线照片示例，而乳房X射线照片的扭曲是完美的。那是，癌症发生率：.01.01.01 假设患者患有癌症，则乳房X光检查阳性的可能性：1个1个1 假设患者未患癌症，乳房X光检查呈阳性的可能性：.01.01.01 贝叶斯： P（癌症|乳房X线照片+）= 1个 ⋅ 0.01（1 ⋅ 0.01 ）+ （0.091 ⋅ 0.99 ）1个⋅.01（1个⋅.01）+（.091⋅.99）\dfrac {1 \cdot .01}{(1 \cdot .01) + (.091 \cdot .99)} = .5025=.5025 = .5025 因此，如果人口中有一个随机的人进行乳房X光检查并获得阳性结果，那么他们有50％的机会患上癌症吗？我无法直觉地理解在1％的人口中只有1％的假阳性几率会触发50％的结果。从逻辑上讲，我认为具有很小的假阳性率的完全正确的乳房X线照片会更加准确。

11 bayesian bayes binning diagnosis

1

在回归设置中，什么时候不能将频繁样本抽样分布解释为贝叶斯后验？

我的实际问题在最后两段中，但是要激发他们：如果我试图估计遵循具有已知方差的正态分布的随机变量的均值，则我已经读过，在均值上放置均等的先验会导致与似然函数成正比的后验分布。在这些情况下，贝叶斯可信区间与频密者置信区间完全重叠，并且贝叶斯最大值后验估计等于频密者最大似然估计。在简单的线性回归设置中， Y=Xβ+ϵ,ϵ∼N(0,σ2)Y=Xβ+ϵ,ϵ∼N(0,σ2)Y = \textbf{X}\beta+\epsilon, \hspace{1cm} \epsilon\sim N(0,\sigma^2) 推杆上形成均匀的前和前上逆伽马σ 2与后部小的参数值结果β中号甲P，这将是非常相似的频率论β中号大号ë，而对于后验分布的可靠区间的β | X，它将与最大似然估计值周围的置信区间非常相似。他们不会完全一样，因为之前上σ 2ββ\betaσ2σ2\sigma^2β^MAPβ^MAP\hat\beta^{MAP}β^MLEβ^MLE\hat\beta^{MLE}β|Xβ|X\beta|Xσ2σ2\sigma^2施加的影响小的量，并且如果后估计经由MCMC仿真，将介绍差异的另一来源进行，但围绕贝叶斯置信区间β中号甲P和周围频率论置信区间β中号大号ë将彼此之间非常接近，当然，随着样本数量的增加，随着似然性的影响逐渐占主导，它们应该收敛。β^MAPβ^MAP\hat\beta^{MAP}β^MLEβ^MLE\hat\beta^{MLE} 但是我已经读到，在有些回归情况下，这些近等值不成立。例如，具有随机效应的层次回归或逻辑回归-在我所了解的情况下，没有“良好”的目标或参考先验条件。所以我的一般问题是-假设我想推断P(β|X)P(β|X)P(\beta|X)并且我没有要合并的先前信息，为什么我不能在这些情况下进行频繁的最大似然估计，并将所得的系数估计和标准误解释为贝叶斯MAP估计和标准差，并隐式地对待这些由先验得出的“后验”估计必须是“无信息的”，而没有试图找到会导致这种后验的先验的明确表述？通常，在回归分析领域中，什么时候可以按照这些原则行事（将似然性当作后验对待），什么时候不行？对于不是基于似然性的频繁性方法（例如准似然方法），答案是否取决于我的推论目标是系数点估计，还是系数在特定范围内的概率，或预测分布的数量？

11 bayesian maximum-likelihood posterior frequentist

2

为什么后验密度与先验密度乘以似然函数成比例？

11 bayesian conditional-probability likelihood

2

贝叶斯统计中的分层先验是什么？

什么是分层先验？它们与先验的一般概念有何不同？

11 bayesian multilevel-analysis

1

人们为什么使用“证据权重”一词，它与“逐点相互信息”有何区别？

在这里，“证据权重”（WOE）是已发表的科学和政策制定文献中的常用术语，在风险评估的背景下最常见，其定义如下： w(e:h)=logp(e|h)p(e|h¯¯¯)w(e:h)=log⁡p(e|h)p(e|h¯)w(e : h) = \log\frac{p(e|h)}{p(e|\overline{h})} 其中是证据，是假设。eeehhh 现在，我想知道PMI（逐点相互信息）的主要区别是什么 pmi(e,h)=logp(e,h)p(e)∗p(h)pmi(e,h)=log⁡p(e,h)p(e)∗p(h)pmi(e,h)=\log\frac{p(e,h)}{p(e)*p(h)}

11 probability bayesian mutual-information

1

“先验稀疏”一词指的是什么（FBProphet论文）？

阅读“大规模预测”（FBProphet预测工具，请参阅https://peerj.com/preprints/3190.pdf）一文，我遇到了“先验稀疏”一词。作者解释说，他们正在使用这样的“稀疏先验”模型来建模与某些标量速率的速率偏差的向量，后者是逻辑增长模型中的模型参数。δδ\mathbf{\delta}ķķk 当他们指出，如果参数小，我是否正确理解“稀疏”是指携带接近零的元素的向量？我很困惑，因为我认为所有矢量元素都必须是回归的参数，但是像这样定义它们只会让参数和成为自由模型参数，不是吗？δĴ〜拉普拉斯（0 ，τ）δĴ〜拉普拉斯（0，τ）\delta_j \sim\text{Laplace}(0,\tau)ττ\tauķķkττ\tau 另外，是否使用拉普拉斯分布来生成先验共性？我不明白为什么它比例如正态分布更可取。

11 regression bayesian forecasting

2

广义正态分布的提案分布

我正在使用具有概率密度函数的广义正态分布（维基百科条目）来模拟植物扩散。 b2aΓ(1/b)e−(da)bb2aΓ(1/b)e−(da)b \frac{b}{2a\Gamma(1/b)} e^{-(\frac{d}{a})^b} 其中是行进距离，是比例参数，是形状参数。平均行驶距离由以下分布的标准偏差给出：dddaaabbb a2Γ(3/b)Γ(1/b)−−−−−−−−√a2Γ(3/b)Γ(1/b) \sqrt{\frac{a^2 \Gamma(3/b)}{\Gamma(1/b)}} 这是方便的，因为它允许以指数形式时，高斯形状时，并且对于尖峰厚尾分布时。这种分布在植物传播文献中经常出现，尽管通常它很少见，因此很难找到有关的信息。b=1b=1b=1b=2b=2b=2b<1b<1b<1 最有趣的参数是和平均分散距离。bbb 我正在尝试使用MCMC 估算和，但是我正在努力想出一种有效的方法来对提案价值进行抽样。到目前为止，我已经使用Metropolis-Hastings，并且从和均匀分布中得出，并且我得到的后平均分散距离约为200-400米，这确实具有生物学意义。但是，收敛确实很慢，并且我不确信它正在探索整个参数空间。aaabbb0<a<4000<a<4000 < a < 400 0<b<30<b<3 0 < b<3 为和分配更好的提案分配是棘手的，因为它们彼此依赖，而没有太多意义。平均分散距离确实具有明确的生物学意义，但是给定的平均分散距离可以用和许多组合来解释。因此，和在后面相关。aaabbbaaabbbaaabbb 到目前为止，我已经使用了Metropolis Hastings，但是我对在这里可以使用的其他算法持开放态度。问题：有人可以建议一种更有效的方法来绘制和投标值吗？aaabbb 编辑：关于系统的其他信息：我正在研究沿山谷的植物种群。目的是确定花粉在供体植物和它们授粉的植物之间传播的距离分布。我的数据是：每个可能的花粉供体的位置和DNA 从已经生长并进行基因分型的60种母本植物（即花粉接受者）的样品中收集的种子。每个母本植物的位置和DNA。我不知道供体植物的身份，但是可以通过确定哪些供体是每株幼苗的父亲，从遗传数据中推论得出。假设此信息包含在概率矩阵G中，每个后代都有一行，每个候选供体都有一列，这仅根据遗传数据就可以得出每个候选者是每个后代的父亲的概率。G需要大约3秒钟的时间来计算，并且每次迭代都需要重新计算，这大大降低了速度。由于我们通常期望更接近的候选人捐赠者更有可能是父亲，因此，如果您共同推断父子关系和分散父子关系，则父子关系推断会更准确。矩阵D具有与G相同的维度，并且仅基于母体与候选者之间的距离和某些参数向量的函数包含父系概率。在给定遗传和空间数据的情况下，D和G中的相乘元素给出了父权的联合概率。乘积值的乘积给出了离散模型的可能性。如上所述，我一直在使用GND来建模色散。实际上，我实际上使用了GND和均匀分布的混合体，以允许非常遥远的候选者仅由于偶然性（遗传杂乱）而具有较高的亲子关系可能性（如果忽略，这会使GND的明显尾部膨胀）。因此，扩散距离的概率为：ddd cPr(d|a,b)+(1−c)NcPr(d|a,b)+(1−c)N c \Pr(d|a,b) + \frac{(1-c)}{N} 其中是到GND的散布距离的概率，N是候选者的数量，而（）确定GND对散布的贡献。Pr(d|a,b)Pr(d|a,b)\Pr(d|a,b)ccc0<c<10<c<10< c <1 因此，还有两个额外的考虑因素会增加计算负担：色散距离是未知的，但必须在每次迭代中进行推断，而创建G来做到这一点非常昂贵。有第三个参数进行积分。ccc 由于这些原因，在我看来，执行网格插值过于复杂，但我很高兴被说服。例这是我使用的python代码的简化示例。我简化了从遗传数据中对亲子关系的估计，因为这将涉及很多额外的代码，并将其替换为0到1之间的值矩阵。首先，定义函数以计算GND： import numpy as np …

10 distributions bayesian mcmc

3

MAP是

我在其中一门在线课程中遇到了这些幻灯片（第16和＃17号幻灯片）。讲师试图解释最大后验估计（MAP）实际上是解决方案L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]，其中θ∗θ∗\theta^{*}是真实参数。有人可以解释一下如何进行吗？编辑：添加了幻灯片，以防链接断开。

10 bayesian optimization loss-functions decision-theory map-estimation

6

教学贝叶斯统计的简单现实例子？

我想找到一些“现实世界的例子”来教授贝叶斯统计。贝叶斯统计允许人们将先验知识正式纳入分析。我想给学生一些简单的现实世界中的研究人员实例，这些研究人员将先验知识整合到他们的分析中，以便学生可以更好地理解为什么首先要使用贝叶斯统计的动机。您是否知道任何简单的现实世界示例，例如估算总体均值，比例，回归等，研究人员正式将先前的信息纳入其中？我意识到贝叶斯主义者也可以使用“非信息”先验，但是我对使用信息先验（即真实先验信息）的真实示例特别感兴趣。

10 bayesian teaching

7

敏感性或特异性是患病率的函数吗？

标准教学说，敏感性和特异性是测试的属性，与患病率无关。但这不只是一个假设吗？哈里森的内科学原理第19版说长期以来，人们一直认为敏感性和特异性是测试准确性与患病率无关的参数，许多文献仍在发表这一声明。然而，这种统计学上有用的假设在临床上是简单的。...住院患者的测试敏感性可能更高，而门诊患者的测试特异性更高。（住院患者的患病率通常高于门诊患者）这些参数之间是否存在数学或近似图形关系？即使这个链接也称其为“简化”。为什么？编辑：我知道如何定义灵敏度。正如答案中所提到的，没有涉及流行的术语。我本人一直坚持认为，这些是测试的属性，不受所使用的总体影响，直到我遇到此声明，因此才提出问题。但我认为，造成这种混乱的原因不是由于定义，而是由于这些值的实际计算。特异性和敏感性是使用2x2表格计算的，这里参考人群的普遍性重要吗？这就是他们所指的吗？如果可以，功能是什么？

10 bayesian epidemiology diagnostic sensitivity-specificity

2

非信息先验与不当先验之间的区别

我想知道这两种先验之间有什么区别：非信息性的不当

10 bayesian prior improper-prior

1

是否有实现的Monte Carlo / MCMC采样器可以处理后验分布的局部局部最大值？

我目前正在使用贝叶斯方法来估计由多个ODE组成的模型的参数。由于我有15个参数可以估计，因此我的采样空间是15维的，而我寻找的后验分布似乎有很多局部最大值，这些最大值被非常低概率的大区域非常孤立。这导致了我的蒙特卡洛链的混合问题，因为一个链不太可能“跳出”一个局部最大值并偶然碰到另一个最大值。在该领域似乎有很多研究，因为它很容易找到解决这个问题的论文（见下文），但是很难找到一个实际的实现。我只发现了与分子动力学有关的软件包，而没有贝叶斯推断。是否有（MC）MC采样器的实现能够处理孤立的局部最大值？我被迫与Matlab一起工作，因为那是我编写的ODE模型所编写的，所以最欢迎有关Matlab的建议;-)。但是，如果有其他语言的“杀手级应用”，也许我可以说服我的PI切换;-)。我目前正在使用由Haario，Laine等人撰写的“延迟拒绝/自适应蒙特卡洛”采样器。，这也是迄今为止我所能找到的唯一一个比标准Metropolis-Hastings算法更复杂的采样器值得注意的方法似乎是：编辑于2017年3月7日更新了我在此期间学到的知识具有不同起点的多个相似链链间适应。使用多个独立链生成的合并样本的经验协方差矩阵来更新链提案分布的协方差矩阵。（1）不同回火的多条链回火：某种“温度”似乎改变了后部景观，使链条更可能混合。（我还没有深入探讨这一问题）（1）调节的目的是使由后验概率分布形成的（高维）概率态势平坦。通常通过将后验概率乘以的幂来实现，其中后方景观在变平（3，p.298）。这意味着，代替计算状态的后验概率，给定数据可以计算出回火后验概率1/T1/T1/TT>1T>1T>1p(θ∣D)p(θ∣D)p(\theta\mid D)θθ\thetaDDD p(θ∣D)1/T∝(p(D∣θ)⋅p(θ))1/Tp(θ∣D)1/T∝(p(D∣θ)⋅p(θ))1/Tp(\theta\mid D)^{1/T} \propto \left( p(D\mid\theta)\cdot p(\theta)\right)^{1/T} 选择的越高，概率图中的峰越平坦越宽。因此，较高的值导致采样器从一个局部最大值切换到另一个局部最大值的可能性更高。但是，不是搜索的后验分布。因此，必须使用该分布的样本链来启用之后的采样。TTTTTTp(θ∣D)1/Tp(θ∣D)1/Tp(\theta\mid D)^{1/T}T≠1T≠1T\neq1p(θ∣D)p(θ∣D)p(\theta\mid D) 原始的，未回火的后验分布的样本，可以通过几种方法从该分布的回火版本得到样本：大都会耦合的MCMC同时运行多个链，每个链具有不同但恒定的值。概率性地切换两个链的状态。仅将的链中的样本用于下游估计；其他链只需确保对所有峰进行了采样。参考（4）具有并行算法，并为此主题引用了会议文章和教科书（5,6）TTTT=1T=1T=1 小世界MCMC。采样器在两个建议之间切换。大多数情况下，使用差异较小的提案分布，很少使用差异较大的提案。这两个建议之间的选择是随机的。差异较大的建议也可以从另一个链中得出，该链只会产生很大的跳跃，以粗糙的方式尽可能多地采样（2,7）哈密尔顿蒙特卡洛（HMC）我对此了解不多，但是JAGS的No-U-Turn采样器（NUTS）似乎在使用它。参见参考。（8）。Alex Rogozhnikov创建了关于该主题的可视教程。参考文献：（1）Craiu等，2009：向邻居学习：并行链和区域自适应MCMC。 J Am Stat Assoc 104：488，第1454-1466页。http://www.jstor.org/stable/40592353 （2）关岛等，2012：带回火的小世界MCMC：人为性和光谱缺口。https://arxiv.org/abs/1211.4675（仅在arXiv上）（3）：Brooks等。（2011）。马尔可夫链手册蒙特卡洛。CRC出版社。（4）：Altekar等。（2004）：平行大都会耦合马尔可夫链蒙特卡洛用于贝叶斯系统发生推断。Bioinformatics 20（3）2004，第407–415页，http： //dx.doi.org/10.1093/bioinformatics/btg427 （5）：盖耶（Geyer CJ）（1991）马尔可夫链蒙特卡罗最大似然。在：Keramidas（ed。），《计算科学与统计：接口》第23届会议论文集。接口基金会，费尔法克斯站，第156–163页。（6）：Gilks WR和Roberts GO（1996）。改善MCMC的策略。在：实践中的Gilks WR，Richardson S和Spiegelhalter（eds） …

10 bayesian mcmc monte-carlo ergodic

Questions tagged «bayesian»