Questions tagged «bayesian»

贝叶斯推断是一种统计推断的方法,该方法依赖于将模型参数视为随机变量,并应用贝叶斯定理来推导有关参数或假设的主观概率陈述(取决于观察到的数据集)。


1
什么是后验预测检查,什么使它们有用?
我了解后验预测分布是什么,并且我一直在阅读有关后验预测检查的信息,尽管我尚不清楚它的作用。 后验检查到底是什么? 为什么有些作者说进行后验预测检查是“两次使用数据”并且不应被滥用?(甚至不是贝叶斯)?(例如,看到这个或这个) 这项检查到底有什么用?真的可以用于模型选择吗?(例如,是否同时考虑适应性和模型复杂性?)

8
我应该先教贝叶斯统计还是常客统计?
我正在帮助正在读中学的男孩们了解统计学,并且我正在考虑从一些简单的例子开始,而不必理会理论上的一些内容。 我的目标是给他们一种最直观但最有建设性的方法,以从头开始学习统计学,以激发他们对进一步追求统计学和定量学习的兴趣。 不过,在开始之前,我有一个特别的问题,它具有非常普遍的含义: 我们是否应该开始使用贝叶斯或常客制框架教授统计学? 到处进行研究,我发现一种常见的方法是从对常客统计学的简要介绍开始,然后再深入讨论贝叶斯统计(例如Stangl)。

6
用于估计大致正态分布规模的鲁棒贝叶斯模型将是什么?
存在许多健壮的规模估计器。一个明显的例子是与标准偏差相关的中位数绝对偏差,即。在贝叶斯框架中,存在多种方法来可靠地估计大致正态分布的位置(例如,被异常值污染的正态),例如,可以假设数据的分布与分布或拉普拉斯分布相同。现在我的问题是:σ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 以鲁棒方式测量大致正态分布规模的贝叶斯模型在与MAD或类似鲁棒估计量相同的意义上是鲁棒的吗? 与MAD的情况一样,如果数据的分布实际上是正态分布的,那么贝叶斯模型可以逼近正态分布的SD,那将是很巧妙的。 编辑1: 一个模型的一个典型的例子假设数据时即防止污染/离群健壮是大致正常的使用是在状分布:yiyiy_i yi∼t(m,s,ν)yi∼t(m,s,ν)y_i \sim \mathrm{t}(m, s,\nu) 其中是平均值,是小数,是自由度。如果在和上具有适当的先验,则将是均值的估计值,它将对异常值具有鲁棒性。但是,由于s取决于\ nu,因此并不是y_i SD的一致估计。例如,如果\ nu将固定为4.0,并且上面的模型将适合\ mathrm {Norm}(\ mu = 0,\ sigma = 1)分布中的大量样本,则s小号ν 米,小号ν 米ÿ 我小号ÿ 我小号ν ν Ñ ø ř 米(μ = 0 ,σ = 1 )小号mmmsssνν\num,sm,sm, sνν\nummmyiyiy_isssyiyiy_isssνν\nuνν\nuNorm(μ=0,σ=1)Norm(μ=0,σ=1)\mathrm{Norm}(\mu=0,\sigma=1)sss大约是0.82 我要寻找的是一个健壮的模型,就像t模型一样,但是要使用SD代替平均值(或除平均值外)。 编辑2: 以下是R和JAGS中的一个编码示例,上面提到的t模型相对于均值如何更健壮。 # generating some contaminated data y <- c( …

5
置信区间说明精度(如果有的话)是什么?
Morey等人(2015年)认为,置信区间具有误导性,并且与理解它们有关。其中,他们将精度谬误描述如下: 精度谬误 置信区间的宽度表示我们对参数知识的精度。狭窄的置信区间显示精确的知识,而宽的置信误差则显示不精确的知识。 估计的精度和置信区间的大小之间没有必要的联系。看到这种情况的一种方法是,想象两个研究人员(一名高级研究员和一名博士生)正在分析实验中参与者的数据。为了使博士生受益,这项高级研究人员决定将参与者随机分为两组,每组25人,这样他们就可以分别分析一半的数据集。在随后的会议上,有一个两股另一个自己学生的牛逼置信区间的平均值。博士生的95 % CI为52 ± 2,而高级研究员的95 % CI为52 ± 2。505050252525Ťtt95 %95%95\%52 ± 252±252 \pm 295 %95%95\%CI为。53±453±453 \pm 4 资深研究员指出,他们的结果大致上是一致的,他们可以使用各自两个点估计值的均等加权平均值作为真实平均值的总体估计。52.552.552.5 但是,这名博士生认为,这两种方法的权重不应平均分配:她指出自己的CI的宽度是后者的一半,并且认为自己的估算更为准确,因此应加权更大。她的顾问指出,这是不正确的,因为对两种方法进行加权加权后得出的估算值将不同于对整个数据集进行分析得出的估算值,该估算值必须为。博士生的错误是假设CI直接表示数据后精度。52.552.552.5 上面的示例似乎具有误导性。如果我们将一个样本随机分为两半,那么我们期望样本均值和标准误都接近。在这种情况下,使用加权平均值(例如,通过反误差加权)与使用简单算术平均值之间应该没有任何区别。但是,如果估计值不同并且其中一个样本的误差明显更大,则可能表明此类样本存在“问题”。 显然,在上面的示例中,样本大小相同,因此通过均值的平均值“合并”数据与整个样本的均值相同。问题在于,整个示例遵循的逻辑不明确,即首先将样本分为几部分,然后再重新合并以进行最终估计。 该示例可以重新措辞以得出完全相反的结论: 研究人员和学生决定将其数据集分为两半,并进行独立分析。之后,他们比较了自己的估计,似乎样本意味着他们计算出的差异很大,而且学生的估计的标准误也更大。该学生担心这可能会暗示其估计精度存在问题,但是研究人员暗示,置信区间和精度之间没有联系,因此这两个估计值都是可信赖的,并且可以发布其中的任何一个(随机选择),作为他们的最终估计。 ttt x¯±c×SE(x)x¯±c×SE(x) \bar x \pm c \times \mathrm{SE}(x) ccc 所以我的问题是: 精确谬论真的是谬论吗?置信区间对精度有何评价? Morey,R.,Hoekstra,R.,Rouder,J.,Lee,M.和Wagenmakers,E.-J. (2015)。将置信度置入置信区间的谬误。心理公告与评论,1-21。https://learnbayes.org/papers/confidenceIntervalsFallacy/

3
基于熵的沙里兹时间悖论贝叶斯后向箭头反驳?
在本文中,才华横溢的研究人员Cosma Shalizi认为,要完全接受一种主观的贝叶斯观点,还必须接受一种非物质的结果,即时间的箭头(由熵流给出)实际上应该向后退。这主要是为了反对ET Jaynes提出和推广的最大熵/完全主观贝叶斯观点。 随着在LessWrong,很多参与方都非常有兴趣在贝叶斯概率理论,并在主观贝叶斯方法作为正式决定理论的基础和垫脚石走向强大的AI 埃利泽·尤多科斯基是一种常见的贡献者那里,我最近在读这篇文章时,我碰到了此评论(在原始帖子的页面上不久之后,还有其他几条很好的评论)。 谁能评论尤德科夫斯基反驳沙里兹的有效性。简而言之,尤德科夫斯基的论点是,推理者更新其信念的物理机制需要工作,因此具有热力学成本,沙利兹正在地毯下扫荡。Yudkowsky在另一条评论中对此辩护说: “如果您从系统外部看一个逻辑上无所不知的完美观察者的观点,那么“熵”的概念就几乎没有意义,“概率”也是如此-您不必使用统计热力学来建模任何东西,您只需使用确定性精确波动方程。” 任何概率论者或统计学家都可以对此发表评论吗?我不太在乎权威人士关于沙利兹或尤德科夫斯基地位的争论,但我真的很想看到尤德科夫斯基的三点观点对沙利兹的文章提出批评的方式的总结。 为了符合FAQ准则并使之成为一个具体可回答的问题,请注意,我要提出一个具体的,逐项的答复,该答复应采用Yudkowsky的三步法论证,并指出在Shalizi文章中这三步法反驳了假设和/或推导,或者,另一方面,指出了在沙利兹的论文中论及尤德科夫斯基论点的地方。 我经常听到吹捧Shalizi的文章是铁定论据,证明无法捍卫成熟的主观贝叶斯主义...但是在阅读了Shalizi文章几次之后,对我来说这似乎是一个玩具论证,永远无法适用观察者与所观察的事物(即所有实际物理学)进行交互。但是Shalizi是一位出色的研究人员,因此我欢迎第二意见,因为我很可能不理解这场辩论的重要内容。


2
为什么我们应该使用t错误而不是普通错误?
在Andrew Gelman撰写的此博客文章中,包含以下内容: 50年前的贝叶斯模型看起来简直是无望的(当然,对于简单的问题除外),我希望今天的贝叶斯模型在50年后看起来简直是绝望的。(仅举一个简单的例子:我们可能应该在任何地方都常规地使用t而不是正常错误,但是出于熟悉,习惯和数学上的方便,我们还没有这样做。这可能是很好的理由-在科学上在政治上,保守主义有很多有利的理由,但我认为,最终,当我们适应更复杂的模型时,我们会朝着这个方向发展。) 为什么我们应该“常规地在几乎所有地方都使用t而不是普通错误”?

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
Fisher信息是什么信息?
假设我们有一个随机变量X〜˚F(x | θ )X〜F(X|θ)X \sim f(x|\theta)。如果θ0θ0\theta_0是真正的参数,则所述似然函数应最大化和衍生物等于零。这是最大似然估计器背后的基本原理。 据我了解,费舍尔信息被定义为 一世(θ )= E [ (∂∂θF(X| θ))2]一世(θ)=Ë[(∂∂θF(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] 因此,如果θ0θ0\theta_0是真实参数,一世(θ )= 0一世(θ)=0I(\theta) = 0。但如果θ0θ0\theta_0是不是真正的参数,那么我们将有费希尔信息量更大。 我的问题 Fisher信息是否衡量给定MLE的“错误”?换句话说,是否存在积极的Fisher信息并不意味着我的MLE不够理想? “信息”的定义与Shannon使用的定义有何不同?我们为什么称其为信息?

2
朴素贝叶斯与多项式朴素贝叶斯之间的区别
我之前已经处理过朴素贝叶斯分类器。我最近一直在阅读有关朴素贝叶斯的多项式。 也后验概率=(现有*似然)/(证据)。 我发现朴素贝叶斯与多项式朴素贝叶斯之间的唯一主要区别(在对这些分类器进行编程时)是 多项式朴素贝叶斯计算似然度是单词/令牌(随机变量)的计数,朴素贝叶斯计算似然度如下: 如果我错了纠正我!


3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

2
Statistics.com是否发布了错误的答案?
Statistics.com发布了本周的问题: 居民保险欺诈率是10%(十分之一的请求是欺诈性的)。一位顾问提出了一种机器学习系统,以审查索赔并将其分类为欺诈或无欺诈。该系统在检测欺诈性索赔方面有90%的效率,但在正确分类非欺诈性索赔方面只有80%的效率(错误地将五分之一标记为“欺诈”)。如果系统将索赔分类为欺诈,那么它真的是欺诈的概率是多少? https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true 我和我的同伴都分别提出了相同的答案,但与发布的解决方案不符。 我们的解决方案: (.9 * .1)/((。9 * .1)+(。2 * .9))= 1/3 他们的解决方案: 这是条件概率中的问题。(这也是一个贝叶斯问题,但是在贝叶斯规则中应用该公式仅有助于掩盖正在发生的事情。)考虑100个索赔。10个是欺诈性的,系统会正确地将其中9个标记为“欺诈”。90个索赔将是正确的,但系统会将72(80%)错误地分类为“欺诈”。因此总共标记了81个索赔作为欺诈行为,但实际上只有9个(占11%)是欺诈行为。 谁是对的


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.