借阅信息到底意味着什么?


11

我经常与他们谈论贝叶斯层次模型中的信息借用或信息共享。对于这实际上意味着什么以及贝叶斯层次模型是否独特,我似乎无法获得一个直接的答案。我有点主意:层次结构中的某些级别共享一个公共参数。我不知道这如何转换为“信息借用”。

  1. 人们喜欢扔掉“信息借用” /“信息共享”这句话吗?

  2. 是否有一个封闭形式的后继例子来说明这种共享现象?

  3. 这是贝叶斯分析所独有的吗?通常,当我看到“信息借用”示例时,它们只是混合模型。也许我以一种老式的方式学习了这种模型,但是我看不到任何共享。

我对开始有关方法的哲学辩论不感兴趣。我只是对这个术语的使用感到好奇。


1
对于您的问题2,您可能会发现此链接发光:tjmahr.com/plotting-partial-pooling-in-mixed-effects-models
Isabella Ghement

我很想在这里的答案中看到有关信息理论的一些提及。
shadowtalker

Answers:


10

这是专门来自经验贝叶斯(EB)的术语,实际上,它所指的概念在真正的贝叶斯推断中并不存在。最初的术语是“借贷强度”,它是约翰·图基(John Tukey)在1960年代创造的,并在1970年代和1980年代关于斯坦因悖论和参量EB的一系列统计文章中进一步由Bradley Efron和Carl Morris推广使用。现在,许多人使用“信息借用”或“信息共享”作为同一概念的同义词。您可能在混合模型的上下文中听到它的原因是,对于混合模型的最常见分析具有EB解释。

EB具有许多应用程序,并且适用于许多统计模型,但是上下文始终是您有大量(可能是独立的)案例,并且您试图在每种情况下估计一个特定的参数(例如均值或方差)。在贝叶斯推理中,您可以基于每种情况的观测数据以及该参数的先验分布对参数进行后验推断。在EB推理中,从数据案例的整个集合中估计参数的先验分布,然后像贝叶斯推理一样进行推理。因此,当您估计特定案例的参数时,您既会使用该案例的数据,又会使用估计的先验分布,后者表示“信息”或“强度”

现在您可以了解为什么EB具有“借贷”的功能,但真正的贝叶斯却没有。在真正的贝叶斯中,先前的分配已经存在,因此不需要乞讨或借用。在EB中,先验分布是根据观察到的数据本身创建的。当我们推断一个特定案例时,我们将使用从该案例中观察到的所有信息,以及从其他每个案例中获取的一些信息。我们说这只是“借来的”,因为当我们继续推断下一种情况时,信息会被返回。

当每个“案例”通常是基因或基因组特征时,EB和“信息借用”的想法在统计基因组学中大量使用(Smyth,2004; Phipson等,2016)。

参考文献

埃夫隆,布拉德利和卡尔·莫里斯。斯坦因在统计上的悖论。《科学美国人》 236号。5(1977):119-127。http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

史密斯(Smyth),GK(2004)。用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。遗传学和分子生物学中的统计应用第3卷,第1期,第3条 。http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson,B,Lee,S,Majewski,IJ,Alexander,WS和Smyth,GK(2016)。可靠的超参数估计可防止高变基因,并提高检测差异表达的能力。应用统计年鉴 10,946-963。 http://dx.doi.org/10.1214/16-AOAS920


1
我认为这种解释是不正确的。例如,混合效应模型借用信息,还可以在传统的贝叶斯框架内进行分析
克里夫AB

1
@CliffAB如果深入研究混合模型分析,您会发现分析实际上总是经验贝叶斯而不是真实贝叶斯。当然,大多数作者会说实际上是EB时他们正在做Bayes,因为大多数作者没有区别。如果您认为可以举一个真实的贝叶斯混合模型分析的例子,那么我邀请您这样做。
Gordon Smyth '18

1
@CliffAB在少数情况下,如果将真正的贝叶斯分析用于混合模型(例如,通过MCMC或Winbugs),则IMO不适用于术语“借阅信息”。毫无疑问,图基和埃夫隆所说的“借用”是不同意的。
戈登·史密斯

1
@CliffAB我同意brms是贝叶斯软件包,这就是为什么术语“借阅信息”没有出现在brms文档中的原因。
戈登·史密斯

1
简单的贝叶斯模型不会“借用信息”,但多层模型会“借用信息”,尽管我认为该领域中比较流行的术语是“部分池”。是A. Gelman对此进行的经典讨论。通常,如果您接受混合效果为“借入信息”建模的想法,那么我不确定如何说贝叶斯混合效果不会。先验出现在借入信息下方的级别。如果说混合效应模型借用信息,那就解释了我对您的主张的困惑。
Cliff AB

5

考虑一个简单的问题,例如估计多个组的均值。如果您的模型将它们视为完全不相关,则关于每个均值的唯一信息就是该组中的信息。如果您的模型将它们的均值视为某种程度相关(例如,在某些混合效果类型模型中),则估计将更加精确,因为来自其他组的信息会告知(调整,缩小为共同均值)给定组的估计。那是“借阅信息”的一个例子。

在与信誉有关的精算工作中出现了这种想法 (虽然公式中明确表示了这种借用,但不一定使用“借用”这个特定术语);这可以追溯到至少一个世纪前,很明显,可以追溯到19世纪中叶。例如,参见Longley-Cook,LH(1962)可信度理论导论PCAS,49,194-221。

这是惠特尼(Whitney),1918年(经验评级理论,PCAS,第4卷,第274-292页):

例如,这里存在一种风险,显然要将其归类为机加工车间。因此,在没有其他信息的情况下,它应该伪造机器维修费率,即该类所有风险的平均费率。另一方面,风险本身也有经验。如果风险很大,那么这可能比类经验更好地指导其危险。在任何情况下,无论风险是大还是小,这两个要素都有其价值作为证据,因此必须将两者都考虑在内。困难源于以下事实:总的来说,证据是相互矛盾的。因此,问题在于找到并应用一个标准,该标准将赋予每个适当的权重。

虽然这里没有“借用”一词,但显然存在使用组级别信息来通知我们有关该机加工车间的概念。[当“借用强度”和“借入信息”开始应用于这种情况时,这些概念保持不变。


1
我很欣赏这个示例,因为它清楚地说明了借款的用途,但是我正在寻找更精确的定义。
EliK

一个精确的不精确的定义,直观的术语?我想一个可能是可能的-一个人也许可以通过在各个组之间关联参数来减少方差来定义它,但是这样做可以很容易地排除这种概念的合理使用
Glen_b -Reinstate Monica

我不清楚这种不精确的直觉是否有实际定义。
EliK

3

σ[R2

σ[R2σ[R2

σ[R2σ[R2σ[Rσ[R2。数据中的信息越少,先验信息就变得越重要。如果您还没有这样做,我建议您尝试只模拟几个主题的混合效果模型。您可能会惊讶于Frequentist方法的估计是多么不稳定,尤其是当您仅添加一个或两个离群值时……以及人们看到不离群值的真实数据集的频率是多少?我相信Gelman等人在贝叶斯数据分析中涵盖了此问题,但可悲的是,我认为它不是可公开获得的,因此没有超链接。

最后,尽管多级建模是最常见的效果,但它不仅仅是混合效果。参数不仅受先验和数据影响,还受其他未知参数影响的任何模型都可以称为多级模型。当然,这是一组非常灵活的模型,但是可以使用Stan,NIMBLE,JAGS等工具从头开始编写并进行最少的工作。就此而言,我不确定我会说多层建模是“炒作”;基本上,您可以编写任何可以表示为有向非循环图的模型并立即安装它(假设它具有合理的运行时间)。与传统的选择(即回归模型程序包)相比,这提供了更多的功能和潜在的创造力,但并不需要仅仅为了适应新型模型而从头开始构建整个R程序包。


谢谢你的回答。为了澄清起见,我并不是说多层建模是“炒作”。我当时在问“信息借用”是否具有确切的含义,或者该特定术语仅仅是炒作而已。
EliK

@EliK:我不确定它的确切含义;戈登·史密斯(Gordon Smyth)给出了一些可能被认为是精确含义的东西,即经验贝叶斯(Empirical Bayes),但我认为现在通常使用的该术语似乎与该含义不符。就我个人而言,我不认为这只是一个炒作。这确实是在固定效果模型上使用混合效果模型的动机,尽管这不仅限于标准回归模型框架。我确实认为很多人都说模糊的“多级建模”而不是更精确的“混合效果建模”,因为它现在更时尚了。
悬崖AB

我想说的是ML论文和博客中的炒作,认为您需要贝叶斯模型来实现多层模型。我会对一个工作示例感兴趣,在该示例中,将一个与交叉验证的正则化模型进行比较(用于预测)
seanv507

就其价值而言,贝叶斯方法的唯一替代方法是最大似然法,它只是具有统一先验的贝叶斯方法。因此,这并不是真的错误。
shadowtalker

1
@shadowtalker:如果考虑贝叶斯的MLE方法,那么贝叶斯一词在统计上基本上是没有意义的。但是,这与我在ML文献中看到的一些错误是一致的。
Cliff AB

2

我假设,因为您标记了机器学习,所以您对预测感兴趣,而不是对推理感兴趣。(我相信我与@Glen_b的回答保持一致,但只是翻译为此上下文/词汇)

在这种情况下,我会说这是一个流行词。具有组变量的正则化线性模型将借鉴信息:在个体水平上的预测将是组均值和个体效应的组合。考虑l1 / l2正则化的一种方法是,它为总误差的减少分配系数成本,由于组变量比单个变量影响更多的样本,因此存在估算组效果的压力,与每个变量的分组效应。

对于具有足够数据的单个点,单个效果将为“强”,对于具有少量数据的单个点,效果将较弱。

我认为最简单的方法是考虑L1正则化和具有相同效果的同一组中的3个人。未正规化的问题有无数个解,而正则化给出了唯一的解。

将所有效果分配给组系数具有最低的l1范数,因为我们只需要1个值即可覆盖3个个体。相反,将所有效果分配给各个系数的效果最差,即将效果分配给组系数的l1范数的3倍。

请注意,我们可以拥有任意数量的层次结构,并且交互作用也受到类似的影响:正则化会将效果推向主要变量,而不是罕见的交互作用。

博客 tjmahr.com/plotting-partial-pooling-in-mixed-effects-models。–由@IsabellaGhement链接提供了借贷强度的报价

“这种效应有时称为收缩,因为将更多的极端值收缩推向更合理,更平均的值。在lme4书中,道格拉斯·贝茨(Douglas Bates)提供了收缩[名称]的替代方法。”

术语“收缩”可能具有负面含义。约翰·图基(John Tukey)倾向于将这一过程称为对各个科目彼此“借阅强度”的估计。这是混合效果模型与严格固定效果模型所基于的模型的根本区别。在混合效果模型中,我们假设分组因子的级别是从总体中选择的,因此可以预期在某种程度上共享特征。因此,相对于严格固定效应模型的预测,混合效应模型的预测将减弱。


如果不是特定类型的推断,则预测是什么?
shadowtalker

0

在这个主题上,我想推荐的另一个资料是David Robinson的《经验贝叶斯简介》,对我有特别的启发。

他的榜样是一个棒球运动员是否会设法击向他的下一个球。关键思想是,如果一名球员已经存在多年,那么他就可以清楚地了解自己的能力,尤其是可以将其观察到的击球平均数很好地估计下一个球场的成功概率。

相反,刚刚开始参加联赛的球员还没有透露出他的大部分实际才能。因此,如果他在前几场比赛中特别成功或不成功,将成功概率的估计值调整为某种总体均值似乎是明智的选择,因为至少在某种程度上,这是由于运气好坏。

作为次要点,“借入”一词似乎在某种意义上似乎并没有使用,因为已借入的某些东西需要在某个时候归还;-)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.