人们为什么使用“证据权重”一词,它与“逐点相互信息”有何区别?


11

在这里,“证据权重”(WOE)是已发表的科学和政策制定文献中的常用术语,在风险评估的背景下最常见,其定义如下:

w(e:h)=logp(e|h)p(e|h¯)

其中是证据,是假设。eh

现在,我想知道PMI(逐点相互信息)的主要区别是什么

pmi(e,h)=logp(e,h)p(e)p(h)

:我相信术语就此本文projecteuclid.org/...
JohnRos

@JohnRos:尽管那是一篇有趣的论文,但证据的概念重要性并未在此处提及。IJ Good于1950年印制了一本书,并说他从Bletchley Park的A Turing那里学到了这个概念!
kjetil b halvorsen

注意,这里定义的祸患只是对数似然比。它的许多提到在这个网站是不同的概念,请参阅stats.stackexchange.com/questions/462052/...
的Kjetil b Halvorsen的

Answers:


5

即使它们看起来很相似,但它们是完全不同的东西。让我们从主要的差异开始。

  • 在PMI和WOE中有所不同。h
    请注意,PMI中的术语。这意味着 h是您可以计算概率的随机变量。对于贝叶斯来说,这没问题,但是如果您不相信假设具有先验概率,那么您甚至无法为假设和证据编写PMI。在WOE中, h是分布的参数,并且始终定义表达式。p(h)hh

  • PMI是对称的,WOE并非
    微不足道,。但是,由于术语不需要定义。即使是,它通常也不等于。pmi(e,h)=pmi(h,e)w(h:e)=logp(h|e)/p(h|e¯)e¯w(e:h)

除此之外,WOE和PMI具有相似之处。

证据的权重说明了证据支持一个假设的程度。如果为0,则表示它既不支持也不反对。数值越高,它对假设验证就越多,数值越低,它对验证就越多。hh¯

相互信息量化了事件(或)的发生如何表示有关另一个事件的发生的某些信息。如果为0,则事件是独立的,一个事件的发生对另一个事件无动于衷。它们越高,它们同时出现的频率就越高,而它们越低,它们相互排斥的程度就越高。eh

如果假设也是一个随机变量并且两个选项都有效,那该怎么办?例如,在以上通迅二进制噪声信道,假设是ħ发射的信号,以解码和证据是所接收的信号。都说翻转的概率为1 / 1000个,因此,如果您收到1,对于WOE 1登录0.999 / 0.001 = 6.90。另一方面,PMI取决于发射1的可能性。您可以验证当发出1的可能性趋于0时,PMI趋于6.90hh1/100011log0.999/0.001=6.90116.90,当发射1的可能性趋于1时,趋向于011

这种自相矛盾的行为说明了两件事:

  1. 它们都不适合猜测排放量。如果发射的概率以下滴1 / 1000,最可能的发射是0接收即使当1。但是,对于发射1的小概率,WOE和PMI都接近6.9011/10000116.90

  2. PMI是通过假设的实现获得的(Shannon)信息,如果假设几乎是确定的,则不会获得任何信息。WOE是我们先前赔率更新,它不取决于那些赔率的值。


这可能是一个符号上的事情,但在WMI,你如何定义没有定义p ^ h ?你不去p e | h = p e h p(e|h)p(h)p(e|h)=p(e,h)p(h)
迈克·巴塔格里亚

1
我想你是说WOE。例如,将视为泊松分布的分布参数。在这种情况下,p e | h 只是可能性,您无需定义p h 。实际上,您完全不需要相信它具有意义。hp(e|h)p(h)
gui11aume17年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.