当将相对的归一化效用函数视为pmf时,香农熵或香农信息的解释是什么?


10

假设Ω是一组离散随机变量和互斥结果f是一个利用率函数,其中0<f(ω)1Ωf(ω)=1,等

f被均匀地分布在Ωf是一个概率质量函数,香农熵H(Ω)=Ωf(ω)log1f(ω)被最大化(=log|Ω|),并且当一个元素Ω具有f的全部质量时,香农熵被最小化(实际上为0)。这与关于意外(或不确定性降低),结果和不确定性(或预期意外)和随机变量的直觉相对应:

  • f均匀分布时,不确定性最大化,质量均匀分布的结果越多,我们的不确定性就越大。
  • f所有质量都集中在一个结果中时,我们就没有不确定性。
  • 当我们将结果分配为的概率时1,当我们实际观察到它时,我们不会获得任何信息(“不惊奇”)。
  • 当我们给结果分配概率越来越接近于0,对它实际发生的观察变得越来越有用(“令人惊讶”)。

(当然,所有这些都没有对香农信息/熵的编码进行更具体的解释,但对认知的解释较少)。

但是,当f具有效用函数的解释时,存在对l o g 1的感官解释。fωlog1log1f(ω)?在我看来,可能是:f(ω)log1f(ω)

  • 如果作为PMF表示在Ω上的均匀分布,则f作为效用函数对应于结果的无差异,该结果不可能更大*fΩf
  • 一个效用函数,其中一个结果具有所有效用,而其余结果都不具有(尽可能多地偏向效用),这对应于非常强的相对偏好 -缺乏冷漠。

是否有扩展的参考?我是否错过了有关比较概率质量函数和离散随机变量的归一化相对效用的限制的知识?

*我知道无差异曲线,出于种种原因,看不到它们与我的问题有什么关系,首先是我对分类样本空间进行了研究,而实际上我对“差异”本身不感兴趣,而是当实际的(离散)“概率分布”或(附加)具有效用函数的解释时,如何将效用解释为概率,以及如何解释概率函数。


我没有答案,但是您的问题让我想到了在公平切蛋糕的问题中使用熵:en.wikipedia.org/wiki/Fair_cake-cutting 标准模型是蛋糕的间隔是[0, 1],并且间隔上有具有不同归一化值度量的代理。这些措施被假定为非原子性的,但对其“熵”没有进一步的假设。有趣的是,我们可以对效用函数限制了熵的切蛋糕问题说些什么。n
Erel Segal-Halevi

Answers:


3

在讨论Shannon的熵之前,还有一点需要讨论:似乎您想到的是基数效用,而不是序数

当然,在两种情况下都可以派生“标准化”实用程序功能。但是“相对偏好”的概念只能在基本效用的背景下定义和衡量。

这个问题并不是在您描述的两个极端情况下出现的,而是在所有可能的中间情况下出现的。

A,B,C

V(A)=1,V(B)=9,V(C)=90

在序数效用下,这只是告诉我们

A<prB<prC

当然,我们可以将它们除以归一化100

UV(A)=0.01,UV(B)=0.09,UV(C)=0.9

但是在序数效用下,我们可以很好地使用另一个可以分配的效用函数

W(A)=31,W(B)=32,W(C)=37

并获得

UW(A)=0.31,UW(B)=0.32,UW(C)=0.37

VW

WV

您是否熟悉基本功能的问题?


VU

3

在与我的其他回答中与OP交换之后,让我们继续研究他的方法。

XX={x1,...,xk}Pr(X=xi)=pi,i=1,...,k

的支持值也是实数 基数效用函数。然后我们考虑归一化的效用函数Xu(xi)>0i

(1)w(X):w(xi)=u(xi)i=1ku(xi),i=1,...,k

并被告知

(2)w(xi)=pi

请注意,我们不仅仅观察到有限域的归一化非负离散函数通常满足概率质量函数的性质,我们还特别假设具有随机PMF的函数形式变量其值作为输入。w(xi)w(xi)

由于是随机变量的可测量函数,因此它也是随机变量。因此,我们可以有意义地考虑诸如期望值之类的事情。使用无意识统计学家的定律w(xi)

(3)E[w(X)]=i=1kpiw(xi)=i=1kpi2

这是一个凸函数,如果我们尝试在约束的对它进行极值化,则很容易获得pii=1kpi=1

(4)argminE[w(X)]=p:p1=p2=...=pk=1/k

并获得了总体结果:

如果的分布是均匀的,则上面定义的标准化效用函数具有最小期望值。X

显然,在这种情况下,将是一个常数函数,即和零方差的简并随机变量。w(X) E[w(X)]=1/k

让我们谈谈香农的熵,这是OP的重点。要计算,香农的熵需要随机变量的概率质量函数...因此我们应该找到随机变量的PMF ... w(X)

但是我的印象是,这不是OP所要考虑的。相反,它把香农的熵看作是一种度量,它具有一些合乎需要的代数性质,并且也许可以以有意义的方式紧凑地进行一些有意义的测量。

这是在经济学,特别是产业组织中,在建立市场集中度指标(“竞争程度/市场的垄断结构”)之前完成的。我注意到其中两个看起来特别相关。

A)赫芬达尔指数,作为其论点的市场份额在市场,经营公司,所以它们之和为施工单位。它的未缩放版本是nsi

H=i=1nsi2

该表达式的结构与上述推导的的期望值完全相同。w(X)

B)熵指数 具有香农的熵的确切数学形式。

Re=i=1nsilnsi

Encaoua,D。和Jacquemin,A。(1980)。垄断程度,集中度和进入威胁指数。国际经济评论,第87-105页。,提供“允许的”浓度指数的公理推导,即它们定义了该指数必须具备的特性。由于他们的方法是抽象的,我认为这可能对OP希望探索并赋予其意义的内容有用。


1

似乎效用函数在这里不仅是基本的,甚至是按比例定义的。考虑效用1/4和3/4的两个结果。显然,我们可以应用仿射变换:在这种情况下,效用变为0和1。但是,现在,我们已将熵从严格的正值更改为零!v=v20.5

因此,您首先需要为实用程序提供有意义的比率比例。一种方法是对自然0实用程序级别进行解释。没有这个说明,熵是没有意义的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.