什么是困惑?


42

我遇到了术语“ 困惑”,它是指对看不见的数据进行对数平均的逆概率。维基百科关于困惑的文章并没有给出直观的含义。

pLSA纸中使用了这种困惑度度量。

谁能解释困惑测量的必要性和直观含义?


我如何计算pLSA的困惑度。我有具有计数的数据矩阵,并通过TEM算法计算出和。p d p w | d Xp(d)p(w|d)
学习者

3
我已经检查了Nisbett,Larose,Witten,Torgo和Shemueli(加上合著者)撰写的5份数据挖掘/机器学习/预测分析书的索引,并且在任何本书中都没有这个术语。我很困惑:)
zbicyclist '17

1
困惑是不确定性的另一个奇特的名字。可以将其视为对外部评估的内在评估。Jan Jurafsky在youtube.com/watch?v=BAN3NB_SNHY
bicepjai

2
@zbicyclist,如果您在野外寻找示例,那么它在NLP中尤为常见,特别是对于语言模型之类的评估。
Matt Krause

在某些领域(例如经济学),人们谈论数字等效项,因此,例如,其中是基于自然对数的熵,是同等数量的相同常见类别。因此,每个概率为0.5的两个类别的熵乘积和幂作为相等的共同类别的数目返回2。对于不等概率,等价数字通常不是整数。H ln 2exp(H)Hln2
尼克·考克斯

Answers:


21

您已经阅读了有关困惑Wikipedia文章。它给出了离散分布的困惑

2xp(x)log2p(x)

也可以写成

exp(xp(x)loge1p(x))

即作为概率的反比的加权几何平均值。对于连续分布,总和将变成整数。

本文还提供了一种使用条测试数据来估计模型的困惑度的方法N

2i=1N1Nlog2q(xi)

也可以写成

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

或其他各种方式,这应该使“对数平均逆概率”的来源更加清晰。


将e用作指数而不是2时,有什么特别的区别吗?
亨利

2
@HenryE:否,常见的对数以底也可以工作-不同底数的对数彼此成正比,显然a log a x = b log b x10alogax=blogbx
亨利

我想了很多。当我试图理解为什么我之前看到的所有其他公式都使用2时,为什么一段代码为什么使用e来计算困惑时,我遇到了这个答案。我现在知道知道框架的价值是多么重要。用作对数损失计算的基础
Henry E


11

我也想知道。第一个解释还不错,但这是我的2点意思。


首先,困惑与描述您猜测某件事正确的频率无关。它与表征随机序列的复杂性有关。

我们正在查看一个数量

2xp(x)log2p(x)

我们首先取消对数和幂。

2xp(x)log2p(x)=1xp(x)p(x)

我认为值得指出的是,困惑度与用于定义熵的基础是不变的。因此,从这个意义上讲,困惑比度量熵无限唯一/更少随意。

与骰子的关系

让我们玩一点。假设您只是在看一枚硬币。当硬币公平时,熵最大,困惑度最大

11212×1212=2

现在,当我们看面骰子时会发生什么?困惑度是N

1(1N1N)N=N

因此,困惑感代表了一个公平的骰子的边数,当掷骰子时,产生的序列与您给定的概率分布具有相同的熵。

州数

好的,现在我们有了一个关于困惑的直观定义,让我们快速看一下它如何受模型中状态数的影响。让我们从个状态的概率分布开始,并创建个状态的新概率分布,以使原始个状态的似然比保持相同,并且新状态的概率为。在以公平的侧模具开始的情况下,我们可以想象创建一个新的侧模具,以使新侧以概率和原始滚动。NN+1NϵNN+1ϵN双方以相同的可能性滚动。因此,在任意原始概率分布的情况下,如果每个状态的概率由给出,则在给定新状态的情况下,原始个状态的新分布将为,新的困惑将由以下方式给出:xpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

在的极限中,此数量接近ϵ0

1xNpxpx

因此,当您使滚动骰子的一侧变得越来越不可能时,困惑似乎最终似乎就不存在了。


3
当然那只值〜1.39呢?
马特·克劳斯

您能否详细说明如何获得?我只能做
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
user2740

\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}
Alex Eftimiades 18-10-22,0:

5

实际上,困惑与正确地从分布中猜出一个值的几率之间存在明确的联系,这由Cover的《信息论元素论》第2版(2.146)给出:如果和是iid变量,则XX

P(X=X)2H(X)=12H(X)=1perplexity(1)

为了解释,均匀分布X的困惑只是元素数量| X |。如果我们尝试通过简单地根据X进行iid猜测来猜测来自均匀分布X的iid样本所取的值,那么我们将是1 / | X | = 1 /时间的困惑度。由于均匀分布是最难以猜测的值,因此我们可以使用1 /困惑度作为下界/启发式近似,以得出我们的猜测正确的频率。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.