典型设定概念


15

我认为典型集合的概念非常直观:如果序列出现的可能性很高,则长度为的序列将属于典型集合A n ϵ。因此,任何可能的序列都将在A n ϵ中。(我避免了与熵有关的形式定义,因为我试图从质上理解它。)nAϵ(n)Aϵ(n)

但是,我读到,一般而言,最可能的序列不属于典型集合。这让我很困惑。

有典型集合的直观定义吗?还是仅仅是一个与常识无关的数学工具?

Answers:


13

我知道您已经明确要求进行直观的解释并省略了正式定义,但是我认为它们之间是相关的,因此让我回顾一下典型集合的定义:

X1,X2,...独立同分布的随机变量 p(x),则组典型Aϵ(n)相对于p(x)是该组序列(x1,x2,...,xn)χn与属性

(1)2n(H(X)+ϵ)p(x1,x2,...,xn)2n(H(X)ϵ)
这意味着,对于一个固定的ϵ,典型的组由所有的序列的其概率接近2nH(X)。因此,为了使序列属于典型集合,它必须具有接近于2nH(X),但通常不会。为了理解原因,让我通过在方程组上应用log2来重写方程式1。

(2)H(X)ϵ1nlog2(1p(x1,x2,...,xn))H(X)+ϵ

现在,典型的集合定义与熵的概念更直接相关,换句话说,就是随机变量的平均信息。可以将中间项视为序列的样本熵,因此,典型集合是由所有序列组成的,这些序列给我们提供的信息量接近随机变量X的平均值。最可能的顺序通常给我们的信息少于平均值。请记住,结果的可能性越低,它给我们提供的信息就越高。要理解为什么让我举一个例子:

假设您住在一个城市,那里的天气很可能在24°C至26°C之间,天气晴朗而温暖。您可能每天早晨都看天气报告,但是您不太在意,我的意思是,那里总是阳光明媚而且温暖。但是,如果有一天天气男人或女人告诉您今天会阴雨多雨,那将改变游戏规则。您将不得不穿上一些不同的衣服,带上雨伞,然后去做其他通常不做的事情,因此气象员给了您真正的重要信息。

综上所述,典型集合的直观定义是它由序列组成,这些序列使我们能够获得接近预期来源之一的信息量(随机变量)。


1
...或更确切地说$$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$...
Cbhihe

好的,但是以这种方式定义的典型集合的目的是什么?以前,我认为我们创建了一个典型集的概念,以使我们拥有直觉,即我们需要采取的最小序列子集以确保我们“发现”(1-\ eps)%的情况。这样,采取最可能的顺序是一个显而易见的选择。我想念什么?
tomwesolowski

12

Diegobatt的答案很好地直观地解释了典型场景。此答案将解决OP的另一个问题,并由@tomwesolowski回显:您为什么要以可以排除最可能出现的元素的方式定义典型集合?

简短的答案是,典型集合主要是数学工具。它的定义是为了帮助证明某些东西,而此定义是最方便的证明。这是一个很好的例子,说明了理论上的需求有时会胜过数学中的直观偏好。

典型的场景由信息理论之父克劳德·香农Claude Shannon)定义。他想确定一个人可能会以何种效率编码来自固定字母的符号流,假设每个符号都是一个某个分布中 iid随机样本。他的主要见解是:

  1. 有一组易于识别的相对较小的“典型”序列,这些序列经常不成比例地出现在流中。
  2. 将最短的编码分配给该序列的“典型集合”会产生最佳有效的编码(渐近地,随着流的输出任意长增长)。

香农发现的典型集合恰好由其自我信息(或“惊讶性”)与预期自我信息相同的序列组成与流源分布平均。从它们的信息关于平均的意义上说,这样的序列是“典型的”,但是该定义隐式地排除了那些信息明显少于平均的那些序列。这些信息较少的序列也是最可能的序列。

正如OP所述,这在直观上并不吸引人!从表面上看,典型的集合听起来应该包含所有最可能的序列,直到某个阈值。这将更好地代表流中通常看到的内容。

但是香农不想要最“典型”的典型场景。他想要一种可以轻松证明他想要证明的结果的方法。正如该答案所指出的那样,由Shannon定义的典型集合可以保证存在,可以保证很小,并且可以保证与您可能建议的任何其他集合一样小。添加最可能的元素会使集合更有可能,这很好,但也会使集合变大,这是不好的。如果您关心的只是完成证明,为什么要修复未损坏的东西?

如果您的目标与Shannon不同,那么您偏爱的典型性概念也可能会有所不同。例如,在霍夫曼编码中,最可能的符号(或符号序列)获得最短的代码。从某种技术意义上讲,霍夫曼编码是解决Shannon原始问题的最佳解决方案,它可以更好地反映我们对典型性的直觉。另一方面,香农对典型性的定义对于证明事物更为方便。


1
出色的推理能力,以及对工作的良好称赞,很好地解决了直觉和定义之间的差距。我会说这种差异的发生是由于日常生活中的一种语言缺陷,即典型值平均值通常表示同一件事,但就统计数据而言,典型值(就概率而言,即众数)不一定与平均值相同,即期望值。
埃米尔(Emil)

H(x)εH(x)+ε

@Emil,我假设作者是这样说的,因为我们都同意,具有更多信息(可能性较小)的序列不应包含在典型集中。
tomwesolowski

1

典型集合的概念隐式地将结果序列视为多集,即假设您只关心每个序列的直方图,例如,您将所有10个掷硬币的序列(具有7个头和3个尾)视为等效。

p(H)=.9

重要的结果是,对于足够长的序列,几乎所有采样的序列都将任意接近预期频率,即,随着所考虑序列的长度增加,分布将变得非常峰值。

例如观察 105 折腾的顺序 PH=.9 硬币将与 104+/-300 自序列中尾数的标准偏差大约为100以来,有99%的时间是尾。所有头的概率可以忽略不计,尽管这是最可能的特定序列。

典型集合是此想法的更一般的信息理论定义版本。


0

根据这些讲义中的定理6.3,无论我们采用概率最高的序列子集还是概率接近的序列2-ñHX (从典型情况出发)我们大约需要 2ñH确保选择的子集包含高概率的随机序列。我们通常采用典型的set元素,因为我们可以更轻松地限制其大小。


1
您能解释一下这是如何满足“典型集合的直观定义”的要求的吗?
胡伯

我不确定,但是它的意思是要解决“但是,我已经读到,一般而言,最有可能的序列不属于典型的序列。这让我很困惑。” 问题的一部分:)
tomwesolowski '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.