典型设定概念

15

我认为典型集合的概念非常直观：如果序列出现的可能性很高，则长度为的序列将属于典型集合。因此，任何可能的序列都将在。（我避免了与熵有关的形式定义，因为我试图从质上理解它。） $n$ $A_\epsilon ^{(n)}$ $A_\epsilon ^{(n)}$

但是，我读到，一般而言，最可能的序列不属于典型集合。这让我很困惑。

有典型集合的直观定义吗？还是仅仅是一个与常识无关的数学工具？

entropy intuition information-theory

— 滕多
source

13

我知道您已经明确要求进行直观的解释并省略了正式定义，但是我认为它们之间是相关的，因此让我回顾一下典型集合的定义：

$X_1, X_2 ,...$ 是独立同分布的随机变量 $\sim$ $p(x)$ ，则组典型 $A_\epsilon^{(n)}$ 相对于 $p(x)$ 是该组序列 $(x_1,x_2,...,x_n) \in \chi^n$ 与属性

\begin{matrix} (1) & 2^{- n (H (X) + ϵ)} \leq p (x_{1}, x_{2}, . . ., x_{n}) \leq 2^{- n (H (X) - ϵ)} \end{matrix}

$2^{-n(H(X)+\epsilon)}\le p(x_1,x_2,...,x_n) \le 2^{-n(H(X)-\epsilon)} \tag{1}$ 这意味着，对于一个固定的

ϵ

$\epsilon$ ，典型的组由所有的序列的其概率接近到

2^{- n H (X)}

$2^{-nH(X)}$ 。因此，为了使序列属于典型集合，它必须具有接近于

2^{- n H (X)}

$2^{-nH(X)}$ ，但通常不会。为了理解原因，让我通过在方程组上应用

l o g_{2}

$log_2$ 来重写方程式1。

\begin{matrix} (2) & H (X) - ϵ \leq \frac{1}{n} \log_{2} (\frac{1}{p (x_{1}, x_{2}, . . ., x_{n})}) \leq H (X) + ϵ \end{matrix}

$H(X)-\epsilon\le \frac{1}{n}\log_2\left(\frac{1}{p(x_1,x_2,...,x_n)}\right) \le H(X)+\epsilon \tag{2}$

现在，典型的集合定义与熵的概念更直接相关，换句话说，就是随机变量的平均信息。可以将中间项视为序列的样本熵，因此，典型集合是由所有序列组成的，这些序列给我们提供的信息量接近随机变量 $X$ 的平均值。最可能的顺序通常给我们的信息少于平均值。请记住，结果的可能性越低，它给我们提供的信息就越高。要理解为什么让我举一个例子：

假设您住在一个城市，那里的天气很可能在24°C至26°C之间，天气晴朗而温暖。您可能每天早晨都看天气报告，但是您不太在意，我的意思是，那里总是阳光明媚而且温暖。但是，如果有一天天气男人或女人告诉您今天会阴雨多雨，那将改变游戏规则。您将不得不穿上一些不同的衣服，带上雨伞，然后去做其他通常不做的事情，因此气象员给了您真正的重要信息。

综上所述，典型集合的直观定义是它由序列组成，这些序列使我们能够获得接近预期来源之一的信息量（随机变量）。

— 迪戈巴特
source

1

...或更确切地说$$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$...

— Cbhihe

好的，但是以这种方式定义的典型集合的目的是什么？以前，我认为我们创建了一个典型集的概念，以使我们拥有直觉，即我们需要采取的最小序列子集以确保我们“发现”（1-\ eps）％的情况。这样，采取最可能的顺序是一个显而易见的选择。我想念什么？

— tomwesolowski

12

Diegobatt的答案很好地直观地解释了典型场景。此答案将解决OP的另一个问题，并由@tomwesolowski回显：您为什么要以可以排除最可能出现的元素的方式定义典型集合？

简短的答案是，典型集合主要是数学工具。它的定义是为了帮助证明某些东西，而此定义是最方便的证明。这是一个很好的例子，说明了理论上的需求有时会胜过数学中的直观偏好。

典型的场景由信息理论之父克劳德·香农（Claude Shannon）定义。他想确定一个人可能会以何种效率编码来自固定字母的符号流，假设每个符号都是一个某个分布中 iid随机样本。他的主要见解是：

有一组易于识别的相对较小的“典型”序列，这些序列经常不成比例地出现在流中。
将最短的编码分配给该序列的“典型集合”会产生最佳有效的编码（渐近地，随着流的输出任意长增长）。

香农发现的典型集合恰好由其自我信息（或“惊讶性”）与预期自我信息相同的序列组成与流源分布平均。从它们的信息关于平均的意义上说，这样的序列是“典型的”，但是该定义隐式地排除了那些信息明显少于平均的那些序列。这些信息较少的序列也是最可能的序列。

正如OP所述，这在直观上并不吸引人！从表面上看，典型的集合听起来应该包含所有最可能的序列，直到某个阈值。这将更好地代表流中通常看到的内容。

但是香农不想要最“典型”的典型场景。他想要一种可以轻松证明他想要证明的结果的方法。正如该答案所指出的那样，由Shannon定义的典型集合可以保证存在，可以保证很小，并且可以保证与您可能建议的任何其他集合一样小。添加最可能的元素会使集合更有可能，这很好，但也会使集合变大，这是不好的。如果您关心的只是完成证明，为什么要修复未损坏的东西？

如果您的目标与Shannon不同，那么您偏爱的典型性概念也可能会有所不同。例如，在霍夫曼编码中，最可能的符号（或符号序列）获得最短的代码。从某种技术意义上讲，霍夫曼编码是解决Shannon原始问题的最佳解决方案，它可以更好地反映我们对典型性的直觉。另一方面，香农对典型性的定义对于证明事物更为方便。

— 保罗
source

1

出色的推理能力，以及对工作的良好称赞，很好地解决了直觉和定义之间的差距。我会说这种差异的发生是由于日常生活中的一种语言缺陷，即典型值和平均值通常表示同一件事，但就统计数据而言，典型值（就概率而言，即众数）不一定与平均值相同，即期望值。

— 埃米尔（Emil）

H (x) - ε

$H(x)-\varepsilon$

H (x) + ε

$H(x)+\varepsilon$

@Emil，我假设作者是这样说的，因为我们都同意，具有更多信息（可能性较小）的序列不应包含在典型集中。

— tomwesolowski

1

典型集合的概念隐式地将结果序列视为多集，即假设您只关心每个序列的直方图，例如，您将所有10个掷硬币的序列（具有7个头和3个尾）视为等效。

$p(H) = .9$

重要的结果是，对于足够长的序列，几乎所有采样的序列都将任意接近预期频率，即，随着所考虑序列的长度增加，分布将变得非常峰值。

例如观察 $10^5$ 折腾的顺序 $P(H)=.9$ 硬币将与 $10^4{+/-}300$ 自序列中尾数的标准偏差大约为100以来，有99％的时间是尾。所有头的概率可以忽略不计，尽管这是最可能的特定序列。

典型集合是此想法的更一般的信息理论定义版本。

— 丹尼尔·马勒（Daniel Mahler）
source

0

根据这些讲义中的定理6.3，无论我们采用概率最高的序列子集还是概率接近的序列 $2^{-nH(X)}$ （从典型情况出发）我们大约需要 $2^{nH}$ 确保选择的子集包含高概率的随机序列。我们通常采用典型的set元素，因为我们可以更轻松地限制其大小。

— 汤姆索索夫斯基
source

1

您能解释一下这是如何满足“典型集合的直观定义”的要求的吗？

— 胡伯

我不确定，但是它的意思是要解决“但是，我已经读到，一般而言，最有可能的序列不属于典型的序列。这让我很困惑。” 问题的一部分：）

— tomwesolowski '18