Answers:
我知道您已经明确要求进行直观的解释并省略了正式定义,但是我认为它们之间是相关的,因此让我回顾一下典型集合的定义:
是独立同分布的随机变量 ,则组典型相对于是该组序列与属性
现在,典型的集合定义与熵的概念更直接相关,换句话说,就是随机变量的平均信息。可以将中间项视为序列的样本熵,因此,典型集合是由所有序列组成的,这些序列给我们提供的信息量接近随机变量的平均值。最可能的顺序通常给我们的信息少于平均值。请记住,结果的可能性越低,它给我们提供的信息就越高。要理解为什么让我举一个例子:
假设您住在一个城市,那里的天气很可能在24°C至26°C之间,天气晴朗而温暖。您可能每天早晨都看天气报告,但是您不太在意,我的意思是,那里总是阳光明媚而且温暖。但是,如果有一天天气男人或女人告诉您今天会阴雨多雨,那将改变游戏规则。您将不得不穿上一些不同的衣服,带上雨伞,然后去做其他通常不做的事情,因此气象员给了您真正的重要信息。
综上所述,典型集合的直观定义是它由序列组成,这些序列使我们能够获得接近预期来源之一的信息量(随机变量)。
Diegobatt的答案很好地直观地解释了典型场景。此答案将解决OP的另一个问题,并由@tomwesolowski回显:您为什么要以可以排除最可能出现的元素的方式定义典型集合?
简短的答案是,典型集合主要是数学工具。它的定义是为了帮助证明某些东西,而此定义是最方便的证明。这是一个很好的例子,说明了理论上的需求有时会胜过数学中的直观偏好。
典型的场景由信息理论之父克劳德·香农(Claude Shannon)定义。他想确定一个人可能会以何种效率编码来自固定字母的符号流,假设每个符号都是一个某个分布中 iid随机样本。他的主要见解是:
香农发现的典型集合恰好由其自我信息(或“惊讶性”)与预期自我信息相同的序列组成与流源分布平均。从它们的信息关于平均的意义上说,这样的序列是“典型的”,但是该定义隐式地排除了那些信息明显少于平均的那些序列。这些信息较少的序列也是最可能的序列。
正如OP所述,这在直观上并不吸引人!从表面上看,典型的集合听起来应该包含所有最可能的序列,直到某个阈值。这将更好地代表流中通常看到的内容。
但是香农不想要最“典型”的典型场景。他想要一种可以轻松证明他想要证明的结果的方法。正如该答案所指出的那样,由Shannon定义的典型集合可以保证存在,可以保证很小,并且可以保证与您可能建议的任何其他集合一样小。添加最可能的元素会使集合更有可能,这很好,但也会使集合变大,这是不好的。如果您关心的只是完成证明,为什么要修复未损坏的东西?
如果您的目标与Shannon不同,那么您偏爱的典型性概念也可能会有所不同。例如,在霍夫曼编码中,最可能的符号(或符号序列)获得最短的代码。从某种技术意义上讲,霍夫曼编码是解决Shannon原始问题的最佳解决方案,它可以更好地反映我们对典型性的直觉。另一方面,香农对典型性的定义对于证明事物更为方便。
典型集合的概念隐式地将结果序列视为多集,即假设您只关心每个序列的直方图,例如,您将所有10个掷硬币的序列(具有7个头和3个尾)视为等效。
重要的结果是,对于足够长的序列,几乎所有采样的序列都将任意接近预期频率,即,随着所考虑序列的长度增加,分布将变得非常峰值。
例如观察 折腾的顺序 硬币将与 自序列中尾数的标准偏差大约为100以来,有99%的时间是尾。所有头的概率可以忽略不计,尽管这是最可能的特定序列。
典型集合是此想法的更一般的信息理论定义版本。
根据这些讲义中的定理6.3,无论我们采用概率最高的序列子集还是概率接近的序列 (从典型情况出发)我们大约需要 确保选择的子集包含高概率的随机序列。我们通常采用典型的set元素,因为我们可以更轻松地限制其大小。
$$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$
...