我现在正在尝试测量文件中包含的许多非冗余(实际)信息。有人称这为熵的量。
当然有标准的p(x)log {p(x)},但我认为Shannon只是从通过信道传输的角度考虑它。因此,公式需要一个块大小(以位为单位,通常为8)。对于大文件,这种计算是相当无用的,忽略了符号之间的短距离到长距离的相关性。
有二叉树方法和Ziv-Lempel方法,但这些方法在本质上似乎具有很高的学术性。
可压缩性也被认为是熵的量度,但是对于压缩程度似乎没有下限。对于我的文件hiss.wav,
- 原始的hiss.wav = 5.2 MB
- 通过香农公式的熵= 4.6 MB
- hiss.zip = 4.6 MB
- hiss.7z = 4.2 MB
- hiss.wav.fp8 = 3.3 MB
是否有某种合理可行的方法来测量hiss.wav中存在多少熵?