“计算图像熵的最信息/物理学理论上正确的方法是什么?”
一个很好的及时问题。
与普遍的看法相反,确实有可能为图像定义一个直观(和理论上)的自然信息熵。
考虑下图:
我们可以看到,差分图像的直方图更加紧凑,因此其Shannon信息熵更低。因此,我们可以通过使用二阶香农熵(即从差分数据得出的熵)来获得较低的冗余度。如果我们可以将该思想各向同性地扩展到2D,那么我们可以期望获得对图像信息熵的良好估计。
梯度的二维直方图允许2D扩展。
我们可以将论据形式化,实际上,这是最近完成的。简要介绍一下:
简单定义(例如参见MATLAB的图像熵定义)忽略空间结构的观察至关重要。要了解发生了什么,值得简要回到一维案例。众所周知,使用信号的直方图来计算其Shannon信息/熵会忽略时间或空间结构,并且对信号的固有可压缩性或冗余性的估计会很差。该解决方案已在Shannon的经典著作中提供;使用信号的二阶属性,即转移概率。1971年的观察(Rice&Plaunt)认为光栅扫描中像素值的最佳预测值是前一像素的值会立即导致差分预测值和二阶Shannon熵,这些熵与简单的压缩思想(例如行程编码)对齐。这些想法在80年代后期得到了完善,产生了一些仍在使用的经典无损图像(差分)编码技术(PNG,无损JPG,GIF,无损JPG2000),而小波和DCT仅用于有损编码。
现在移至2D;研究人员发现,在不引入方向依赖性的情况下,很难将香农的思想扩展到更高的维度。直观上,我们可以期望图像的香农信息熵与图像的方向无关。我们还期望具有复杂空间结构的图像(如发问者的随机噪声示例)比具有简单空间结构的图像(如发问者的平滑灰度示例)具有更高的信息熵。事实证明,很难将Shannon的思想从1D扩展到2D的原因是Shannon的原始公式中存在(单侧)不对称性,从而阻止了2D中的对称(各向同性)公式。一维不对称性得到纠正后,二维扩展即可轻松自然地进行。
切入正题(有兴趣的读者可以在https://arxiv.org/abs/1609.01117的arXiv预印本中查看详细的论述),其中图像熵是根据梯度的2D直方图(梯度概率密度函数)计算的。
首先,通过对图像x和y导数的估计值进行分箱来计算2D pdf。这类似于用于生成一维更常见强度直方图的合并操作。可以通过在水平和垂直方向上计算的2像素有限差异来估算导数。对于NxN个正方形图像f(x,y),我们计算偏导数fx的NxN值和fy的NxN值。我们扫描差分图像,然后对每个像素使用(fx,fy)在目标(2D pdf)数组中定位一个离散的bin,然后将其递增1。我们对所有NxN像素重复。必须将生成的2d pdf进行归一化以具有整体单位概率(通过除以NxN即可实现)。2D pdf现在可以用于下一阶段了。
从2D梯度pdf计算2D Shannon信息熵很简单。香农(Shannon)的经典对数求和公式直接适用,但有一半的关键因数来自梯度图像的特殊带限采样考虑因素(有关详细信息,请参见arXiv论文)。与估计2D熵或无损压缩的其他(更多冗余)方法相比,半因子使计算的2D熵甚至更低。
对不起,我还没有在这里写下必要的方程式,但是所有内容都可以在预印本中找到。计算是直接的(非迭代),并且计算复杂度为NxN阶(像素数)。最终计算出的Shannon信息熵与旋转无关,并且精确地对应于以非冗余梯度表示形式对图像进行编码所需的位数。
顺便说一下,在原始问题中,新的2D熵测度预测了(直观上令人愉悦的)熵,其中随机图像的像素为8位,平滑梯度图像的像素为0.000位。