哪些属性使某些小波在图像压缩方面比其他小波更好？

39

我试图教自己更多关于使用小波变换方法进行图像压缩的知识。我的问题是：在压缩图像时使某些小波更可取的是什么？它们更容易计算吗？它们会产生更平滑的图像吗？等等...

示例：JPEG 2000使用Cohen-Daubechies-Feauveau 9/7小波...为什么要这样做？

image-processing wavelet

— 用户名
source

据我所知，Daubechies小波提供了平滑的基础，因此高度压缩的图像会“模糊”。例如，Haar小波会产生块状伪影。自从您提到JPEG 2000以来，我想指出，非零小波系数的编码方案也会影响解码图像（EZW，SPIHT等）。

— Libor

您的问题已经得到解答。不要犹豫，为有用的投票并接受最合适的投票

— Laurent Duval

26

总览

简短的答案是它们在vanishing moments给定的条件下具有最大数量support（即滤波器系数的数量）。这就是“极值”属性，通常可以区分Daubechies小波。松散地说，消失的力矩越大意味着压缩效果越好，支撑力越小意味着计算量越少。实际上，消失力矩与滤波器大小之间的折衷非常重要，以至于主导了小波的命名方式。例如，您经常会看到D4称为D4或的小波db2。该4指系数的数量，以及2指消失的时刻数。两者都指同一个数学对象。在下面，我将详细说明什么时刻（以及为什么要让它们消失），但是现在，仅了解它与我们将信号中的大多数信息“折叠”成较小的程度有关。值的数量。有损压缩是通过保留这些值，然后丢弃其他值来实现的。

现在，您可能已经注意到CDF 9/7，在中使用的JPEG 2000，名称中有两个数字，而不是一个。实际上，它也称为bior 4.4。这是因为它根本不是“标准”离散小波。实际上，它甚至没有从技术上保留信号中的能量，而这种特性就是人们首先对DWT感到如此兴奋的全部原因！数字9/7和和4.4仍然分别指的是支撑力矩和消失力矩，但是现在有两组系数定义了小波。技术术语是orthogonal，它们不是存在biorthogonal。与其深入了解数学意义，不如说

JPEG 2000

可以在以下论文中找到有关CDF 9/7小波的设计决策的更详细的讨论：

Usevitch，Bryan E. 现代有损小波图像压缩教程：JPEG 2000的基础。

我将在这里回顾要点。

通常，正交的Daubechies小波实际上可以导致表示信号所需的值数量增加。效果称为coefficient expansion。如果我们正在进行有损压缩，则可能重要或无关紧要（因为无论如何我们都将结尾处的值都丢弃了），但是在压缩的上下文中，这肯定会适得其反。解决该问题的一种方法是将输入信号视为周期性。
仅仅将输入视为周期性会导致边缘处的不连续性，这些不连续性更难压缩，并且只是变换的伪像。例如，考虑以下周期性扩展中从3到0的跃迁：。为了解决该问题，我们可以使用信号的对称周期性扩展，如下所示：。消除边缘跳变是使用离散余弦变换（DCT）代替JPEG中的DFT的原因之一。用余弦表示信号隐含了输入信号的“从前到后循环”，因此我们希望小波具有相同的对称性。 $[0,1,2,3] \rightarrow [...0,1,2,3,0,1,2,3,...]$ $[0,1,2,3] \rightarrow [...,0,1,2,3,3,2,1,0,0,1...]$
不幸的是，唯一具有所需特性的正交子波是Haar（或D2，db1）子波，它仅是一个消失的矩。啊。这导致我们产生双正交小波，它们实际上是多余的表示，因此不保留能量。在实践中使用CDF 9/7小波的原因是因为它们的设计非常接近于节能。他们在实践中也进行了良好的测试。

还有其他方法可以解决各种问题（在本文中简要提到），但是这些是涉及因素的广泛笔触。

消失的时刻

那么什么是时刻，我们为什么要关心它们？平滑信号可以通过多项式很好地近似，即形式为：

a + b x + c x^{2} + d x^{3} + . . .

$a + bx + cx^2 + dx^3 + ...$

函数（即信号）的矩是与x的给定幂有多相似的度量。在数学上，这表示为x的函数和幂之间的内积。消失的力矩意味着内积为零，因此该函数不会“类似于” x的幂，如下所示（对于连续情况）：

\int x^{n} f (x) d x = 0

$\int{x^n f(x) dx = 0 }$

现在，每个离散正交小波都有两个与之关联的FIR滤波器，这些滤波器在DWT中使用。一个是低通（或缩放）滤波器，另一个是高通（或小波）滤波器 $\phi$ $\psi$ 。该术语似乎有所不同，但这就是我将在此处使用的术语。在DWT的每个阶段，高通滤波器用于“剥离”一层细节，而低通滤波器会产生没有该细节的平滑信号版本。如果高通滤波器的矩消失了，这些矩（即低阶多项式特征）将被填充到互补平滑信号中，而不是细节信号中。在有损压缩的情况下，希望细节信号中没有太多信息，因此我们可以将其丢弃。

这是一个使用Haar（D2）小波的简单示例。通常涉及一个比例因子，但是在这里我省略它来说明这个概念。这两个过滤器如下： $1/\sqrt{2}$

ϕ = [1, 1] ψ = [1, - 1]

$\phi = [1,1] \\ \psi = [1,-1]$

高通滤波器在第零时刻消失，即，因此它有一个消失时刻。要看到这一点，请考虑以下恒定信号：。现在凭直觉，很明显那里没有太多信息（或任何恒定信号）。我们可以通过说“四个二”来描述同一件事。DWT为我们提供了一种明确描述直觉的方法。这是使用Haar小波在DWT单次通过期间发生的情况： $x^0 = 1$ $[2,2,2,2]$

[2, 2, 2, 2] \to_{ψ}^{ϕ} {\begin{array}{rr} [2 + 2, 2 + 2] = [4, 4] \\ [2 - 2, 2 - 2] = [0, 0] \end{array}

$[2,2,2,2] \rightarrow_{\psi}^{\phi} \left\{ \begin{array}{rr} \left[2 + 2, 2 + 2\right] = \left[4,4\right] \\ \left[2-2,2-2\right] = \left[0,0\right] \end{array}\right.$

在第二遍中发生了什么，仅对平滑信号起作用：

[4, 4] \to_{ψ}^{ϕ} {\begin{array}{rr} [4 + 4] = [8] \\ [4 - 4] = [0] \end{array}

$[4,4] \rightarrow_{\psi}^{\phi} \left\{ \begin{array}{rr} \left[4 + 4\right] = \left[8\right] \\ \left[4-4\right] = \left[0\right] \end{array}\right.$

请注意，对于细节传递，常量信号是如何完全不可见的（全部变为0）。还要注意如何将四个值减少为的单个值。现在，如果我们要传输原始信号，我们可以只发送，而逆DWT可以通过假设所有细节系数均为零来重建原始信号。具有高阶消失矩的小波可以通过直线，抛物线，三次方等很好地近似信号，从而获得相似的结果。 $2$ $8$ $8$

进一步阅读

我掩饰了很多细节，以保持上述治疗效果可及。以下论文有更深入的分析：

M. Unser和T. Blu，JPEG2000小波滤波器的数学属性，IEEE Trans。图像处理，第一卷 12号，2003年9月9日，第1080-1090页。

脚注

上面的论文似乎暗示JPEG2000小波被称为Daubechies 9/7，它不同于CDF 9/7小波。

我们已经得出了JPEG2000 Daubechies 9/7缩放过滤器的确切形式...这些过滤器是由与 [10] 相同的多项式的因式分解得出的。主要区别在于9/7滤波器是对称的。而且，与Cohen-Daubechies-Feauveau [11]的双正交样条不同，多项式的非正则部分已在两侧均匀分配。 $Daubechies_{8}$

[11] A. Cohen，I。Daubechies和JC Feauveau，“紧支撑小波的双正交基”，通讯。纯应用数学卷 45号 5，第485-560页，1992年。

我浏览的JPEG2000标准草案（pdf链接）也称为官方过滤器Daubechies 9/7。它引用了本文：

M. Antonini，M。Barlaud，P。Mathieu和I. Daubechies，“使用小波变换的图像编码”，IEEE Trans。图像处理 1992年4月，第1卷，第205-220页。

我还没有阅读这些资料，所以不能确定为什么维基百科将JPEG2000小波称为CDF 9/7。似乎两者之间可能有所不同，但人们还是将其称为JPEG2000小波CDF 9/7（因为它基于相同的基础？）。无论名称如何，Usevitch的论文都描述了该标准中使用的一种。

— datageist
source

@datageist很棒的答案！同样，9/7最初存在的另一个原因是因为它是分解多项式的一种替代方法，并具有滤波器对称的约束。这样，相位响应保持线性。（相比之下，daub4小波虽然是FIR，却是不对称的，并在处理后的信号中产生非线性相位）。在JPEG中使用9/7是因为主观倾向，我们喜欢图像中的线性失真与非线性失真。

— Spacey

1

不错的文章。维基百科文章中的信息与所引用的来源相对应，本质上是Daubechies的“ 10堂讲座”，因此就JPEG2000而言可能已过时。一种更正：双正交不是多余的。双正交性条件强加了逆滤波器组。多余的变形从小框架开始。

— Lutz Lehmann博士2014年

10

信号变换的优劣通过两个不同的指标进行评估：压缩，在有损压缩的情况下，质量。压缩由能量压缩定义，但质量较难。

传统上，质量是通过均方误差或平均每像素SNR来衡量的。但是，人类并不倾向于使用MSE或SNR评估信号。人类对MSE往往不是的结构噪声非常敏感。开发提供类似于人类的质量指标的算法是一个活跃的研究领域。Bovik的结构相似性（SSIM）索引是一个不错的起点。

— 两个
source

6

一个简短的答案-任何转换都比其他转换要好，这就是所谓的“能量压缩特性”，其解释如下：

“当只有一小部分的变换系数具有较大的幅度时，仅保留少数几个系数而丢弃或量化其他系数仍然可以使重构接近完美”。这种性质与unit变换的解相关能力有关。”

具有较少能量压缩特性的变换是将需要最少数目的符号并因此具有较少位的变换。

能量压缩特性最高的变换是DCT。

地盘

— 迪潘·梅塔（Dipan Mehta）
source

1

对于未知信号类别，DCT仅具有最高的能量压缩。如果可以表征信号域，则可以做得更好。

— totowtwo 2011年

我同意@totowtwo。我的观点是，“能量紧凑性”是进行某种转换的原因，也是使其对于编解码器引擎更受欢迎的原因。

— Dipan Mehta

5

自然图像由不同的图像特征组成，我们可以将其大致分为平滑或缓慢变化的特征，纹理和边缘。良好的压缩方法是将图像转换为一个域，在该域中，信号的所有能量仅以几个系数保存。

傅立叶变换尝试使用正弦和余弦近似图像。现在，正弦和余弦可以相当简洁地逼近平滑信号，但是众所周知，它对逼近不连续点不利。如果您熟悉吉布斯现象，就会知道需要大量的傅立叶系数，以避免逼近时间上的不连续性。但是，系数的数量越少，压缩效果越好。因此，在系数数量和压缩方法的有损性之间存在固有的权衡，我们通常将其称为速率失真权衡。

$k^{-2/3}$ $k^{-1}$ ，分别。对于相同数量的项，小波的误差衰减更快。这意味着，当图像不是十分平滑（缓慢变化）并包含奇点时，小波具有更好的能量压缩。

但是，我们还没有可以近似平滑特征，点奇异点，边缘和纹理的单一基础或变换。

— 用户3303
source

4

DCT对许多常见信号具有非常好的能量压缩，并且它也与衍射（成像中的基本物理过程）的工作原理非常吻合，因为衍射可以表示为傅立叶核。这些给它带来了很多优势。

问题在于，DCT系数必须在整个变换区域上被局部化。这要求创建许多小的变换区域（块），以使变换时一个区域中的能量不会溢出到另一区域中。这不仅限制了变换压缩能量的能力，而且还在许多块边界引入了伪像。

我没有对小波做很多事情，所以我可能会错，但是它们更加局域化，因为不同的系数代表了不同的面积/频率权衡。这允许更大的块大小，更少的伪像。实际上，不确定在实际中有多大差异。

— 萨拉托加
source

0

在谈论更好的小波时，我们应该考虑它们的背面具有相同的编码器：变换的性能在很大程度上与量化和编码交织在一起。性能通常是：相同质量的更好压缩，或相同压缩的更好质量。压缩是一种简单的方法，而质量却不是。但是假设我们有一个。

$\times 124$ $\times 4$

最后，这取决于您要压缩的图像类别：所有目的还是聚焦（例如医学图像）或地震数据压缩（具有受限的特定类型的数据）？同样，小波可以不同。

现在，图像的主要形态成分是什么，小波如何处理它们：

缓慢的趋势，不断变化的背景：消失的时刻，摆脱了小波子带中的多项式，
颠簸：可以使用缩放功能，
边缘：被小波的导数捕获，
纹理：由小波的摆动方面捕获的振荡，
其余的是嘈杂的，未建模的：由正交性（或也接近）管理。

因此，在分析方面，最好的小波是很好地全局压缩上述特征的好方法。在合成方面，最佳小波可减轻压缩效果（例如量化），从而获得令人愉悦的效果。分析/合成所需的属性有些不同，这就是双正交小波很好的原因：您可以分离分析（消失的矩）/合成（平滑度）属性，而正交属性则无法做到这一点，并且会增加滤波器的长度，这对计算性能非常不利。另外，双正交小波可以对称，有利于边缘。

最后，您是否需要一些无损压缩？然后，您需要类似“整数”的小波（或二进制小波）。

上面所有这些都与计算问题混合在一起：可分离的小波，不要太长。并在JPEG委员会中进行标准化。

最后，5/3对于无损，足够短而言相当不错。9/7中的一些也不错。比13/7小波好多了？即使不是PSNR，也不是最好的图像质量。

因此，最好的小波是胡须，传统图像和与

M. Unser和T. Blu，JPEG2000小波滤波器的数学属性，IEEE Trans。图像处理，第一卷 12号》，2003年9月9日，第1080-1090页。

让我相信9/7的“最佳”方面没有得到充分解释，也没有保证。

$M$

— 劳伦·杜瓦尔（Laurent Duval）
source