音频信号处理初学者的学习路线图


13

我想开始学习音频信号处理。在线上有许多书籍和学术论文似乎都忽略了该主题的基础。

可以这么说,我想知道一个大致的路线图,以便成功学习音频信号处理。

我已经读过微积分是从信号分析开始的第一步。

在我看来,音频信号分析只是所需全部知识的一部分。其他主题包括音乐理论,音频工程和编程。

如果我想请对此领域有知识的人建议一些可能的步骤,以了解如何分析和处理/创建音频信号。


我同意微积分的背景知识(至少)对于您有机会理解信号和系统理论课文或课程中可能遇到的数学将很重要。我会确保您先在那儿喘气。
詹森·R

1
这些幻灯片可能会有所帮助。它们使您了解了音频处理和音频编程的一些非数学/工程基础知识。blog.bjornroche.com/2011/11/…–
比约恩·罗奇

Answers:



9

我认为,在没有先了解基本音频是什么以及以数字方式表示音频的各种方式之前,没有必要深入探讨DFT / FFT / IIR / FIR和小波的复杂性。

一般而言,音频是什么(在空气中,而不是在水或其他材料中):

  • 音频由声压波组成
  • 它们导致空气压缩和稀疏
  • 这些波从源头向外传播
  • 波浪会相互干扰,导致波峰和波谷
  • 波浪可以被材料吸收和反射

音频如何电气表示:

  • 麦克风和前置放大器将声压波转换为电信号
  • 通常,此信号同时具有正电压和负电压(例如AC电压)
  • 磁带会在出现时存储这些差异,因此术语“模拟”
  • 当输入信号的强度等于系统极限时会发生饱和(无法准确表示电压的任何增加)
  • 当输入信号高于系统所能表示的范围时,就会发生削波,因此信号会被削波(或在四肢出现上限)

音频如何以数字表示:

  • 音频必须首先使用ADC采样(模拟到数字转换器)
  • 采样包括定期电测量音频信号
  • 此周期称为采样率,它确定可以表示的最高频率(奈奎斯特极限)
  • 奈奎斯特极限是采样率/ 2(越接近极限,信号表示越差)
  • 位范围确定本底噪声(16位为-96dB,8位为-48dB)
  • 音频的单个16位样本可以是-32768至32767之间的(有符号)值(这可以表示模拟信号的负摆幅和正摆幅)
  • 每个字节仅允许8位(就计算机存储而言),因此16位样本必须至少由2个字节表示
  • 这些字节的存储顺序称为其字节序类型(大或小)
  • 立体声采样需要为每个通道单独采样,一个用于左声道,另一个用于右声道

有哪些不同的方法用于存储数字音频:

  • PCM(脉冲编码调制)是数字音频存储的最常见的非压缩方式
  • 存在许多压缩以减少使用的数据量,有些压缩是无损的,有些则是有损的
  • WAV文件未压缩,可以是单声道或立体声(交错样本)
  • MP3文件经过压缩,有损压缩并采用心理声学技术来实现很高的数据压缩率
  • 根据使用情况,即使是最低位范围(1位)也可能有用,通常是播放存储为1位音频的礼品卡

如何在数字领域更加熟悉音频:

  • 做得更多!下载诸如audacity之类的程序,并使用不同的采样率和位范围创建不同的音频文件
  • 创建正弦/三角形/正方形和锯齿形的音调,并听取差异
  • 学习了解类型之间的区别,例如8位10KHz文件和16位44.1KHz文件(CD品质)
  • 尝试使用高通/低通/带通滤波器,并了解不同之处
  • 将信号推到其饱和极限以上,以了解削波如何影响音频信号
  • 如果您的软件具有此功能,则将信封应用于信号
  • 非谐波失真和谐波失真之间存在差异,请同时尝试
  • 使用频谱图(FFT)查看这些信号和其他信号以熟悉它们
  • 使用线性图和对数图查看差异
  • 对信号进行下采样和上采样,并了解这如何影响音频
  • 使用不同的抖动方法(转换位范围时),并听出差异

希望可以在尝试使用任何DSP之前先了解一下数字表示的音频是什么以及听起来有什么不同。如果您可以识别出例如输入的是8位信号还是16位信号,或者由于转换中错误的错误计算而破坏了采样率,则总是很容易知道FFT分析出了问题。


感谢您的回答。我知道这些事情,现在想进入dsp编码方面。
jarryd
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.