如何将用于收听目的的22.05 kHz语音音频材料增强到44.1 kHz?


1

我在网络上找到了一部非常有趣的广播小说,我想引起我的一位熟人的注意。不幸的是,音频材料的质量很差,只有22.05 kHz和1声道单声道。但是,它不包含音乐,仅包含语音。一般来说,这听起来像是一台旧收音机或一台旧电话。在将其发送给我的朋友之前,我想对其进行一些增强。我应该使用什么软件,并且应该对音频文件进行哪些操作才能使其听起来更好?


1
您可以分享音频样本吗?
Attie

1
是的,当然可以:drive.google.com/open?id=1Sz8YF
康斯坦丁

1
也许你可以通过一个超级复杂的语音重建模式运行,如所描述这里。我对这些要求一点儿也不熟悉。
Daniel B

Answers:


3

如果录制语音的采样率是22kHz,则不能仅仅通过将其设置为44kHz来增强它。您可以将其与位图图像进行比较:将“像素变大”将不会获得更多细节。与单声道/立体声相同。如果您有单声道录音,则无法使其成为立体声录音。它只能以其他方式工作,例如将立体声变成单声道。

但是,如果还有其他“问题”,例如,录音的某些部分音量不足,则可以纠正此问题或消除突然的变化等。但这取决于问题的类型,没有通用的解决方案。您应该熟悉该主题,以便知道“技术问题”是什么,然后应该尝试找到解决方案。如果您在应用此解决方案时遇到困难(找到非常具体的声学问题的解决方案),那么再次询问该特定主题将是一个很好的方法。


我知道了,但是当我放大数字图像时,它们也会在一定程度上重新采样,可以说它们已经重新缩放。对于图像,有坏,好甚至更好的缩放算法:最近邻,双线性,双三次,lanczos等,用于对丢失的像素进行插值。我认为音频文件也必须有类似的方法。
康斯坦丁

2
@Konstantin是的,可以在音频上使用多个“过滤器”或其他操作,类似于在图像上进行增强的方式。但是不幸的是,没有使图像“更好”的通用方法。您可以尝试几种算法而不真正知道自己在做什么,然后看看您是否更喜欢该图像。如果那不起作用,则需要更多地了解如何操作,以便可以分析您的特定问题。音频也是如此。
阿尔宾'18

3

就口语而言,22.05 kHz并不是“ 质量较差 ” ...大部分Audible库的采样率均为22.05 kHz-即使对于“ 高质量 ”文件也是如此。

如果录音“ 听起来很糟糕 ”,则可能是由于其他原因造成的:

  • 位深度(8位与16位)
  • 压缩(低比特率MP3与AAC或OGG)
  • 麦克风(便宜vs不太便宜)
  • 麦克风与阅读器的位置
  • 原始介质(模拟vs数字/盒式磁带vs MiniDisc或PC)
  • 从低得多的采样率(这就是您现在要执行的操作)中进行的上一次采样。

无论哪种方式,信息现在都会丢失,并且很难找回。您可能不需要花很多时间就可以做的最好的事情就是调整均衡器,使其听起来更容易接受。


您提供的示例对我来说听起来并不算太糟糕(尽管我不会说这种语言,所以可能会遗漏一些细微差别...)。

我希望稍微调整一下EQ并标准化音频以提高音量-您可能会发现,您认为录音效果不佳实际上是由于将音量调高了,系统中的噪音变得越来越明显。

波形如下所示(使用Audacity),在(顶部)和之后(底部)变化:

大胆,之前(顶部)和之后(底部)

录音中有一些混响(很可能是从房间传来的,可能离麦克风太远了)。但是,背景噪音最小(因此波形的狭窄部分),没有失真,并且整个文件中只有一个弹出声(上面未显示)。


2

如前所述,以22.05kHz录制口语单词本身并不“糟糕”;但实际上也无法“修复”,因为录音中没有需要强调的信息。您只能使用已经存在的内容。

一些解释...人类的声音在2-6 kHz左右确实是最鲜明的。那是所有辅音所在的地方,真正帮助听者确定实际说话内容的地方。这也是为什么将手指放在耳朵中会降低可理解性的原因,它主要阻止了这些较高的频率。
语音中有高于6kHz的信息,但远远超出了该信息,而到11kHz时,几乎没有有用的信息。

所以-对于口语,他们使用22.05kHz作为采样频率。
有一个非常复杂的音频分析,称为Nyquist-Shannon采样定理,通常被称为Nyquist极限,它基本上可以归结为
“可以在音频文件中记录的最高音频频率是采样频率的一半”。
在22.05kHz的录音上,这大约等于11kHz。
对于人类的声音来说,这已经足够了。

这也意味着,即使您将采样频率更改为最高44.1kHz [CD音频质量],也不再需要任何其他信息。

在您的有声书上。
据我所知,问题在于读者离麦克风有点近。由于称为邻近效应,因此强调了较低的频率。无需在这里进行全面介绍,但总体而言,这使得录制有些沉重。
还对其进行了某种程度的压缩-减小了动态范围,因此,静音位更响亮,而响声位更安静。这应该有助于提高清晰度,但效果却不尽如人意,而且往往会更加强调低音。我能想到的唯一理由是,它会使读者听起来“更男子气,更权威”。但是实际上丝毫没有帮助理解:

然后,我们需要做的是降低低音,强调高音并尝试不强调某些沉重的压缩。
大多数可以或多或少地在Audacity中完成,但是我在Cubase中比较舒适,所以让我带你去那里看看...

大多数人会告诉您先将文件标准化。
请勿先执行此操作 -您将失去潜在的净空。
如果您完全需要这样做,请最后执行

还要注意,您不能“撤消”已经应用的压缩-相当于从烤好的蛋糕上取回鸡蛋和面粉-而是只能在受影响最严重的区域尝试减轻它。

如果您要使用的只是均衡功能,则可以尝试将电平降低至250Hz以下,并在此范围内逐渐降低。然后,可以通过在2或3 kHz之上添加相反的斜率来尝试获得一些辅音。

我在大约3:40时发现了令人讨厌的咔嗒声或唇音,我只是选择并将其调低至零,您可以通过单击鼠标器来获得所有的聪明,但这是不值得的。

对于任何类似的救援行动,我选择的武器是多频带压缩器。
我没有为Audacity找到免费的多频段伴奏,尽管我自己还没有尝试过,所以YMMV- https: //www.gvst.co.uk/gmulti.htm

我使用价格昂贵得多的Waves LinMB,但总体思路是相同的。这就是我的设置方式...

在此处输入图片说明

从图像中,您可以看到我真的很难达到最低端,以尝试消除过度的繁荣。中间我几乎没有动过。我的高点增加了它们的输出电平,同时施加了轻微的压缩,以便使一些较重的S等不会显得太过猛。另外,在这一点上,我还没有增加整体音量-我们还有很大的发展空间,最好是当您将效果切换进和切换以进行比较时,您并不仅仅是在愚弄音量更改。

快速示例-
之前...

https://soundcloud.com/graham-lee-15/antal-vegh-orig?in=graham-lee-15/sets/intelligibility-fix

后...

https://soundcloud.com/graham-lee-15/antal-vegh-linmb?in=graham-lee-15/sets/intelligibility-fix

此时,一旦您对声音感到满意,现在就可以正常化了。

请注意,我的示例采样率较高,纯粹是因为我无法直接在22.05导出。这不会以任何方式对结果产生重大影响。


处理图像的一个技巧是在使用渐变时增加位深度,然后再递减回8位。这减少甚至消除了视觉条纹。我想知道这样的技术在这种情况下是否有用(增加位深度,应用过滤器等,然后降低抖动)。
约里克(Yorik)

潜在的。tbh,我将其提升为16位44.1进行工作,但是我不确定Audacity之类的方法会如何处理。就其本身而言,除非您要合成更高的谐波,否则它不会有任何区别,我认为这对于看起来像入门级查询的桥梁来说太遥不可及。此外,对于独奏单词​​,即使不是“不错的高保真度” ,您也可以真正获得6kHz的截止频率并仍保持完整的清晰度。想一想电话对音频信号的作用:/
Tetsujin

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.