如何将用于收听目的的22.05 kHz语音音频材料增强到44.1 kHz？

1

我在网络上找到了一部非常有趣的广播小说，我想引起我的一位熟人的注意。不幸的是，音频材料的质量很差，只有22.05 kHz和1声道单声道。但是，它不包含音乐，仅包含语音。一般来说，这听起来像是一台旧收音机或一台旧电话。在将其发送给我的朋友之前，我想对其进行一些增强。我应该使用什么软件，并且应该对音频文件进行哪些操作才能使其听起来更好？

— 康斯坦丁
source

1

您可以分享音频样本吗？

— Attie

1

是的，当然可以：drive.google.com/open?id=1Sz8YF

— 康斯坦丁

1

也许你可以通过一个超级复杂的语音重建模式运行，如所描述这里。我对这些要求一点儿也不熟悉。

— Daniel B

3

如果录制语音的采样率是22kHz，则不能仅仅通过将其设置为44kHz来增强它。您可以将其与位图图像进行比较：将“像素变大”将不会获得更多细节。与单声道/立体声相同。如果您有单声道录音，则无法使其成为立体声录音。它只能以其他方式工作，例如将立体声变成单声道。

但是，如果还有其他“问题”，例如，录音的某些部分音量不足，则可以纠正此问题或消除突然的变化等。但这取决于问题的类型，没有通用的解决方案。您应该熟悉该主题，以便知道“技术问题”是什么，然后应该尝试找到解决方案。如果您在应用此解决方案时遇到困难（找到非常具体的声学问题的解决方案），那么再次询问该特定主题将是一个很好的方法。

— 阿尔宾
source

我知道了，但是当我放大数字图像时，它们也会在一定程度上重新采样，可以说它们已经重新缩放。对于图像，有坏，好甚至更好的缩放算法：最近邻，双线性，双三次，lanczos等，用于对丢失的像素进行插值。我认为音频文件也必须有类似的方法。

— 康斯坦丁

2

@Konstantin是的，可以在音频上使用多个“过滤器”或其他操作，类似于在图像上进行增强的方式。但是不幸的是，没有使图像“更好”的通用方法。您可以尝试几种算法而不真正知道自己在做什么，然后看看您是否更喜欢该图像。如果那不起作用，则需要更多地了解如何操作，以便可以分析您的特定问题。音频也是如此。

— 阿尔宾'18

3

就口语而言，22.05 kHz并不是“ 质量较差 ” ...大部分Audible库的采样率均为22.05 kHz-即使对于“ 高质量 ”文件也是如此。

如果录音“ 听起来很糟糕 ”，则可能是由于其他原因造成的：

位深度（8位与16位）
压缩（低比特率MP3与AAC或OGG）
麦克风（便宜vs不太便宜）
麦克风与阅读器的位置
原始介质（模拟vs数字/盒式磁带vs MiniDisc或PC）
从低得多的采样率（这就是您现在要执行的操作）中进行的上一次采样。

无论哪种方式，信息现在都会丢失，并且很难找回。您可能不需要花很多时间就可以做的最好的事情就是调整均衡器，使其听起来更容易接受。

您提供的示例对我来说听起来并不算太糟糕（尽管我不会说这种语言，所以可能会遗漏一些细微差别...）。

我希望稍微调整一下EQ并“ 标准化 ”音频以提高音量-您可能会发现，您认为录音效果不佳实际上是由于将音量调高了，系统中的噪音变得越来越明显。

波形如下所示（使用Audacity），在（顶部）和之后（底部）变化：

录音中有一些混响（很可能是从房间传来的，可能离麦克风太远了）。但是，背景噪音最小（因此波形的狭窄部分），没有失真，并且整个文件中只有一个弹出声（上面未显示）。

— Attie
source

2

如前所述，以22.05kHz录制口语单词本身并不“糟糕”；但实际上也无法“修复”，因为录音中没有需要强调的信息。您只能使用已经存在的内容。

一些解释...人类的声音在2-6 kHz左右确实是最鲜明的。那是所有辅音所在的地方，真正帮助听者确定实际说话内容的地方。这也是为什么将手指放在耳朵中会降低可理解性的原因，它主要阻止了这些较高的频率。
语音中有高于6kHz的信息，但远远超出了该信息，而到11kHz时，几乎没有有用的信息。

所以-对于口语，他们使用22.05kHz作为采样频率。
有一个非常复杂的音频分析，称为Nyquist-Shannon采样定理，通常被称为Nyquist极限，它基本上可以归结为
“可以在音频文件中记录的最高音频频率是采样频率的一半”。
在22.05kHz的录音上，这大约等于11kHz。
对于人类的声音来说，这已经足够了。

这也意味着，即使您将采样频率更改为最高44.1kHz [CD音频质量]，也不再需要任何其他信息。

在您的有声书上。
据我所知，问题在于读者离麦克风有点近。由于称为邻近效应，因此强调了较低的频率。无需在这里进行全面介绍，但总体而言，这使得录制有些沉重。
还对其进行了某种程度的压缩-减小了动态范围，因此，静音位更响亮，而响声位更安静。这应该有助于提高清晰度，但效果却不尽如人意，而且往往会更加强调低音。我能想到的唯一理由是，它会使读者听起来“更男子气，更权威”。但是实际上丝毫没有帮助理解：

然后，我们需要做的是降低低音，强调高音并尝试不强调某些沉重的压缩。
大多数都可以或多或少地在Audacity中完成，但是我在Cubase中比较舒适，所以让我带你去那里看看...

大多数人会告诉您先将文件标准化。
请勿先执行此操作 -您将失去潜在的净空。
如果您完全需要这样做，请最后执行。

还要注意，您不能“撤消”已经应用的压缩-相当于从烤好的蛋糕上取回鸡蛋和面粉-而是只能在受影响最严重的区域尝试减轻它。

如果您要使用的只是均衡功能，则可以尝试将电平降低至250Hz以下，并在此范围内逐渐降低。然后，可以通过在2或3 kHz之上添加相反的斜率来尝试获得一些辅音。

我在大约3:40时发现了令人讨厌的咔嗒声或唇音，我只是选择并将其调低至零，您可以通过单击鼠标器来获得所有的聪明，但这是不值得的。

对于任何类似的救援行动，我选择的武器是多频带压缩器。
我没有为Audacity找到免费的多频段伴奏，尽管我自己还没有尝试过，所以YMMV- https: //www.gvst.co.uk/gmulti.htm

我使用价格昂贵得多的Waves LinMB，但总体思路是相同的。这就是我的设置方式...

从图像中，您可以看到我真的很难达到最低端，以尝试消除过度的繁荣。中间我几乎没有动过。我的高点增加了它们的输出电平，同时施加了轻微的压缩，以便使一些较重的S等不会显得太过猛。另外，在这一点上，我还没有增加整体音量-我们还有很大的发展空间，最好是当您将效果切换进和切换以进行比较时，您并不仅仅是在愚弄音量更改。

快速示例-
之前...

https://soundcloud.com/graham-lee-15/antal-vegh-orig?in=graham-lee-15/sets/intelligibility-fix

后...

https://soundcloud.com/graham-lee-15/antal-vegh-linmb?in=graham-lee-15/sets/intelligibility-fix

此时，一旦您对声音感到满意，现在就可以正常化了。

^{请注意，我的示例采样率较高，纯粹是因为我无法直接在22.05导出。这不会以任何方式对结果产生重大影响。}

— 铁人
source

处理图像的一个技巧是在使用渐变时增加位深度，然后再递减回8位。这减少甚至消除了视觉条纹。我想知道这样的技术在这种情况下是否有用（增加位深度，应用过滤器等，然后降低抖动）。

— 约里克（Yorik）

潜在的。tbh，我将其提升为16位44.1进行工作，但是我不确定Audacity之类的方法会如何处理。就其本身而言，除非您要合成更高的谐波，否则它不会有任何区别，我认为这对于看起来像入门级查询的桥梁来说太遥不可及。此外，对于独奏单词，即使不是“不错的高保真度” ，您也可以真正获得6kHz的截止频率并仍保持完整的清晰度。想一想电话对音频信号的作用：/

— Tetsujin

-1

使用Audacity，这是一个开源软件。这是链接https://www.audacityteam.org/

检查以下链接，看看是否可以做一些事情来改善您的特定音频 https://www.wikihow.com/Get-Higher-Audio-Quality-when-Using-Audacity

— 索拉夫·库马尔·萨胡（Saurav Kumar Sahu）
source

请在参考链接中引用答案的关键部分，因为如果链接页面发生更改，答案可能会失效。

— DavidPostill