信号处理 mp3

如何从立体声音频信号中提取人声部分？

我正在处理MP3文件，遇到此问题。我的MP3是立体声编码的。我要做的是提取人声部分以进行进一步处理（无论输出信号的模式是哪种，单声道或立体声都可以）。据我所知，音频在MP3中被编码为不同的不相交的子频带。我认为我可以通过适当设置截止频率的高通/低通滤波器将信号限制在人声范围内。但是，在这种情况下，结果必须包含纯音乐信号的一部分。或在谷歌搜索之后，我想我可能会首先计算背景信号（通过将一个声道与另一个声道的信号相加而得到反相，并假设声音部分位于称为相位消除的立体声音频中）。经过此变换后，信号为单声道。然后，我应该将原始立体声合并为单声道，然后从中提取背景信号。考虑到有效性，哪个是首选（或任何其他解决方案：）？如果是第二个，让两个通道A和B，计算背景时将使用（BA）还是（AB）？与合并两个通道一样，算术方法是否足够准确？或者我可以将每个通道下采样两倍，然后将下采样信号交织为单声道结果？谢谢和最好的问候。

15 audio downsampling mp3 background-subtraction

Questions tagged «mp3»