2
如何从立体声音频信号中提取人声部分?
我正在处理MP3文件,遇到此问题。我的MP3是立体声编码的。我要做的是提取人声部分以进行进一步处理(无论输出信号的模式是哪种,单声道或立体声都可以)。 据我所知,音频在MP3中被编码为不同的不相交的子频带。我认为我可以通过适当设置截止频率的高通/低通滤波器将信号限制在人声范围内。但是,在这种情况下,结果必须包含纯音乐信号的一部分。或在谷歌搜索之后,我想我可能会首先计算背景信号(通过将一个声道与另一个声道的信号相加而得到反相,并假设声音部分位于称为相位消除的立体声音频中)。经过此变换后,信号为单声道。然后,我应该将原始立体声合并为单声道,然后从中提取背景信号。 考虑到有效性,哪个是首选(或任何其他解决方案:)?如果是第二个,让两个通道A和B,计算背景时将使用(BA)还是(AB)?与合并两个通道一样,算术方法是否足够准确?或者我可以将每个通道下采样两倍,然后将下采样信号交织为单声道结果? 谢谢和最好的问候。