是否有任何现有的应用程序可以对某人的声音进行采样,然后使用它来调制其他声音或合成类似于原始声音的文本?
例如,此AT&T的“文本到语音”演示使您可以从预设中选择一种语音和一种语言,我猜这些预设是基于已采样的某些人类语音的。
您如何称呼这个过程?是语音调制吗?语音合成?
是否有任何现有的应用程序可以对某人的声音进行采样,然后使用它来调制其他声音或合成类似于原始声音的文本?
例如,此AT&T的“文本到语音”演示使您可以从预设中选择一种语音和一种语言,我猜这些预设是基于已采样的某些人类语音的。
您如何称呼这个过程?是语音调制吗?语音合成?
Answers:
首先要注意的是:大多数现代文本转语音系统(例如您链接到的AT&T的系统)都使用级联语音合成。这项技术使用了一个大型数据库,该数据库记录着一个人的语音,上面说出了很长的句子集-选择这些单词是为了使最大数量的音素组合出现。只需将来自该语料库的片段串在一起即可完成句子的合成-具有挑战性的一点是使串在一起变得无缝且富有表现力。
如果要使用此技术使奥巴马总统说出尴尬的话,有两个大障碍:
您的直觉是可行的解决方案-只要您有预算来解决这两个问题即可。
幸运的是,还有其他技术可以在更少的监督和更少的数据下工作。对“伪造”或“模仿”来自录音的一种语音感兴趣的语音合成领域被称为语音转换。您有目标说话人A说句1的录音A1和源说话人B说句2的录音B2,您的目标是制作讲话人A说句2的录音A2,可能会访问说话人B的录音B1他/她的声音与目标说话者相同。
语音转换系统的概述如下:
我坚持这样一个事实,即该操作的级别要比对B2进行语音识别然后使用A1的语音作为语料库进行TTS进行的操作低得多。
步骤1和步骤2使用了各种统计技术-GMM或VQ是最常用的技术。第2部分使用了各种对齐算法-这是最棘手的部分,显然,对齐A1 vs B1比对齐A1 vs B2更容易。在较简单的情况下,可以使用诸如动态时间规整之类的方法进行对齐。对于步骤4,最常见的变换是特征向量上的线性变换(矩阵乘法)。更复杂的转换会产生更逼真的模仿,但要找到最佳映射的回归问题则更难解决。最后,至于步骤5,重新合成的质量受到所使用功能的限制。LPC通常更容易使用简单的转换方法处理(采用信号帧->估计残差和LPC频谱->如有必要,音调移位残差-> 将修改后的LPC频谱应用于修改后的残差)。在这里,关键是要使用可以倒转到时域的语音表示形式,并在韵律和音素之间提供良好的分隔。最后,如果您可以使用说话者A和B对准他们的同一句话的录音,那么可以使用统计模型在一个模型估计过程中同时处理步骤1、2、3和4。
稍后我可能会再返回参考书目,但是一个很好的地方可以开始体会到该问题,而解决该问题的整体框架是Stylianou,Moulines和Cappé的“基于概率分类和谐波的语音转换系统加噪声模型”。
据我所知,没有广泛的软件可以执行语音转换,只有软件可以修改源语音的属性(例如音高和声道长度参数(例如IRCAM TRAX变压器)),而您不得不将其弄乱,以使自己的录制更接近目标语音的声音。
您正在寻找的被称为声码器。
您是否尝试过Audcity的声码器?可以从以下网址下载Audacity:http : //audacity.sourceforge.net/download。有关如何使用它的演示,请访问https://www.youtube.com/watch?v=J_rPEmJfwNs。