Questions tagged «sound-recognition»

4
特征提取以进行声音分类
我正在尝试从声音文件中提取特征,并将声音分类为属于特定类别(例如:狗吠,汽车引擎等)。我想在以下方面做一些澄清: 1)这完全可行吗?有些程序可以识别语音,并可以区分不同类型的狗吠。但是,是否有可能有一个程序可以接收声音样本并仅说明它是哪种声音?(假设有一个包含很多声音样本的数据库)。输入的声音样本可能有点嘈杂(麦克风输入)。 2)我假设第一步是音频特征提取。该文章建议提取的MFCC并将这些资料传送到机器学习算法。MFCC是否足够?还有其他通常用于声音分类的功能吗? 感谢您的时间。

2
什么时候笑轨道踢?
我的一个周末项目使我进入了信号处理的深水领域。与我所有需要一些重型数学的代码项目一样,尽管缺乏理论基础,但我很乐于尝试解决方案,但是在这种情况下,我没有任何建议,并且希望就我的问题提供一些建议,即:我正试图弄清楚电视观众在现场观众何时笑。 我花了很多时间阅读用于检测笑声的机器学习方法,但意识到这与检测单个笑声有关。一次有200个笑声的人会有不同的声音特性,我的直觉是,应该通过比神经网络更粗略的技术来区分他们。不过,我可能完全错了!希望能对此事有想法。 到目前为止,这是我一直在尝试的方法:我将最近一集的《星期六夜现场》(Saturday Night Live)中的一小段节录切成两秒的片段。然后,我将这些标记为“笑”或“不笑”。然后,我使用Librosa的MFCC特征提取器对数据运行了K-Means聚类,并获得了良好的结果-两个聚类非常整齐地映射到我的标签上。但是,当我尝试遍历较长的文件时,预测并没有成立。 我现在要尝试的是:创建这些笑声片段时,我将更加精确。我将不进行盲目拆分和排序,而是手动提取它们,以便没有对话会污染信号。然后,我将它们分成四分之一秒剪辑,计算其中的MFCC,然后使用它们来训练SVM。 我现在的问题是: 这有道理吗? 统计资料对您有帮助吗?我一直在Audacity的频谱图查看模式中滚动浏览,我可以很清楚地看到发生笑声的地方。在对数功率谱图中,语音具有非常独特的“皱纹”外观。相反,笑声则相当均匀地覆盖了很广的频率范围,几乎就像是正态分布一样。甚至可以通过掌声所代表的频率范围更有限的方式在视觉上将掌声与笑声区分开。这让我想到了标准偏差。我看到有一个叫做Kolmogorov–Smirnov的测试,在这里可能有用吗? (您可以在上图中看到笑声,因为橙色的墙壁撞到了其中的45%。) 线性声谱图似乎表明笑声在较低频率下更具活力,并在较高频率下逐渐消失-这是否意味着它相当于粉红噪声?如果是这样,那可以成为这个问题的立足点吗? 如果我误用了任何行话,我深表歉意。我已经在Wikipedia上花了很多时间,如果碰到一些混乱也不会感到惊讶。

2
使用多个麦克风检测声音方向
首先,我看到了一个类似的线程,但是它与我要实现的目标有点不同。我正在构建一个机器人,它将跟随调用它的人。我的想法是使用3个或4个麦克风-即按照以下安排,以确定从哪个方向调用机器人: 其中S是源,A,B和C是麦克风。这个想法是要计算从AB,AC,BC对记录的信号的相位相关性,并以此为基础构造一个矢量,该矢量将使用一种三角测量指向源。该系统甚至不必实时工作,因为它将被语音激活-来自所有麦克风的信号将被同时记录,仅从一个麦克风中采样声音,如果适合语音签名,将从最后一秒的分数,以便计算方向。我知道这可能无法很好地工作,例如,当从另一个房间调用机器人或有多次反射时。 这只是我的一个主意,但我从未尝试过类似的事情,在构造可以完成此工作的实际硬件之前,我有几个问题: 这是这样做的典型方法吗?(即用于电话中以消除噪音?)还有其他可能的方法吗? 可以以某种方式同时计算3个源之间的相位相关吗?(即为了加快计算速度) 22khz的采样率和12bit的深度对于该系统是否足够?我特别担心位深度。 是否应将麦克风放在单独的管子中以改善分离?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.