Questions tagged «speech-recognition»

3
人类语音噪声过滤器
有人知道一个可以减弱非语音的滤波器吗?我正在写语音识别软件,想过滤掉人类语音以外的所有内容。这将包括背景噪音,microphone脚的麦克风产生的噪音,甚至是背景音乐。我已经实现了可补偿功率谱6 dB滚降的一阶滤波器,但是我仍然听到噪音(尽管语音听起来更加清晰)。我曾经考虑过使用低通滤波器,但由于两个原因,我对此并不满意: 我不知道低通前置滤波器是否会干扰其余的语音处理。即使人耳只能检测到低于20 kHz的声音,我也不想冒消除处理语音所需的任何高次谐波的风险(尽管我不知道是否是这种情况。但是我不想冒险)。 我了解某些辅音(例如f,h和s)的激发几乎完全是白噪声。可以这么说,我不想实现一个可以消除良好噪声的噪声滤波器。 理想情况下,我只想听麦克风里那个人的讲话。如果您有任何想法,或者我缺少什么,请告诉我。非常感激!

1
确定音频与人类语音的相似程度
在寻找这个问题的答案时,我发现这个董事会决定从Stack Overflow 交叉发布我的这个问题。 我正在寻找一种确定音频片段和人类语音之间相似性的方法,该相似性以数字表示。 我已经搜索了很多,但是到目前为止(以下详细介绍)我发现的内容并不完全符合我的需要: 一种方法是使用语音识别软件从音频片段中获取单词。但是,这种方法无法提出与人类语音“相似”的音频。它通常可以判断音频中是否有单词,但是如果没有确定的单词,就无法判断音频是否包含这些单词。示例:CMU狮身人面像,蜻蜓,SHoUT 更有希望的方法称为语音活动检测(VAD)。但是,这往往会有相同的问题:使用VAD的算法/程序倾向于仅返回是否已达到活动阈值,并且在该阈值之前或之后都没有“相似性”值。另外,许多人只是在寻找音量,而不是与人类语音相似。示例:Speex,Listener,FreeSWITCH 有任何想法吗?

1
语音识别的降噪与应该使人类的语音“更难以理解”的降噪有何不同?
这是一个让我很感兴趣的问题,主要是因为我自己正在为现有的语音识别系统进行降噪工作。 关于降噪技术的大多数论文似乎都集中在如何使语音对人类更易懂,或者如何改善诸如“语音质量”之类的模糊术语上。 我敢肯定,使用这样的标准,您可以识别出可以使嘈杂的语音信号更容易被人类听见的滤波器。但是,我不确定在尝试评估已被去噪以提高语音识别系统准确性的语音信号时,是否可以简单地采用这些标准。 我真的没有找到讨论这种差异的论文。语音清晰度和语音质量是否与语音识别系统的准确性相关?是否有客观的指标可以评估降噪后的语音信号对于语音识别系统的“良好”程度(例如,如果还给出了原始的干净语音)?还是唯一的方法来找出您的降噪技术有多好,在去噪数据上训练语音识别系统并查看准确性? 如果有人可以指出我正确的方向,或者提供一些讨论此问题的论文,我将感到非常高兴。提前致谢!

1
设计特征向量以区分不同的声音波形
考虑以下四个波形信号: signal1 = [4.1880 11.5270 55.8612 110.6730 146.2967 145.4113 104.1815 60.1679 14.3949 -53.7558 -72.6384 -88.0250 -98.4607] signal2 = [ -39.6966 44.8127 95.0896 145.4097 144.5878 95.5007 61.0545 47.2886 28.1277 -40.9720 -53.6246 -63.4821 -72.3029 -74.8313 -77.8124] signal3 = [-225.5691 -192.8458 -145.6628 151.0867 172.0412 172.5784 164.2109 160.3817 164.5383 171.8134 178.3905 180.8994 172.1375 149.2719 …


2
如何实现基于梯度的霍夫变换
我正在尝试使用霍夫变换进行边缘检测,并希望使用渐变图像作为基础。 我迄今所做,给出的图像I尺寸的[M,N]和它的部分衍生物gx,gy是计算中的每个像素作为梯度角thetas = atan(gy(x,y) ./ gx。同样,我将梯度幅度计算为magnitudes = sqrt(gx.^2+gy.^2)。 要构建霍夫变换,我使用以下MATLAB代码: max_rho = ceil(sqrt(M^2 + N^2)); hough = zeros(2*max_rho, 101); for x=1:M for y=1:N theta = thetas(x,y); rho = x*cos(theta) + y*sin(theta); rho_idx = round(rho)+max_rho; theta_idx = floor((theta + pi/2) / pi * 100) + 1; hough(rho_idx, theta_idx) = hough(rho_idx, theta_idx) + …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.