信号处理

为信号,图像和视频处理领域的艺术和科学从业者提供的问答

2
隐马尔可夫模型是哪种机器学习算法?
我在信号处理课程中使用了隐马尔可夫模型算法进行自动语音识别。现在遍历机器学习文献,我看到算法被分类为“分类”,“聚类”或“回归”。HMM属于哪个存储桶?我没有遇到文献中列出的隐藏马尔可夫模型。
12 algorithms 

3
如何检测信号处理中的“快速”变化
我正在一个项目中,我们在其中测量组件的可焊性。测得的信号有噪声。我们需要实时处理信号,以便能够识别从5000毫秒开始的变化。 我的系统每10毫秒对真实值进行一次采样-但可以对其进行调整以降低采样速度。 如何在5000毫秒处检测到这种下降? 您如何看待信噪比?我们应该集中精力并试图获得更好的信号吗? 存在一个问题,即每个度量都有不同的结果,有时跌落甚至小于此示例。 链接到数据文件(它们与用于绘图的文件不同,但是它们显示最新的系统状态) https://docs.google.com/open?id=0B3wRYK5WB4afV0NEMlZNRHJzVkk https://docs.google.com/open?id=0B3wRYK5WB4afZ3lIVzhubl9iV0E https://docs.google.com/open?id=0B3wRYK5WB4afUktnMmxfNHJsQmc https://docs.google.com/open?id=0B3wRYK5WB4afRmxVYjItQ09PbE0 https://docs.google.com/open?id=0B3wRYK5WB4afU3RhYUxBQzNzVDQ

2
行人计数算法
目前,我正在开发一个行人计数器项目(在Linux上使用OpenCV + QT)。我对方法的想法是: 捕捉帧 做背景扣除 清除噪音(腐蚀,膨胀) 查找blob(cvBlobslib)-前景对象 为每个Blob设置ROI,并在这些Blob中搜索行人(LBP和detectMultiScale)(以获得更好的性能) 对每个发现的行人进行嵌套的上身搜索(不确定)(可靠性更高) 如果在连续的帧(可能是3-4帧)上发现了相同的行人-将该区域添加到camshift和跟踪中-标记为行人 从下一个帧的斑点检测中排除camshift跟踪的区域 如果行人越过行号 我想检查一下我是否走对了。您对如何改善我的方法有什么建议吗?如果有人从事类似的工作,我将不胜感激有关此问题的任何有用技巧,资源(和批评)。

2
下采样器的Z变换
在本文或多速率过滤中,作者建立了以下数学关系。令为下采样器的输出,使得yDyDy_D yD[n]=x[Mn]yD[n]=x[Mn]y_D[n] = x[Mn] 其中是下采样因子。换句话说,我们保留原始信号的每个样本。然后作者继续陈述以下内容:MMMMMM ...的z变换由yD[n]yD[n]y_D[n] YD[z]=1M∑k=0M−1X[z1/MWk]YD[z]=1M∑k=0M−1X[z1/MWk]Y_D[z]=\frac{1}{M}\sum_{k=0}^{M-1}X[z^{1/M}W^k] 其中是点离散傅里叶变换内核,即 。WkWkW^kMMMe(−j2πk)/Me(−j2πk)/Me^{(-j2\pi k)/M} 我们如何从前一种表达转到后者?DFT和Z变换之间允许这种过渡的关系是什么?


1
对信号进行降采样
我正在尝试抽取信号,在这种情况下为单位脉冲。 我在pylab中使用Python。首先,我创建一个单位冲量,并将其减5。 x = r_[zeros(0), 1, zeros(100)] N = 2 ** 14 q = 5 y = decimate(x, q, ftype="fir") subplot(211) title("Original") stem(range(len(x)), x) subplot(212) title("Decimated - FIR") stem(range(len(y)), y) figure() subplot(211) semilogx(log(abs(fft(x, N)))) subplot(212) y = decimate(x, q, ftype="fir") semilogx(log(abs(fft(y, N)))) 结果如下图 然后,通过将x更改为,在脉冲之前添加一些延迟样本: x = r_[zeros(3), 1, zeros(100)] 结果如下图 …
12 decimation 

1
连续函数的采样:克罗内克(Kronecker)还是狄拉克(Dirac)的增量?
我一直在阅读信号处理方面的一些论文,对问题的标题感到非常困惑。考虑时间的连续函数,˚F (吨),即在不平坦的倍I样本吨ķ,其中ķ = 1 ,2 ,。。。,N。对我来说,是非常有意义的取样函数是: ˚F 小号(吨)= Ñ Σ ķ = 1 δ 吨,吨ķ ˚F (吨)ŤttF(吨)f(t)f(t)Ťķtkt_kķ = 1 ,2 ,。。。,Nk=1,2,...,Nk=1,2,...,N 其中, δ 吨,吨ķ是克罗内克的增量(等于 1时吨= 吨ķ,零别处)。但是,在本文中,作者将采样信号定义为: f s(t )= 1Fs(t )= ∑k = 1ñδ牛逼,牛逼ķF(t ),(1 ) fs(t)=∑k=1Nδt,tkf(t), (1)f_s(t)=\sum_{k=1}^N\delta_{t,t_k}f(t),\ \ \ \ \ \ \ \ \ \ \ \ \ …
12 sampling 

2
检测织物图像中的纱线数量
我是图像处理的新手,并且正在一个项目中确定织物图像中纱线的数量,即经纱和纬纱(与x轴垂直和平行的纱线)。 我试图通过分别获取经线和纬线的列数和行数之和来检测纱线,但由于图像聚焦和清晰度不高,因此似乎不起作用。同样,该方法对织物中纱线的排列非常敏感。 如果可能,请提出一种更好的算法来检测纱线。同样,是否有可能使每个捕获的图像都变得笔直。我尝试了IMROTATE,但是它会在图像中创建黑色区域,这会干扰行的总数,并且算法会失败。 在这方面的任何帮助对我来说都是非常值得的。谢谢。

1
确定音频与人类语音的相似程度
在寻找这个问题的答案时,我发现这个董事会决定从Stack Overflow 交叉发布我的这个问题。 我正在寻找一种确定音频片段和人类语音之间相似性的方法,该相似性以数字表示。 我已经搜索了很多,但是到目前为止(以下详细介绍)我发现的内容并不完全符合我的需要: 一种方法是使用语音识别软件从音频片段中获取单词。但是,这种方法无法提出与人类语音“相似”的音频。它通常可以判断音频中是否有单词,但是如果没有确定的单词,就无法判断音频是否包含这些单词。示例:CMU狮身人面像,蜻蜓,SHoUT 更有希望的方法称为语音活动检测(VAD)。但是,这往往会有相同的问题:使用VAD的算法/程序倾向于仅返回是否已达到活动阈值,并且在该阈值之前或之后都没有“相似性”值。另外,许多人只是在寻找音量,而不是与人类语音相似。示例:Speex,Listener,FreeSWITCH 有任何想法吗?

4
并行计算FFT的算法
我试图并行化TB级信号文件上FFT的计算。现在,使用开源库进行这样的FFT需要花费数小时,即使在我拥有的最快GPU上通过CUDA运行时也是如此。我正在尝试适应此过程的框架是Hadoop。用非常基本的术语来说,Hadoop通过以下方式将问题分配到任意数量的服务器节点上: •您将输入文件分成(键,值)对。 •这些对被输入到“映射”算法中,该算法根据您放入映射中的内容将您的(键,值)对转换为其他一些(键,值)对。 •然后,框架从Maps收集所有(键,值)输出,并按键对它们进行排序,并将具有相同键的值聚合为一对,因此最后得到了(键,list(value1,value2, ..))对 •然后,将这些对馈入“ Reduce”算法中,该算法依次输出更多(键,值)对作为您的最终结果(写入文件)。 该模型在诸如处理服务器日志之类的实际应用中有许多应用程序,但是我很难应用该框架将FFT分解为“映射”和“减少”任务,特别是因为我对DSP并不很熟悉。 我不会打扰您,因为这是DSP问题与解答。但是,我对存在哪些并行计算FFT的算法感到困惑;映射和归约任务无法(在技术上)相互交谈,因此必须将FFT分成独立的问题,最后可以以某种方式重新组合结果。 我已经为Cooley-Tukey Radix 2 DIT编写了一个简单的实现,可以在较小的示例上运行,但是将其用于递归计算十亿字节的奇/偶索引DFT将不起作用。我花了几周时间阅读许多论文,包括一篇关于MapReduce FFT算法的文章(由Tsz-Wo Sze作为其关于SSA乘法的论文的一部分撰写,我不能链接两个以上的超链接)和“四步FFT” (这里和这里),它们看起来彼此相似,而且与我要完成的任务相似。但是,我在数学上是绝望的,将这些方法中的任何一种手工应用于{1,2,3,4,5,6,7,8}(所有虚部均为0)这样的简单集合,可以得出我非常不正确的结果。谁能用简单的英语(我链接的或其他链接的)向我解释一种有效的并行FFT算法,以便我尝试对其进行编程? 编辑:吉姆·克莱(Jim Clay)和其他可能对我的解释感到困惑的人,我正在尝试对TB文件进行一次FFT。但是我希望能够在多台服务器上同时执行此操作,以加快该过程。
12 fft 

2
声音合成效果可产生自然声音
我目前正在开发手风琴合成器,我想使其听起来尽可能自然。 我真的很喜欢以下波浪声: https://dl.dropbox.com/u/20437903/onda%20acordeon.wav 波浪看起来像这样: 看着波浪,看起来好像有谐波加减了。我错了吗? 我对声音合成有点陌生,如果有人可以帮助我确定应用于波浪的效果以及应用效果的一些指导,我将不胜感激。谢谢。
12 music  sound 

4
是否存在带限非线性失真之类的东西?
因此,如果仅通过在样本边界处的两个值之间切换信号来生成方波,它将产生无限次谐波,这些谐波会混叠并产生低于您的基频的音调,这是非常可听的。解决方案是带限合成,可以使用加法合成或带限步骤来产生与采样之前对理想数学方波进行带限相同的波形: http://flic.kr/p/83JMjT 但是我只是意识到,如果对数字正弦波进行大的放大,然后对其进行数字削波,它将产生相同的方波形状,而不会产生吉布斯现象。因此,它还会产生混淆的失真产物,对吗?所以任何在数字域中产生外的奈奎斯特极限谐波的非线性失真将产生混叠失真产品?(编辑:我已经做了一些测试,并确认这部分是正确的。) 是否存在诸如频带限制失真之类的东西,以在频带限制和采样之前模拟(在数字域中)失真的效果?如果是这样,您该怎么做?如果我搜索“带限失真”,我会找到一些有关切比雪夫多项式的参考,但我不知道如何使用它们,或者它们仅适用于正弦波或什么: 本仪器不会尝试产生限带失真。那些对带限失真感兴趣的人应该研究使用切比雪夫多项式来产生这种影响。双曲正切畸变 “切比雪夫多项式”-具有重要特征的整形函数,它们本质上是受频带限制的,即它们不会由于重叠等而引入杂散频谱谐波。Wave Shaper

1
功率谱密度,频谱功率和功率比之间的区别?
离散信号的功率谱密度“确切”是什么?我一直在假设对信号进行傅立叶变换,然后在整个频率范围内所需频率范围幅度的比率得出该频率范围的功率比,该功率比与功率谱密度相同。错了吗 读学生论文让我感到困惑,因为它说的是计算PSD,然后计算“所需频段内的绝对和相对频谱功率”。他们不同吗?如果是,请问如何计算?


2
自动对焦估计?
在2D单色图像矩阵或位图的集合上可以使用哪种类型的分析,以估计或比较它们“聚焦”的相对质量?是否存在一种有效的方法来计算诸如整体对比度,亮度稀疏度或散焦模糊产生的其他伪影之类的标量度量?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.