信号处理

为信号,图像和视频处理领域的艺术和科学从业者提供的问答

2
使用AMDF进行基音提取时如何处理低基数?
我正在使用平均幅度差函数来估计准周期音频信号的基本频率。AMDF定义为 dñ= 1ñ− n∑k = nñ− 1| 小号ķ− Sk − n|dñ=1个ñ-ñ∑ķ=ññ-1个|小号ķ-小号ķ-ñ| D_n = \frac{1}{N-n}\sum_{k=n}^{N-1}|S_k - S_{k-n}| 其中是信号的长度。当信号偏移等于其周期的量时,此功能将显示最小值。ññN 这是我用来提取音高的代码(在Matlab中): a = amdf(f); a = a/max(a); [p l] = findpeaks(-a, 'minpeakprominence', 0.6); pitch = round(sample_freq/l(1); 但是,我正在处理基频非常低的音频信号: 结果,出现音调加倍问题:检测到的最小值对应于信号周期的一半(即二次谐波): 我试图提取最大的峰,而不仅仅是第一个峰,但有时这个问题仍然存在。我该如何改善我的代码和/或AMDF功能以应对低基础?


1
卡尔曼滤波器-了解噪声协方差矩阵
卡尔曼滤波器框架中的噪声协方差矩阵有何意义? 我指的是: 过程噪声协方差矩阵Q和 测量噪声协方差矩阵R 在任何时间t。 如何解释这些矩阵?它们代表什么?他们是否谈论状态向量中一个观测值的噪声相对于另一个观测值的噪声如何变化?

4
卷积如何表示为矩阵乘法(矩阵形式)?
我知道这个问题可能与编程无关,但是如果我不了解图像处理背后的理论,那么我将永远无法在实践中实现某些功能。 如果我做对的话,高斯滤波器会与图像卷积以减少噪声,因为它们可以计算像素邻域的加权平均值,并且在边缘检测中非常有用,因为您可以应用模糊并同时得出图像只需与高斯函数的导数卷积即可。 但是,谁能给我解释一下,或者给我一些有关它们如何计算的参考呢? 例如,Canny的边缘检测器谈论的是5x5高斯滤波器,但是他们如何获得这些特定的数字呢?以及它们如何从连续卷积变为矩阵乘法?

3
了解YCbCr颜色空间中的Cb和Cr成分
我熟悉加性(RGB),次主色(CMYK)和类似HSV的色彩空间,但是我目前试图理解的一篇文章在YCbCr色彩空间上进行图像分割/对象定义。 我整个上午都在寻找可以自然解释YCbCr的东西,但我却一无所获。我有一个不错的直观解释该色彩空间背后的总体思路 这里,和它是如何用于图像编码的/压缩的解释,这些 人(全部在photo.SE)。 从RGB计算YCbCr的公式很容易在维基百科上找到。 我得到了这种表示的动力,我得到了Y分量包含有关图像的最重要的(对于人眼而言)灰度信息。 我知道Cb和Cr带有关于颜色的信息,并且(由于人眼的敏感性)可以压缩它们,而看不到质量的损失。但是,每个色度分量实际上代表什么? 正如文章作者提到的那样,“色度信息在对象定义中至关重要”,而我目前的“ Y是强度,Cb和Cr某种程度上承载了颜色信息”水平,我无法完全理解我正在阅读的内容。了解YCbCr。 我正在寻找“ Cb是...,而Cr是...”或“如果您想通过XY查看/实际上是在查看Cb成分...”的答案,或者另一种可以帮助我理解每个组件分别承载的信息的方法,而不仅仅是它们一起承载了颜色信息。 编辑 让我举例说明我正在寻找的其他颜色空间的直观解释: RGB:就像在黑色的墙壁上照耀着彩色的手电筒一样:如果您用蓝色的手电筒照亮,则会看到蓝色的反射。如果添加红色手电筒,它将显示品红色反射,是蓝色和红色的混合物。 CMYK:就像混合水彩画一样,您“添加表面反射的颜色”(即从背景中减去颜色),因此,如果将黄色和青色混合在一起,则将反射绿色,从而得到绿色。 HSV:小孩被高度饱和的物体所吸引,而不是明亮的(有价值的)物体。色相成分是“赋予颜色”的成分,而低饱和度意味着颜色被白色“稀释”。价值的变化使整个事物变得更亮或更暗。 有了这些定义,我就可以直观地了解每个颜色空间中的颜色表示的含义,而无需记住每个图表的颜色。

1
语音识别的降噪与应该使人类的语音“更难以理解”的降噪有何不同?
这是一个让我很感兴趣的问题,主要是因为我自己正在为现有的语音识别系统进行降噪工作。 关于降噪技术的大多数论文似乎都集中在如何使语音对人类更易懂,或者如何改善诸如“语音质量”之类的模糊术语上。 我敢肯定,使用这样的标准,您可以识别出可以使嘈杂的语音信号更容易被人类听见的滤波器。但是,我不确定在尝试评估已被去噪以提高语音识别系统准确性的语音信号时,是否可以简单地采用这些标准。 我真的没有找到讨论这种差异的论文。语音清晰度和语音质量是否与语音识别系统的准确性相关?是否有客观的指标可以评估降噪后的语音信号对于语音识别系统的“良好”程度(例如,如果还给出了原始的干净语音)?还是唯一的方法来找出您的降噪技术有多好,在去噪数据上训练语音识别系统并查看准确性? 如果有人可以指出我正确的方向,或者提供一些讨论此问题的论文,我将感到非常高兴。提前致谢!


2
高斯,拉普拉斯和墨西哥帽小波之差有什么区别?
简历中使用了三种技术,它们看起来非常相似,但有细微的差别: 高斯的拉普拉斯算子:∇2[g(x ,y,t )∗ f(x ,y)]∇2[g(x,y,t)∗f(x,y)]\nabla^2\left[g(x,y,t)\ast f(x,y)\right] 高斯差异:[ 克1个(x ,y,t )∗ f(x ,y)] - [ g2(x ,y,t )∗ f(x ,y)][g1(x,y,t)∗f(x,y)]−[g2(x,y,t)∗f(x,y)] \left[g_1(x,y,t)\ast f(x,y)\right] - \left[g_2(x,y,t)\ast f(x,y)\right] 用Ricker小波进行卷积:里克(x ,y,t )∗ f(x ,y)Ricker(x,y,t)∗f(x,y)\textrm{Ricker}(x,y,t)\ast f(x,y) 据我目前了解:DoG是LoG的近似值。两者都用于斑点检测,并且两者本质上都充当带通滤波器。用墨西哥帽/里克小波进行卷积似乎可以达到几乎相同的效果。 我已将所有三种技术应用于脉冲信号(必须进行缩放以使幅度相似),结果非常接近。实际上,LoG和Ricker看起来几乎相同。我注意到的唯一真正的区别是使用DoG,我有2个免费的参数可以进行调整(和),而LoG和Ricker则为1。我还发现小波是最简单/最快的,因为它可以通过一次卷积(通过傅立叶空间乘以核的FT乘以完成)对DoG进行2次,对卷积进行卷积加Laplacian进行。 σ 1σ1个σ1\sigma_1σ1个σ1\sigma_1 每种技术的比较优点/缺点是什么? 有不同的用例,其中一个优于另一个吗? 我还凭直觉想到,在离散样本上,LoG和Ricker会退化为相同的操作,因为可以实现为内核 。[ - 1 ,2 ,- 1 ]∇2∇2\nabla^2[ − 1 ,2 ,− 1]要么⎡⎣⎢0− …

2
OFDM和GFDM有什么区别?
我试图了解在无线通信中用作多载波调制技术的OFDM(正交频分复用)和GFDM(广义频分复用)之间的区别。据我所知,在设计发射机时,OFDM使用正交子载波,而GFDM与非正交子载波一起使用。GFDM可能会成为5G系统的调制技术,因为它已经在研究领域中进行了讨论。 有人可以进一步解释GFDM设计及其与OFDM的区别吗?设计发射机时使用GFDM的目的是什么?子载波是在IFFT之后创建的? 在GFDM中,创建子载波时IFFT块如何工作? GFDM中的副载波脉冲整形怎么样? 提前致谢!

1
FSK解调,位定时恢复
我目前正在实施声学FSK调制和解调。我不是信号处理专家,因此非常感谢您提供有关位定时恢复的帮助。目前我实现使用两个匹配滤波器用于每个音调的解调器(具有的相位差对于非相干检测)。基本上,每个滤波器的输出都是振幅不同的峰值。我有两个问题:90∘90∘90^{\circ} 如何执行位定时恢复? 对于包同步前同步码(线性调频,巴克码,黄金码等),您有什么建议? 我用Google搜索了Gardner算法,但不确定它是否适用以及如何适用。考虑一下,我目前正在使用声卡使用2个频率为800 bps的比特率。

2
从互相关图得到什么?
假设我们有两个音频信号x(t)和y(t)受噪声影响,如下所示。我们想对这两个信号进行互相关,互相关图如下所示。 在此相关图中,峰值约为-11毫秒。我试图了解我们如何解释此图中的峰值?这是什么意思?也请解释一下我们从相关函数的傅立叶变换中得到什么。 提前致谢!

3
是否有办法仅通过了解离散系统阶跃函数的响应来获得离散系统的冲激响应?
在连续的时间内,这是可能的; u(t)⟶system⟶y(t)⟹δ(t)=du(t)dt⟶system⟶dy(t)dt=h(t)u(t)⟶system⟶y(t)⟹δ(t)=du(t)dt⟶system⟶dy(t)dt=h(t) u(t){\longrightarrow} \boxed{\quad\textrm{system}\quad} {\longrightarrow} y(t)\implies \delta(t)=\frac{du(t)}{dt}{\longrightarrow}\boxed{\quad\textrm{system}\quad}{\longrightarrow} \frac{dy(t)}{dt}=h(t) 离散时间系统是否也是如此,即 δ[t]=du[t]dtwhere:{δ[t]u[t]is the discrete time deltais the discrete time unit step functionδ[t]=du[t]dtwhere:{δ[t]is the discrete time deltau[t]is the discrete time unit step function \delta[t]=\frac{du[t]}{dt} \quad\textrm{where:}\begin{cases} \delta[t] &\textrm{is the discrete time delta}\\ u[t] & \textrm{is the discrete time unit step function}\end{cases} 是否仅通过了解离散单位阶跃的响应就可以获得离散系统的脉冲响应?

3
数字失真效果算法
我在第124-125页阅读了UdoZölzer撰写的DAFX书中有关失真影响的书,它说该函数可以对失真进行适当的模拟: F(x )= x| x |( 1 − eX2/ | x |)f(x)=x|x|(1−ex2/|x|)f(x)=\frac{x}{|x|}\left(1-e^{x^2/|x|}\right) 有人可以解释这个公式以及我们得到什么样的信号吗? 据我了解,“ x”是采样信号,所以这是一个数字序列。| x |是什么 意思?它是否为每个采样值引用x的绝对值? 因此,如果我想对失真效果进行模拟, 我需要知道x的长度(由样本数给定) 循环中,我需要为每个样本值计算此公式 循环结束后,我得到了失真的信号(数字形式) 之后,我需要将其转换为模拟信号,以便可以听到。

2
图像处理-核计数
我正在尝试创建一个可以计算此类图像中核数的程序: 我已经完成的步骤如下: 应用交替顺序滤镜(使用逐渐变大的结构元素关闭和打开图像) 应用距离变换 使用距离变换图像应用分水岭分割以检测最小值 产生以下结果(其中每种颜色代表计数的新核): 如我们所见,存在很多缺陷,特别是原子核过多。我想说这个问题的原因是我对分水岭变换(使用距离变换)施加最小值的方式,但是在这种情况下,我确实没有其他施加最小值的想法。 由于距离变换会根据对象的圆度生成最小值,因此我想知道一种比“交替序列滤波器”更好的将原子四舍五入的替代方法(查看上图,我们可以推断出大多数“超计数”来自不太圆的核)。我还想知道为分水岭变换施加最小值的更好方法。

1
功率谱密度与能量谱密度
我在Wikipedia上阅读了以下内容: 功率谱密度: 能量谱密度的以上定义最适合于 瞬变,即类似脉冲的信号,对此存在信号的傅里叶变换。对于描述例如固定物理过程的连续信号,定义功率谱密度(PSD)更有意义,该功率谱密度描述了信号或时间序列的功率如何分布在不同的频率上,如简单示例所示先前给出。 我不太理解该段。第一部分说“ 对于某些信号,不存在傅里叶变换 ”。 对于哪些信号(在我们正在讨论的上下文中)不存在傅里叶变换,因此我们需要诉诸PSD而不是使用能谱密度? 当获得功率谱密度时,为什么我们不能直接计算它呢?为什么我们需要估计呢? 最后,在这个主题上,我了解了在逐步计算PSD时使用Kayser-windows的方法。这些窗口在PSD估计中的目的是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.