信号处理

为信号,图像和视频处理领域的艺术和科学从业者提供的问答

2
协方差与自相关
我试图弄清楚这些概念之间是否存在直接关系。从定义严格来说,它们通常看起来是不同的概念。但是,我想得越多,他们就越相似。 令为WSS随机向量。协方差由,其中代表矢量的埃尔米特式。X,YX,ÿX,YCXÿCXÿC_{XY}CXÿ= E[(X- μX)(是- μÿ)H]CXÿ=Ë[(X-μX)(ÿ-μÿ)H]C_{XY}=E\left[(X-\mu_x)(Y-\mu_y)^H\right]HHH 令为WSS随机向量。自相关函数由žžZ[RXX[RXXR_{XX}[Ržž(τ)= E[ (Z(Ñ )- μž)(Z(n + τ)- μž)H][Ržž(τ)=Ë[(ž(ñ)-μž)(ž(ñ+τ)-μž)H]R_{ZZ}(\tau)=E\left[\left(Z(n)-\mu_z\right)\left(Z(n+\tau)-\mu_z\right)^H\right] 编辑说明此定义已应用于信号处理的更正,请参见下面的Matt's Answer。 协方差不涉及时间概念,它假设随机向量的每个元素都是某个随机生成器的不同实现。自相关假设随机向量是某个初始随机发生器的时间演化。但最后,它们都是相同的数学实体,是一个数字序列。如果让出现,那么它似乎是我还有更微妙的东西吗?X= Y= ZX=ÿ=žX=Y=ZCXÿ= RžžCXÿ=[RžžC_{XY}=R_{ZZ}

3
离散傅立叶变换:DC术语实际上是什么?
我目前正在玩Matlab中的离散傅立叶变换(DFT),以从图像中提取特征。我想完全理解我使用的概念。我已经阅读了几种解释,例如this,但是到目前为止,还没有真正解释“ DC术语”的含义。我所知道的是DFT的第一个术语可以写成: 这里 是旋转因子。 这意味着第一项(DC项)是一个没有频率的振幅。 有人可以解释为什么将其称为DC术语吗?它与“直流电”有什么关系?DC术语的相关性是什么?什么时候有用,又有什么用?
13 image  matlab  fft  dft 

6
信号处理与控制系统工程之间的关系?
控制系统工程和数字信号处理都是电气工程的重要课程/主题,但是这两个主题/课程如何相互关联? 还请告诉我,关于控制系统工程的一些推荐资源(书籍,教程,讲座等)是什么,以及如何在技术水平上开始使用它? 因为我们在下面的链接中有答案,但是该答案是关于dsp资源的,所以我正在寻找有关控制系统工程实例的资源 请求参考

3
与复杂的绘画相比,简单的照片是否包含更多信息?
我希望这个问题适合该网站。 我在刘次新的小说《三体问题》中遇到了这段话: 教授拍了两幅画:一幅是清明节期间著名的宋代画作《河边》,细节丰富,细节丰富;另一幅是晴天的天空照片,深蓝色的广阔区域仅被一团云层打破了...照片的信息内容(其熵)超出了绘画的一两个数量级 代表图片: 这是真的?如何解释这一违反直觉的现象?

1
哪个转换最能模仿人类的听觉系统?
的傅里叶变换通常用于声音的频率分析。但是,在分析人类对声音的感知时,它具有一些缺点。例如,其频率仓是线性的,而人耳对数的响应是对数的,而不是线性的。 与傅立叶变换不同,小波变换可以修改不同频率范围的分辨率。的小波变换的属性允许大颞载体对于较低频率,同时保持短的时间宽度为更高的频率。 该Morlet小波是密切相关的听证会的人类感知。它可以应用于音乐转录并产生非常精确的结果,这是使用傅立叶变换技术无法实现的。它能够捕获每个重复音符和交替音符的短脉冲,每个音符都有清晰的开始和结束时间。 所述恒定-Q变换(密切相关的Morlet小波变换)也非常适合于音乐数据。由于变换的输出实际上是幅度/相位相对于对数频率的信号,因此需要较少的频谱仓即可有效地覆盖给定范围,这在频率跨度为几个八度音阶时证明是有用的。 该变换表现出具有较高频率箱的频率分辨率降低,这对于听觉应用是理想的。它反映了人类的听觉系统,从而在较低频率下频谱分辨率更好,而在较高频率下时间分辨率提高。 我的问题是:还有其他模仿人类听觉系统的转换吗?有没有人试图设计一种在解剖学/神经学上尽可能匹配人类听觉系统的变换? 例如,已知人耳对声音强度具有对数响应。还已知等响度轮廓不仅随强度变化,而且随频谱分量的频率间隔变化。即使总声压保持恒定,在许多关键频带中包含频谱成分的声音也会被感知到更大声。 最后,人耳具有与频率有关的有限时间分辨率。也许也可以考虑到这一点。

3
在两台计算机之间(非常近的距离)通过声音传输数据
我正在写一个示例,说明如何通过两台计算机之间的声音传输数据。一些要求: 距离非常近,即两台计算机基本上彼此相邻 噪音很小(我不认为我的老师会打开摇滚歌曲作为噪音源) 错误是可以接受的:例如,如果我发送“无线电通信”,那么如果另一台计算机收到“ RadiQ通信”,也可以。 如果可能的话:没有头,标志,校验和...。因为我只想要一个非常基本的示例,演示通过声音传输数据的基础。无需幻想。 我尝试根据此链接使用音频频移键控: 实验5 APRS(自动包裹报告系统) 并得到了一些结果: 我的Github页面 但这还不够。我不知道如何进行时钟恢复,同步...(链接具有锁相环作为定时恢复机制,但显然还不够)。 因此,我认为我应该找到一种更简单的方法。在这里找到一个链接: 数据转为音频并返回。带有源代码的调制/解调 但是OP没有实现答案中建议的方法,因此恐怕它可能非常复杂。我也不清楚答案中建议的解码方法: 解码器稍微复杂一点,但这是一个概述: 可选地,对11Khz附近的采样信号进行带通滤波。这样可以在嘈杂的环境中提高性能。FIR过滤器非常简单,有一些在线设计小程序可以为您生成过滤器。 门限信号。大于1/2最大幅度的每个值都是1,小于1/2最大幅度的每个值都是0。这假设您已经采样了整个信号。如果这是实时的,则可以选择固定的阈值或执行某种自动增益控制,以在一段时间内跟踪最大信号电平。 扫描点或破折号的开始。您可能希望在点周期内看到至少一定数量的1,以将样本视为点。然后继续扫描以查看是否是破折号。不要指望完美的信号-您会在1的中间看到几个0,在0的中间看到几个1。如果噪声很小,则将“接通”周期与“断开”周期区分开应该很容易。 然后逆转以上过程。如果看到破折号,则将1推至缓冲区,如果将破折号,则推至零。 在将其归类为点之前,我不知道有多少个1,...所以我现在不了解很多事情。请向我建议一种通过声音传输数据的简单方法,以便我能理解该过程。非常感谢你 :) 更新: 我做了一些看起来(一定)可操作的Matlab代码。我首先使用幅度移位键控(采样频率48000 Hz,F_on = 5000 Hz,比特率= 10 bits / s)调制信号,然后将其与标头和结束序列相加(当然也对它们进行调制)。标头和结束序列是临时选择的(是的,这是hack): header = [0 0 1 0 1 1 1 1 1 0 0 0 0 0 0 1 …
12 audio  modulation  sound  fsk 

4
本书推荐-用C语言编写DSP代码
我正在寻找一本不错的书,该书简单地展示了您如何实际使用C语言编写代码,以完成所有主要的DSP方法。 FFT。 低通和高通滤波器。 自相关。 噪音处理。 以及DSP的所有基础知识,从理论到真正的C语言代码。 例如,我有1000个样本,现在我想对其进行FFT,去除噪声,然后返回时间轴。 有什么好东西可以涵盖所有这些吗?

2
为什么同一场景的某些JPEG文件比其他大?
我正在使用Foscam FI8910W ip摄像机在恒定照明条件下查看静态场景。当我拉回抓帧时,大小约为35 KB。我可以一遍又一遍地执行此操作,它始终约为35 KB,但由于电子图像捕获固有的各种噪声而有所波动。这种随机波动最多仅约为1 KB。 大约每2500帧,一帧的图像大小突然达到70 KB的数量级。如果您想在相机预热时产生热噪声,则不会逐渐向上爬。1帧将是70 KB(ish),然后返回到35 KB大小的帧。 之前,另一场比赛是在另一个场景中进行。普通文件大小为39 KB,然后在10,000帧中,有4个大小约为77 KB。图像大小直方图如下所示: 在您提出问题之前,我已经设法保存了其中一个框架,看起来与其他所有框架完全一样,没有出现预期的噪声波动。它们具有大约23,000左右相同数量的独特颜色。因此,这不是一只飞蛾正好随机落在镜头上一帧然后飞走了。为了完整起见,我已经进行了另一轮图像处理,这是典型图像示例(反射是IR照明器):- 这是异常图像: 您可以看到没有区别。对不起,河马。我对JPEG算法非常熟悉,除了Foscam的实现出现编码错误外,我看不到这是怎么发生的。但是,在某些JPEG转换函数(例如离散余弦转换或量化)中是否会固有地存在一些混乱?从统计上讲,人们期望文件大小呈正态分布,这就是我看到的大约39 KB。然后是77 KB的几个异常值。因此,它似乎不是随机的。 这是在CS中而不在硬件中的原因,我是在问这是否是与JPEG编码算法有关的编程代码现象?似乎不太可能,但是异常是随机且不常见的,并且没有人与设备的交互。JPEG编码稳定吗? 您可能不熟悉此现象的原因是,由于图像看起来相同,因此没有人真正看过文件大小。文件大小对我来说至关重要,因此我注意到了。大约每2500帧如何发生一次? 补充:- 发布这些图像将无法正常工作,因为imgur软件会重新采样上传的文件。因此,虽然我发布了37K和73K文件,但imgur已将其重新采样到35K。这似乎是一个Stack Exchange问​​题,对于处理图像处理,数据压缩和分析的站点似乎具有讽刺意味。 这是我对图像的处理。这是正常图像和异常之间的归一化差异。图像符合您的期望,在高频区域有JPEG噪点。即使它看起来是单色的,这也是RGB图像。颜色立方体中有8000种独特颜色(代表噪点)。 补充2:- 根据要求,可以从样本帧中下载4个正常帧和2个异常帧。这是一个不同的场景,但是异常行为仍然发生,因此证明了它是一致的。
12 jpeg 

3
图像处理编码
我想知道哪种图像处理是最好的语言?我知道MATLAB有一个很好的库和用户社区。我还没有检查出来,那里也有python。 最有效的语言是什么?

1
FPGA上定点atan2的计算方法
我需要atan2(x,y)在具有连续输入/输出数据流的FPGA上进行计算。我设法使用展开的,流水线的CORDIC内核来实现它,但是要获得所需的精度,我必须执行32次迭代。这导致大量的LUT致力于这一任务。我尝试将流更改为使用部分展开的CORDIC内核,但随后我需要一个倍频的时钟频率以执行重复循环,同时仍保持连续的输入/输出流。因此,我无法满足时机要求。 因此,现在我正在寻求替代的计算方式atan2(x,y)。 我考虑过使用带插值的Block-RAM查找表,但是由于有2个变量,因此我需要2维查找表,这在Block-RAM的使用方面非常耗费资源。 然后,我考虑使用与象限调整atan2(x,y)有关的事实atan(x/y)。问题在于,x/y由于y不是常数,因此需要真正的划分,而FPGA上的划分非常占用资源。 是否有更多新颖的方法可atan2(x,y)在FPGA 上实现,从而降低LUT使用率,但仍提供良好的准确性?
12 algorithms 


3
STFT和DWT(小波)
STFT可以成功用于声音数据(例如带有.wav声音文件),以便进行某些频域修改(例如:噪声消除)。 在N=441000(即以采样率10秒fs=44100),,的情况下windowsize=4096,overlap=4STFT近似生成一个430x4096数组(第一坐标:时间帧,第二坐标:频率箱)。可以在此数组上进行修改,并可以使用重叠加法(*)进行重构。 小波怎么可能做类似的事情?(DWT),即得到a x b具有a时间帧和b频率段的相似形状数组,对此数组进行一些修改,最后恢复信号?怎么样 ?小波等于重叠叠加是什么?这里涉及的Python函数是什么(我还没有找到使用pyWavelets... 进行音频修改的简单示例)? (*):这是可以使用的STFT框架: signal = stft.Stft(x, 4096, 4) # x is the input modified_signal = np.zeros(signal.shape, dtype=np.complex) for i in xrange(signal.shape[0]): # Process each STFT frame modified_signal[i, :] = signal[i, :] * ..... # here do something in order to # modify the signal in …
12 fft  wavelet  dft  python  stft 


2
什么时候应该计算PSD而不是普通FFT幅度谱?
我有一个30秒的语音信号,它以44.1 kHz的频率采样。现在,我想展示一下语音的频率。但是,我不确定这样做的最佳方法是什么。似乎有时会计算傅立叶变换的绝对值,有时会计算功率谱密度。如果我理解正确,后者的工作原理就是将信号分成几部分,逐份进行FFT,然后以某种方式将它们相加。窗口函数以某种方式涉及。您能为我澄清一下吗?我是DSP的新手。

7
如果信号的频率位于两个bin中心之间,则获得其峰值
请假设以下内容: 信号基频的频率已使用FFT和某些频率估计方法进行了估计,位于两个bin中心之间 采样频率是固定的 计算工作不是问题 知道了频率,估计信号基波相应峰值的最准确方法是什么? 一种方法可能是对时间信号进行零填充以提高FFT分辨率,从而使bin中心更接近估计的频率。在这种情况下,我不确定的一点是我是否可以根据需要进行零填充,或者这样做是否有缺点。另一个是在零填充后我应该选择哪个bin中心作为我从中获取峰值的那个(因为即使在零填充之后,也可能不会精确地达到目标频率)。 但是,我也想知道是否存在另一种方法可以提供更好的结果,例如一种估计器,该估计器使用周围两个bin中心的峰值来估计感兴趣频率处的峰值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.