信号处理

为信号,图像和视频处理领域的艺术和科学从业者提供的问答

2
什么时候笑轨道踢?
我的一个周末项目使我进入了信号处理的深水领域。与我所有需要一些重型数学的代码项目一样,尽管缺乏理论基础,但我很乐于尝试解决方案,但是在这种情况下,我没有任何建议,并且希望就我的问题提供一些建议,即:我正试图弄清楚电视观众在现场观众何时笑。 我花了很多时间阅读用于检测笑声的机器学习方法,但意识到这与检测单个笑声有关。一次有200个笑声的人会有不同的声音特性,我的直觉是,应该通过比神经网络更粗略的技术来区分他们。不过,我可能完全错了!希望能对此事有想法。 到目前为止,这是我一直在尝试的方法:我将最近一集的《星期六夜现场》(Saturday Night Live)中的一小段节录切成两秒的片段。然后,我将这些标记为“笑”或“不笑”。然后,我使用Librosa的MFCC特征提取器对数据运行了K-Means聚类,并获得了良好的结果-两个聚类非常整齐地映射到我的标签上。但是,当我尝试遍历较长的文件时,预测并没有成立。 我现在要尝试的是:创建这些笑声片段时,我将更加精确。我将不进行盲目拆分和排序,而是手动提取它们,以便没有对话会污染信号。然后,我将它们分成四分之一秒剪辑,计算其中的MFCC,然后使用它们来训练SVM。 我现在的问题是: 这有道理吗? 统计资料对您有帮助吗?我一直在Audacity的频谱图查看模式中滚动浏览,我可以很清楚地看到发生笑声的地方。在对数功率谱图中,语音具有非常独特的“皱纹”外观。相反,笑声则相当均匀地覆盖了很广的频率范围,几乎就像是正态分布一样。甚至可以通过掌声所代表的频率范围更有限的方式在视觉上将掌声与笑声区分开。这让我想到了标准偏差。我看到有一个叫做Kolmogorov–Smirnov的测试,在这里可能有用吗? (您可以在上图中看到笑声,因为橙色的墙壁撞到了其中的45%。) 线性声谱图似乎表明笑声在较低频率下更具活力,并在较高频率下逐渐消失-这是否意味着它相当于粉红噪声?如果是这样,那可以成为这个问题的立足点吗? 如果我误用了任何行话,我深表歉意。我已经在Wikipedia上花了很多时间,如果碰到一些混乱也不会感到惊讶。

3
如何绘制频率与小波变换幅度的关系?
我正在运行Morlet连续小波变换。我有wscalogram信号,现在我想要绘制频率幅值,如下图所示。但是我不知道该怎么做: 我已经使用scal2freqMATLAB函数将标度转换为伪频率。另外,我的信号中的某些频率具有较大的阻尼比(4%),因此它们在图中不太清晰可见。如何夸大这些高阻尼模式? 我正在使用MATLAB,这是我的代码: % Import the text4.txt to matlab workspace. and save it under name "data" t=linspace(0,30,301); Fs=ceil(inv(t(2)-t(1))); x=data(:,4); % use x=data(:,3),x=data(:,5) too. first column is time,second is refrence wname = 'morl'; scales = 1:1:256; coefs = cwt(x,scales,wname,'lvlabs'); freq = scal2frq(scales,wname,1/Fs); surf(t,freq,abs(coefs));shading('interp'); axis tight; xlabel('Seconds'); ylabel('Pseudo-Frequency (Hz)'); axis([0 30 0 …

2
高通信号等于信号减去低通信号吗?
我的问题是,如果要高通信号,是否与低通信号并将其从信号中减去相同?理论上是一样的吗?几乎一样吗? 我已经搜索了(都在google和dsp.stackexchange上),但发现有冲突的答案。我一直在玩信号,这是结果。我对此不太了解。这是具有每四秒钟一次采样频率的信号。我设计了一个从0.8 mHz到1 mHz的过渡带的数字低通滤波器,并对信号进行了滤波。然后,我还设计了一个具有相同过渡带的高通滤波器,并对信号进行了滤波。这是结果。 第一张图片以黑色显示原始信号,以蓝色显示低通信号。它们几乎彼此叠在一起,但并不完全相同。红色曲线是信号减去高通信号,该信号就在信号顶部。 这第二张图片只是放大以显示正在发生的事情的第一张图片。在这里,我们可以清楚地看到两者并不相同。我的问题是为什么?是关于我如何实现两个过滤器的事情,还是与我的实现无关的理论上的事情?我对滤波器的设计并不了解很多,但是我确实知道这是违反直觉的。这是重现所有这些的完整MATLAB代码。我正在使用filtfilt命令消除相位延迟。但是,在此需要指出的另一点是,过滤器未进行标准化。当我做sum(Hd.Numerator)时,低通得到0.9930,高通得到0.007。我看不出如何解决这个问题。是否应该以某种方式缩放输出,因为系数不等于1?这种缩放可能与此有关吗? close all clear all clc data = dlmread('data.txt'); Fs = 0.25; % Sampling Frequency N = 2674; % Order Fpass = 0.8/1000; % Passband Frequency Fstop = 1/1000; % Stopband Frequency Wpass = 1; % Passband Weight Wstop = 1; % Stopband Weight dens …

5
正弦波的FFT不符合预期,即单点
青色曲线是50 Hz的频谱,洋红色曲线是50.1 Hz的正弦波(振幅为0.7)。两者均以1024个样本/秒的速度采样。我执行了1024点FFT以获得此频谱。 为什么只有50Hz频谱是单个值?为什么50.1 Hz正弦由50.1 Hz以外的其他频率组成;这些新频率从何而来? 我没有对50.1 Hz信号进行任何非线性处理!同样,50.1 Hz似乎具有较小的最大振幅,即不是0.7,而实际上我生成的正弦波的振幅为0.7。 为什么是这样? 通过MATALB命令fft()获得;
14 fft 

1
自动裁剪任意形状
我有一个由二进制掩码定义的任意形状(灰色=形状,黑色=背景)。 我想找到一个仅包含灰色像素的最大可能矩形(此类矩形以黄色显示): 形状始终是“一件”,但不一定是凸形(并非形状边界上的所有点对都可以通过穿过形状的直线连接)。 有时存在许多这样的“最大矩形”,然后可以引入进一步的约束,例如: 取矩形的中心距形状的质心(或图像中心)最近的矩形 拍摄长宽比最接近预定义比例(即4:3)的矩形 我对算法的第一个想法是: 计算形状的距离变换并找到其质心 在仅包含形状像素的情况下增加正方形区域 在仅包含形状像素的情况下,使矩形(原为正方形)的宽度或高度增大。 但是,我认为这样的算法会很慢并且不会导致最佳解决方案。 有什么建议么?

2
如何计算照亮图像的光源的色温?
如何计算照亮给定图像的光源的(等效于黑体)色温?下面是Adobe Lightroom操纵色温和RGB直方图偏移的屏幕截图。给定图像的RGB分量,如何计算它?我应该期望一个值-照明源的黑体等效温度,对吗?


3
确定噪声的“白度”
如何量化某些噪声的“白”程度?是否有任何统计量度或其他量度(例如FFT)可以量化特定样本与白噪声的接近程度?
14 noise 

2
如何计算噪声信号的SNR?
我在理解如何实际操作时遇到问题 我有一个包含纯语音的wav文件,另一个仅包含背景噪声的ave文件(可以是各种噪声,例如白噪声,人群噪声,吹来的风声等)。这些要么纯粹是言语,要么纯粹是噪音。因此,我想我可以通过两个文件中相应样本的简单划分(或样本帧的平均值)从它们获得SNR值。然后,我大胆地将它们组合起来以获得嘈杂的语音文件。我猜该文件将仍然具有相同的SNR。 现在,我将此文件通过降噪程序,并得到另一个文件。如何计算此“降噪”文件的SNR? -编辑- 后续问题在这里发布
14 matlab  snr 

5
如何检测边缘和矩形
我尝试检测图像中的矩形。图像的背景是一种颜色(大部分时间)。我尝试了两种方法来获取二进制图像(1 =背景,0 =边缘),稍后再进行霍夫变换... Sobel或Canny筛选器 平滑图像A,创建差异图像A-高斯,创建具有阈值的二进制图像(创建直方图,最高bin应为背景...) 结果是带有边缘的二进制图像。我现在真的不知道哪种方法更适合各种不同的图像。有任何想法吗?

4
实时以接近人类的准确性提取音频信号频率分量的最有效方法
我正在尝试找出如何(如果可能)以类似FFT的方式提取任意音频样本(通常是音乐)的频率分量,但是在我对FFT算法的研究中,我了解到它遭受了一些困扰为此目的有严格的限制。 FFT存在3个问题: 因为FFT二进制分辨率等于您的窗口大小,所以要获得相当合理的精度(例如1 Hz),您需要一个不合理的长窗口(例如1秒)。这意味着您无法快速检测到瞬态或新引入的频率。这也意味着使用更快的CPU和更高的采样率无法解决问题-限制本质上与时间有关。 人们对数地感知频率,但是FFT仓是线性间隔的。例如,在我们听力的低端,相差20hz 很大,而在高端处,相差20hz是不可察觉的。因此,要获得低频所需的精度,我们必须计算的远远超过高频所需的精度。 这些问题中的一些可以通过在FFT区间之间进行插值来解决。这可能适用于许多音乐音频,因为频率通常会相隔很远,因此不会有超过1个频率泄漏到一对音槽中。但这并非总是如此,特别是对于打击乐器之类的非谐音。因此,插值实际上只是猜测。 根据我对DFT / FFT算法的了解,输出(仓幅度)实际上是每个仓频率下正弦/余弦的相关性。令我吃惊的是,如果可以重新设计算法,使bin频率非线性地间隔(即,我们将一组不同的正弦/余弦相关联),那么我们就可以在所有频率上达到听觉相等的分辨率。这是可能的,还是基于我对所涉及数学的不完全理解而做的梦pipe以求? 我想我也可以通过在每个感兴趣的频率上关联正弦/余弦来用蛮力解决问题。这可能吗?什么样的效率?能解决我的问题吗? 是否有其他方法可以实现信号的更准确,实时的频率分解?CPU效率是一个关注点,但不是主要关注点-我对在理论上是否可以做到这一点感兴趣。但是,在现代台式机上实时可行的方法是理想的。

3
如何在软件中解调AFSK信号
我正在尝试通过音频通道(扬声器/麦克风)将二进制数据从一台设备传输到另一台设备。我在分组无线电中使用AFSK(音频频移键控),具有和两个频率f m a r k = 1200 Hz和f s p a c e = 2200 Hz。我在Ruby中玩了一些,而我的第一个实现只是模仿了一个经典的非相干解调器,到目前为止,它仍然可以正常工作。1200 波特1200 鲍德1200 \text{ Baud}F中号一个ř ķ= 1200 赫兹F米一种[Rķ=1200 赫兹f_{mark} = 1200 \text{ Hz}Fš p 一个Ç ë= 2200 赫兹Fsp一种CË=2200 赫兹f_{space} = 2200 \text{ Hz} 问题是,我正在尝试将其移植到移动平台上,在该平台上性能是一个问题,而我目前的解决方案太慢了。我发现了许多方法可以在软件中解调AFSK: 滑动DFT(FFT) 滑动Görtzel过滤器 锁相环 过零 怎么走?可供选择的选项太多。我相信还有更多选择。也许有比我上面提到的解决方案更好的解决方案?有人甚至为我提供了代码示例吗?我担心 性能(应在移动平台(例如iOS或Android设备)上运行) 稳定(应该能够处理一些噪音) 任何建议和提示,不胜感激!
14 dft  demodulation  fsk 

1
使测量系统与系统响应解卷积
我正在执行系统识别测量,并希望将测量系统的响应与测量的响应反卷积。 系统的设置如下:信号在PC上生成,然后将信号发送到声卡,声卡再将信号转发到功率放大器,从而驱动扬声器。扬声器传播由麦克风捕获的声能,然后传播回声卡。记录的信号然后由计算机处理。 声卡的信号也直接反馈给自身,这使我能够测量pc-> DAC-> ADC-> pc响应的响应。 我想把这个“测量链”从整个“系统链”中解卷出来。我可以使用什么方法执行此任务?

2
查找图像中的对称区域/图案
我有一组图像代表人的后表面的平均曲率。 我要做的是“扫描”图像中在图像的其他部分具有相似,反射“对应”的点(最有可能与中线对称,但不一定存在畸变)。一些图像拼接技术使用此功能来“自动检测”图像之间的相似点,但是我想针对同一图像的两面进行检测。 最终目标是找到一条连续的,最可能是弯曲的纵向线,以适应性地将背部分成对称的“两半”。 示例图像放在下面。请注意,并非所有区域都是对称的(特别是在图像中心上方,红色的垂直“条”向右偏移)。该区域应获得较差的分数,或类似的分数,但随后将从更远的对称点定义局部对称性。无论如何,我都必须使任何算法适应我的应用程序领域,但是我所追求的是som相关/卷积/模式匹配策略,我认为必须已经有了一些东西。 (编辑:下面有更多图片,还有更多说明) 编辑:根据要求,我将包括更典型的图像,无论它们行为正常还是有问题。但是它们不是彩色图像,而是灰度图像,因此颜色直接与数据大小有关,而彩色图像却没有发生这种情况(仅用于通信)。尽管与彩色图像相比,灰色图像似乎缺乏对比度,但数据梯度仍然存在,并且可以根据需要提供一些自适应对比度。 1)一个非常对称的物体的图像: 2)同一主题在不同时刻的图像。尽管有更多的“功能”(更多的渐变),但它并不像以前那样“对称”: 3)较瘦的年轻受试者,在中线具有凸度(红色的凸起,用较浅的区域表示),而不是更常见的凹形中线: 4)X射线证实有脊椎偏斜的年轻人(注意不对称): 5)典型的“倾斜”主题(尽管在弯曲的中线周围大多是对称的,因此不能正确地“变形”): 任何帮助都非常欢迎!

2
计算机视觉与图像处理之间的(清晰)界限
我从事计算机视觉和图像处理已有几年的经验,我相信我不再是一个完整的初学者。 尽管如此,这些年来,对于我的作品中的任何特定部分,我还是很难分辨它是否主要与计算机视觉有关,还是与图像处理有关。我只是看不到界线-在工作,学习和研究时,我会同时阅读带有两个关键字的参考资料。 因此,我对计算机视觉和图像处理领域的定义很感兴趣,重点是这些领域的比较(差异和重叠)。 此外,我认为举一个(概念上或现有的)实际应用程序,项目和工作示例来处理/利用将是有价值的: 仅(或大部分)计算机视觉工具和想法 仅(或大部分)图像处理工具和想法 来自两个领域的工具和思想的结合 与支付给什么使得它特别关注一个而不是其他的,或者是什么使得这两个。 我了解这些字段之间的相关性很高,“线”可能不像该问题所要求的那么清晰,但我希望您了解该问题的重点不是设计一个简单的分类决策规则(我)工作,但可以更好地理解这些领域的重点和目标。同样,欢迎提供任何其他带有我的问题音调的附加信息,即使我没有明确要求也可以。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.