信号处理

为信号,图像和视频处理领域的艺术和科学从业者提供的问答

2
为什么有这么多计算PSD的方法?
韦尔奇的方法一直是我计算平均采样时间序列功率谱密度(PSD)的首选算法。我注意到还有许多其他计算PSD的方法。例如,在Matlab中,我看到: 使用Burg方法的PSD 使用协方差方法的PSD PSD使用周期图 PSD使用修正的协方差方法 使用多锥度方法(MTM)的PSD 使用Welch方法的PSD 使用Yule-Walker AR方法的PSD 使用短时傅立叶变换的频谱图 光谱估计 这些各种方法的优点是什么?作为一个实际问题,我什么时候要使用Welch的方法以外的方法?

10
深度学习会杀死图像处理/计算机视觉吗?
我期待注册信号和图像处理的硕士学位,或者计算机视觉(我尚未决定),这个问题浮出水面。 我担心的是,由于深度学习不需要特征提取并且几乎不需要输入预处理,是否会破坏图像处理(或一般来说是信号处理)? 我不是深度学习专家,但是它在直接拍摄图像而不是像其他技术一样使用特征向量的识别和分类任务中似乎效果很好。 是否存在使用图像处理技术的传统特征提取+分类方法会更好的情况,还是因为深度学习而垂死?

4
OpenCV的类似库,用于音频处理/分析
我了解OpenCV是用于在C / C ++中对图像处理进行编程的事实上的库;我想知道是否有C或C ++库用于音频处理。我基本上想过滤来自麦克风的原始波,并使用一些机器学习算法对其进行分析。但我最终可能还需要: 多平台音频捕获和音频播放 DSP-音频滤波器 音调检测 音调特性分析 音调合成 识别给出一些识别语料和模型 语音/音乐合成 任何意见,将不胜感激。


10
混合音频信号而不削波的算法
我想以忠实于声音的方式(最好是近实时)(意味很少或根本没有预见)以数字方式混合两个或多个PCM音频通道(例如,记录的样本)。 物理上“正确”的方法是对样本求和。但是,当您添加两个任意样本时,结果值可能高达最大值的两倍。 例如,如果您的样本是16位值,则结果最多为65536 * 2。这导致剪裁。 幼稚的解决方案是除以N,其中N是要混合的声道数。然而,这导致每个样本的响度仅为1 / Nth,这是完全不现实的。在现实世界中,当两个乐器同时演奏时,每个乐器的音量不会变成一半。 从阅读的角度来看,一种常见的混合方法是:结果= A + B-AB,其中A和B是要混合的两个归一化样本,而AB是确保更大声的声音越来越“柔和”的术语。 但是,这会导致信号失真。这种失真水平在高质量音频合成中可以接受吗? 还有什么其他方法可以解决此问题?我对高效的低质量算法以及低效率的高质量算法感兴趣。 我是在数字音乐合成的背景下问我的问题,目的是将多个乐器音轨混合在一起。音轨可以是合成音频,预先录制的样本或实时麦克风输入。


6
分割树叶中的静脉的最佳方法?
我已经做了许多研究,并发现了诸如自适应阈值法,分水岭等方法,可以用于检测叶片的脉络。但是阈值化不好,因为它会引入很多噪声 我所有的图像都是灰色图像,在迫切需要帮助的同时考虑到这个问题时,任何人都可以建议采取什么方法 编辑:我的原始图片 阈值化之后 如答案所示,我已经尝试了以下边缘检测 坎尼 太多的噪音和不必要的干扰 索贝尔 罗伯茨 编辑:尝试了一次以上的操作,我得到的结果比我尝试过的精巧和适应性更好的以下结果您感觉如何?

3
什么是稀疏傅里叶变换?
最近,麻省理工学院一直在谈论一种新算法,该算法被吹捧为可对特定信号进行处理的更快的傅立叶变换,例如:“ 更快的傅立叶变换被命名为世界上最重要的新兴技术之一 ”。麻省理工学院技术评论杂志说: 使用称为稀疏傅里叶变换(SFT)的新算法,数据流的处理速度比FFT快10到100倍。之所以会出现加速,是因为我们最关心的信息具有很多结构:音乐不是随机噪声。这些有意义的信号通常只占信号可能取值的一小部分。技术术语是信息是“稀疏的”。由于SFT算法并非旨在与所有可能的数据流一起使用,因此它可以采用某些快捷方式,而这些快捷方式在其他情况下是不可用的。从理论上讲,只能处理稀疏信号的算法比FFT的局限性要大得多。但是,发明家卡塔比(Katabi)指出,“稀疏无处不在”,电子工程和计算机科学教授。“这是自然;它是 s在视频信号中;在音频信号中。” 有人可以在这里提供有关该算法的真正含义以及它的适用范围的更多技术说明吗? 编辑:一些链接: 论文:Haitham Hassanieh,Piotr Indyk,Dina Katabi,Eric Price撰写的“ 近乎最佳的稀疏傅立叶变换 ”(arXiv)。 项目网站 -包括示例实施。

10
最小的JPG可压缩模式是什么?(相机拍摄的一块布,比例/角度/照明可能会有所不同)
从相机的角度来看,我正在尝试设计一块很难用JPG压缩的布,从而导致文件大(如果文件大小固定,则会导致图像质量下降)。 即使抹布远离相机或旋转了,它也必须能够工作(假设比例尺可以从1倍到10倍不等)。 噪点相当好(很难压缩),但是从远处看时会变成灰色,易于压缩。一个好的图案将是分形的,在所有尺度上看起来都是相似的。 叶子比较好(叶子,细小的树枝,小树枝,大树枝),但使用的颜色太少。 这是第一次尝试: 我相信还有更多最佳模式。 也许六角形或三角形的镶嵌效果会更好。 JPG使用Y'Cb Cr颜色空间,我认为可以类似的方式生成Cb Cr,但是我想最好不要统一使用Y'(亮度)的整个范围,因为相机会饱和明亮或黑暗的区域(照明永远都不完美)。 问题:解决此问题的最佳布样是什么?

5
点模式识别
问题有两个不同大小的点集(为简单起见为2D)散布在两个不同大小的正方形中,问题是: 1- 如何找到小到大的任何一个? 2-关于如何对出现的事件进行排名的想法,如下图所示? 这是问题的简单演示和所需的解决方案: 更新1: 下图显示了所研究问题的更实际的视图。 关于注释,以下属性适用: 点的确切位置可用 点的确切大小可用 大小可以为零(〜1)=仅一个点 所有点在白色背景上都是黑色的 没有灰度/抗锯齿效果 这是我通过endolith一些小的更改实现的方法的实现(我旋转了目标而不是源,因为它更小且旋转更快)。我接受了'endolith'的回答,因为我之前在考虑这个问题。关于RANSAC到目前为止,我还没有经验。此外,RANSAC的实现需要大量代码。


6
检测音频包络开始和停止位置的最简单方法
以下是代表某人讲话记录的信号。我想基于此创建一系列较小的音频信号。想法是检测“重要”声音的开始和结束时间,并将其用作标记,以制作新的音频片段。换句话说,我想将静音用作指示音频“块”何时开始或停止的指标,并以此为基础创建新的音频缓冲区。 例如,如果某人记录自己说 Hi [some silence] My name is Bob [some silence] How are you? 那么我想从中制作三个音频片段。一个说Hi,一个说My name is Bob,一个说How are you?。 我最初的想法是通过音频缓冲区不断检查是否存在低振幅区域。也许我可以通过获取前十个样本来进行此操作,取平均值,如果结果很低,则将其标记为无声。我将通过检查接下来的十个样本来继续处理缓冲区。通过这种方式递增,我可以检测到信封的开始和停止位置。 如果有人对好的,简单的方法有任何建议,那就太好了。就我的目的而言,解决方案可能是非常基本的。 我不是DSP的专业人士,但了解一些基本概念。另外,我将以编程方式进行此操作,因此最好讨论算法和数字样本。 感谢您的所有帮助! 编辑1 到目前为止反应良好!只是想澄清一下,这不是实时音频,我将自己用C或Objective-C编写算法,因此使用库的任何解决方案都不是真正的选择。

5
相位延迟和群延迟之间有什么区别?
我正在研究一些DSP,但无法理解相位延迟和群延迟之间的差异。 在我看来,它们都测量通过滤波器的正弦波的延迟时间。 我认为正确吗? 如果是这样,那么这两个测量值有何不同? 有人可以举一个例子,说明一种度量比另一种更有用吗? 更新 在朱利叶斯·史密斯(Julius Smith)的《数字滤波器简介》的前瞻中,我发现两种测量至少给出不同结果的情况:仿射相滤波器。我想这只是我的问题的部分答案。

6
遍历和固定式有什么区别?
我很难区分这两个概念。到目前为止,这是我的理解。 平稳过程是一种随机过程,其统计属性不会随时间变化。对于严格意义上的平稳过程,这意味着其联合概率分布是恒定的。对于广义的平稳过程,这意味着其第一和第二力矩是恒定的。 遍历过程是可以从足够长的样本中推导出其统计属性(如方差)的过程。例如,如果平均时间足够长,则样本均值会收敛到信号的真实均值。 现在,在我看来,信号必须是固定的,才能遍历。 什么样的信号可能是固定的,但不是遍历的? 例如,如果一个信号在所有时间内都具有相同的方差,那么时间平均方差如何不收敛到真实值? 那么,这两个概念的真正区别是什么? 您能举一个平稳的过程而不是遍历的过程,还是遍历的过程而不是静止的示例?
41 random  ergodic 

1
如何弄平食品罐上标签的图像?
我想在一罐食品上拍摄标签的图片,并能够对其进行变换,以使标签平坦,左右两侧的大小均调整为与图像中心对齐。 理想情况下,我想利用标签和背景之间的对比度来找到边缘并进行校正。否则,我可以要求用户以某种方式识别图像的角落和侧面。 我正在寻找一般技术和算法来拍摄球形偏斜(在我的情况下为圆柱形)并且可以使图像变平的图像。当前,包裹在广口瓶或瓶子上的标签图像将具有一些特征和文本,这些特征和文本在向图像的右侧或左侧后退时会缩小。同样,表示标签边缘的线将仅在图像中心平行,并且将在标签的左右两端彼此偏斜。 处理完图像后,我希望留下一个几乎完美的矩形,在该矩形上,文本和特征的大小均要统一,就像我在不在罐子或瓶子上的时候给标签拍照一样。 另外,如果该技术可以自动检测标签的边缘以应用适当的校正,我也很希望。否则,我将不得不要求我的用户指出标签边界。 我已经用Google搜索并找到了类似这样的文章: 弄平弯曲的文档,但是我正在寻找更简单的东西,因为我需要的是带有简单曲线的标签。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.