Questions tagged «algorithms»

算法是在定义明确的指令步骤的有限列表中表达的一种方法,用于处理信号。

4
关于工业机器视觉系统中软件与机械/光学之间的权衡取舍,有什么参考吗?
我用一个简化的例子来解释我的问题。 我可以设计一个工业视觉系统来自动检查具有以下主要要求的物品: 一件好作品的图像必须为黑色背景,并且该作品必须为灰色。 缺陷必须在灰色区域内显示为白色区域。 这些要求大大简化了系统的软件部分:为了将某项归类为缺陷,算法仅对白色像素进行计数。 但是,为了获得这种简单的算法,我必须非常擅长设计系统的照明/光学/机械部分,并且该部分的成本可能会高于软件。 也许以前我读过这样的句子:“在机制上尽可能多,而在软件上尽可能少”。在我看来,这是在1990年代(或1980年代)的一本关于实用机器视觉的书中,但我找不到适当的引用/参考。

2
隐马尔可夫模型是哪种机器学习算法?
我在信号处理课程中使用了隐马尔可夫模型算法进行自动语音识别。现在遍历机器学习文献,我看到算法被分类为“分类”,“聚类”或“回归”。HMM属于哪个存储桶?我没有遇到文献中列出的隐藏马尔可夫模型。
12 algorithms 

1
确定音频与人类语音的相似程度
在寻找这个问题的答案时,我发现这个董事会决定从Stack Overflow 交叉发布我的这个问题。 我正在寻找一种确定音频片段和人类语音之间相似性的方法,该相似性以数字表示。 我已经搜索了很多,但是到目前为止(以下详细介绍)我发现的内容并不完全符合我的需要: 一种方法是使用语音识别软件从音频片段中获取单词。但是,这种方法无法提出与人类语音“相似”的音频。它通常可以判断音频中是否有单词,但是如果没有确定的单词,就无法判断音频是否包含这些单词。示例:CMU狮身人面像,蜻蜓,SHoUT 更有希望的方法称为语音活动检测(VAD)。但是,这往往会有相同的问题:使用VAD的算法/程序倾向于仅返回是否已达到活动阈值,并且在该阈值之前或之后都没有“相似性”值。另外,许多人只是在寻找音量,而不是与人类语音相似。示例:Speex,Listener,FreeSWITCH 有任何想法吗?

2
在嘈杂的.wav文件中检测鼓bpm
我正在寻找解决以下问题的算法:给定嘈杂的.wav声音捕获(麦克风上有风和摩擦噪声),如何检测柔和鼓声的BPM? 我尝试过搜索该主题,但由于用于分析和生成指纹ID的大量mp3相关软件,结果非常差。他们都没有提供有关如何实际执行操作的信息。 我知道消除噪声的算法,但是仍然使我面临检测BPM的问题。而且,根据解决BPM问题的方式,可能甚至不需要去噪(由于鼓的频率往往较低,而噪声的频率较高,因此简单的低通可能就足够了)。

1
识别歌曲中的数学函数
我是DSP的新手,刚刚发现了这个StackExchange,因此,如果不是发布此问题的正确位置,请道歉。 是否有资源以更数学的术语描述类型?例如,如果我已经对歌曲这一部分的信号执行了FFT(如果链接没有从那里开始,则是2:09),那么我有什么办法可以检测到该部分的分类很粗糙的声音?这样的声音是否遵循我可以比较的一些数学函数? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s(链接立即开始播放声音) 是使用监督学习技术的唯一方法,还是有其他方法(最好不需要监督)? 感谢您的任何建议。


5
何时考虑音频的双精度(64位)浮点
在现代处理器上合成和处理音频时,何时会考虑使用单精度(32位)浮点以外的其他东西?显然,进出现实世界的音频是16/24位,所以我只是在谈论软件中信号的精度(包括音频本身和诸如滤波器系数之类的东西)。 假使,假设: CPU / DSP具有对单精度和双精度的硬件浮点支持 优先考虑的是高质量音频,而不是高性能。例如,如果双精度可提供更好的(感知)质量,则将考虑采用双精度。

2
高质量混响算法
我在该站点上做了一些搜索,但是令人惊讶的是,我没有找到太多相关信息,而且我对DSP的了解非常有限。 我的目标很简单:我想用C ++编写算法混响,听起来确实不错。或更准确地说,最好的选择是让最终用户选择质量和CPU使用率之间的权衡。 到目前为止,我发现要创建混响,必须将干燥信号输入早期反射算法,然后再输入后期反射算法。这个对吗 ? 现在,我使用了反馈延迟网络(使用时变反馈延迟网络减少了人工重塑需求),在后期反射部分找到了一篇广泛的文章。根据我的阅读,FDN是模拟后期反射的一种高质量但不太宽泛(CPU明智)的方式。此外,我想您可以通过更改延迟线的数量来控制质量/ cpu电荷的权衡。 但是,我绝对不知道如何对早期反射算法进行编程(还记得吗?我在DSP领域真的很无知)。 使用一种多重延迟在我看来是合乎逻辑的,它具有易于编程和计算便宜的优点。但这听起来太简单了,难以置信。 此外,我的直觉告诉我,信号路径中的某处必须包含一个或几个滤波器。 有人可以帮我澄清一下这个话题吗? 两个注意事项: 我根本不需要卷积混响。我并不是很在意混响的真实性,但是我想要一个听起来不错,可调整的混响,而不是渴望CPU的混响。 另外,编码部分并不是让我担心的,否则我会问stackoverflow。它实际上是DSP部分,也是我要关注的那部分:)
11 algorithms 

4
编程声码器
我想对自己的声码合成器(如“ Songify”)进行编程,但找不到简单的声码器算法。也许您可以解释或告诉在哪里可以找到有关声码器工作原理的信息。

3
音频分析中的自相关
我正在阅读Autocorrelation,但是我不确定我确切地了解它是如何工作的以及应该期待的输出。我认为我应该将信号输入到交流功能并具有滑动窗口输入是正确的吗?每个窗口(例如,1024个样本)将输出一个介于-1和1之间的系数。该符号仅说明该线是向上还是向下,而值则说明相关程度。为了简单起见,可以说我没有重叠,只是每次将窗口移动1024个样本。在44100的样本中,我会得到43个系数,是否需要保留所有系数? 可以说我以200秒的信号执行此操作,得到8600个系数。我将如何使用这些系数来检测重复,进而检测速度?我应该创建某种神经网络来对它们进行分组,还是那太过分了? 谢谢你的帮助。

3
如何测量曲线之间的一致性?
我有一段时间内的RSSI期望值的值(如下图所示),我想将其与测量的RSSI值进行比较。我一直在寻找一种量化它的方法,这样我可以更改参数并能够比较/对比不同的方法。 在我的脑海中,这是一个很难解决的问题,因为我不知道如何比较信号,却不考虑信号的大范围(整体形状)和小范围(个体波动)。 例如,这是一组信号的图: 在图像中,我可以看到红色测量信号大致遵循模型,但是它在模拟模型的某些正弦品质(在某些地方)方面也做得不错。有什么想法吗? <>为了响应小插图的评论(这似乎是合理的),我对两个值进行了比较,并绘制了abs(fft(diff))并得到: 我不知道该怎么做。由于我们没有实际的频率,因此我不确定如何缩放轴,如果确定,您将使用什么度量标准?

2
Photoshop“黑白”调整层背后的算法是什么?
有人可以解释一下photoshop中“黑白”调整层背后的算法吗? 对于必须强调图像中非红色/品红色像素(具有类似百分比的可配置公差)的应用程序,我必须使用C ++对其进行重现,并且该资源显示了我所期望的行为。 仍然无法复制它,但是我找到了一个线索: 每个像素最多由两个控件定义,一个为加法(RGB),一个为减法(CMY)。

1
应用A加权
我想计算给定信号的响度,并且遇到了这个问题。我对它的A加权方面有些困惑。我无法发布图片,但我认为该网站具有我需要的公式。(Wa = 10log ...) 我不了解的是如何在程序中实际使用它。如果f代表频率,那么大概我可以对值进行硬编码,因为它们将保持不变。在这种情况下,如何将其应用于Wa样本值以及使用哪些值?我是否要计算功率谱以获取WINDOW_SIZE/2值并将频带中的每个值与相关的预先计算的Wa值相乘,或者这样做是错误的方式?先感谢您。
11 algorithms  audio 

3
数字失真效果算法
我在第124-125页阅读了UdoZölzer撰写的DAFX书中有关失真影响的书,它说该函数可以对失真进行适当的模拟: F(x )= x| x |( 1 − eX2/ | x |)f(x)=x|x|(1−ex2/|x|)f(x)=\frac{x}{|x|}\left(1-e^{x^2/|x|}\right) 有人可以解释这个公式以及我们得到什么样的信号吗? 据我了解,“ x”是采样信号,所以这是一个数字序列。| x |是什么 意思?它是否为每个采样值引用x的绝对值? 因此,如果我想对失真效果进行模拟, 我需要知道x的长度(由样本数给定) 循环中,我需要为每个样本值计算此公式 循环结束后,我得到了失真的信号(数字形式) 之后,我需要将其转换为模拟信号,以便可以听到。

1
如何为水下声纳实现自适应阈值算法
我想在MATLAB中实现自适应阈值算法,以过滤水下声纳接收器接收到的数据。接收到的数据具有交互式噪声分量,该噪声分量是由水下噪声和镜面反射引起的。CFARD方法很接近,但是没有达到我的目的。我必须对数据成像,以便能够在屏幕上看到位于声纳扫描深度内水下的物体。任何帮助将不胜感激。 编辑: 这是一个水下环境。我试图对从声纳换能器接收到的信号在被与换能器位于同一环境中的固体目标反射后的阈值进行阈值处理。问题属于水下声成像声纳领域。问题是,我无法对水下环境噪声进行建模。从我读到目前为止关于这个话题,噪声模型遵循 -配送ķķK。而且,环境噪声本质上不是加性的,而是交互性的。因此,阈值必须是自适应的。我在问题中也提到了CFARD方法。这对雷达应用中的信号处理很有用,因为我们只是想在大面积的高能量处找到一个点。关于水下声成像声纳,我们无法做到相同,因为我们试图将目标作为视频显示在屏幕上。我希望我现在已经弄清楚了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.