Questions tagged «classification»

是一个根据研究对象或观察对象的共同特征对其进行分组的系统。分类问题是一种形式化的任务,其中一组对象(案例)以某种方式分离为类。

5
比例尺和旋转不变特征描述符
您是否可以列出一些比例和旋转不变特征描述符以用于特征检测。 该应用程序使用多分类器来检测无人机捕获的视频中的汽车和人。 到目前为止,我一直在研究SIFT和MSER(仿射不变)。我也看过LESH,LESH是基于局部能量模型的,但是其计算方式不是旋转不变的,我一直在尝试思考一种利用局部能量的方法来构建旋转不变的方法功能描述符,我在这里读到有哪些可以在商业应用中使用的SIFT / SURF的免费替代品?,即“如果您将方向分配给兴趣点并相应地旋转图像块,则可以免费获得旋转不变性”,但是不知道这是否可以缓解或我如何将其应用于我的问题,任何帮助都将是感谢,谢谢

4
特征提取以进行声音分类
我正在尝试从声音文件中提取特征,并将声音分类为属于特定类别(例如:狗吠,汽车引擎等)。我想在以下方面做一些澄清: 1)这完全可行吗?有些程序可以识别语音,并可以区分不同类型的狗吠。但是,是否有可能有一个程序可以接收声音样本并仅说明它是哪种声音?(假设有一个包含很多声音样本的数据库)。输入的声音样本可能有点嘈杂(麦克风输入)。 2)我假设第一步是音频特征提取。该文章建议提取的MFCC并将这些资料传送到机器学习算法。MFCC是否足够?还有其他通常用于声音分类的功能吗? 感谢您的时间。

1
使用SIFT功能和SVM进行图像分类
我希望有人可以解释如何使用词袋模型通过SIFT / SURF / ORB功能和支持向量机进行图像分类? 目前,我可以计算图像的SIFT特征向量,并且已经实现了SVM,但是发现很难理解有关如何使用词袋模型来“向量量化” SIFT特征并建立直方图的文献。固定大小的向量,可用于训练和测试SVM。 欢迎访问有关该主题的教程或文献的任何链接,谢谢

2
如何使用GLCM检索纹理并使用SVM分类器进行分类?
我正在进行肝肿瘤分割和分类的项目。我分别使用“区域生长”和“ FCM”进行肝脏和肿瘤分割。然后,我将灰度共生矩阵用于纹理特征提取。我必须使用支持向量机进行分类。但是我不知道如何规范化特征向量,以便将其作为SVM的输入。谁能说出如何在Matlab中进行编程? 对于GLCM程序,我将肿瘤分割图像作为输入。我说得对吗 我认为,如果是这样,我的输出也将是正确的。 据我尝试,我的glcm编码是 I = imread('fzliver3.jpg'); GLCM = graycomatrix(I,'Offset',[2 0;0 2]); stats = graycoprops(GLCM,'all') t1= struct2array(stats) I2 = imread('fzliver4.jpg'); GLCM2 = graycomatrix(I2,'Offset',[2 0;0 2]); stats2 = graycoprops(GLCM2,'all') t2= struct2array(stats2) I3 = imread('fzliver5.jpg'); GLCM3 = graycomatrix(I3,'Offset',[2 0;0 2]); stats3 = graycoprops(GLCM3,'all') t3= struct2array(stats3) t=[t1,t2,t3] xmin = min(t); xmax = …

2
用来区分不同(音乐?)音调的方法
我正在尝试研究并弄清楚如何最好地解决这个问题。它横跨音乐处理,图像处理和信号处理,因此有无数种查看方法。我想询问最佳方法,因为在纯sig-proc域中看似复杂的事情可能对进行图像或音乐处理的人来说是简单的(并且已经解决了)。无论如何,问题如下: 如果您原谅我对问题的看法,我们可以看到以下内容: 从上图可以看出,我有3种不同的信号“类型”。第一个是一个脉冲,其频率从到,然后重复。它具有特定的脉冲持续时间和特定的脉冲重复时间。f1f1f_1f4f4f_4 第二个仅存在于,但脉冲长度较短,脉冲重复频率较高。f1f1f_1 最后,第三个只是在的音调。f1f1f_1 问题是,我以何种方式解决此问题,以便编写可以区分信号1,信号2和信号3的分类器。也就是说,如果您向它提供信号之一,它应该能够告诉您该信号是这样的。什么最佳分类器会给我对角线混淆矩阵? 一些其他背景以及到目前为止我一直在想的是: 正如我所说的,这跨越了许多领域。我想问一想,在我坐下来与之作战之前可能已经存在哪些方法。我不想无意中重新发明轮子。以下是我从不同角度看过的一些想法。 信号处理观点: 我看过的一件事是进行倒频谱分析,然后可能使用倒频谱的Gabor带宽将信号3与其他信号2区分开,然后测量倒频谱的最高峰来区分信号3。信号2中为1。那是我当前的信号处理工作解决方案。 图像处理观点:我在这里思考,因为我实际上可以针对频谱图创建图像,也许我可以利用该领域的某些东西?我对这部分不是很熟悉,但是如何使用Hough变换进行“线”检测,然后以某种方式“计数”线(如果它们不是线和斑点,又如何呢?)然后从那里开始呢?当然,在我拍摄频谱图的任何时间点,您看到的所有脉冲都可能沿时间轴移动,那么这有关系吗?不确定... 音乐处理的观点:可以肯定的是信号处理的一个子集,但是在我看来,信号1具有一定的(也许是重复的)(音乐?)质量,音乐处理过程中的人们一直都能看到并且已经解决了。也许是区分乐器?不确定,但是这种想法确实发生在我身上。也许,从这个观点出发,是最好的方法,它占用了大部分时域并调高了这些步进率?再说一次,这不是我的领域,但是我非常怀疑这是以前见过的东西……我们可以将所有三种信号视为不同类型的乐器吗? 我还应该补充一点,我拥有大量的训练数据,因此也许使用其中一些方法可能会让我进行一些特征提取,然后我可以将其与K-Nearest Neighbor一起使用,但这只是一个想法。 无论如何,这就是我现在的立场,我们将不胜感激。 谢谢! 根据评论进行的编辑: 是的,预先知道,,,。(有些差异,但很小。例如,假设我们知道 = 400 Khz,但它可能以401.32 Khz出现。但是到距离很高,因此相比之下可能为500 Khz。)Signal-1将始终踩到这4个已知频率。Signal-2将始终具有1个频率。f1f1f_1f2f2f_2f3f3f_3f4f4f_4f1f1f_1f2f2f_2f2f2f_2 还预先知道所有三类信号的脉冲重复率和脉冲长度。(再次有一些差异,但很少)。尽管有些警告,但信号1和2的脉冲重复频率和脉冲长度始终是已知的,但它们是一个范围。幸运的是,这些范围根本不重叠。 输入是实时的连续时间序列,但是我们可以假设信号1、2和3是互斥的,因为在任何时间点仅存在一个信号。对于在任何时间点要花费多少时间块,我们也具有很大的灵活性。 数据可能是嘈杂的,是的,在我们已知的,,,不在的频段中可能存在虚假的音调等。这是完全有可能的。我们可以假设中等信噪比只是为了“开始”解决这个问题。f1f1f_1f2f2f_2f3f3f_3f4f4f_4

3
通过DCT进行纹理分类
使用离散余弦变换的特征对图像的纹理进行分类的可行性如何?谷歌搜索“纹理分类dct”仅使用神经网络找到有关该主题的一篇学术论文。 对于我的应用程序,我有大量带标签的图像,其中整个图像是一致的纹理(例如,毯子,树皮,草地等的特写镜头)。 受前一个问题的启发,我正在考虑以下方法: 将每个图像分成NxN个像素块 取每个块的DCT 将每个DCT展平为1xM阵列,并将其馈送给K-Means聚类算法,并获得每个DCT的聚类标签 通过计算#3中每个图像的每个标签,计算每个图像的聚类标签的直方图 通过为其提供一组[(直方图,图像标签)]来训练SVM分类器 效果如何?我使用通过SIFT / SURF算法提取的特征实现了一个类似的系统,但是我只能获得大约60%的精度。 我还可以通过哪些其他方式使用DCT对纹理进行分类?

2
定性比较图像补丁的良好指标
我正在尝试“匹配”图像中的小方块。乍看之下,简单地对这两个数组进行欧几里德距离样式比较以获得“相似性”度量似乎是合理的。这在许多情况下都可以正常工作(根据该指标的“最佳”补丁(最低值)与查询补丁非常相似)。但是,在许多情况下,这会产生非常差的匹配。例如,采用以下两个补丁对: 一堵砖墙的两个补丁,得分为134(这是平均绝对像素差的组成部分之和): 一块砖墙,一块草,得分123! 对于人类来说,“显然”草与砖块不匹配,但是该度量标准却相反。问题仅在于局部统计差异。 如果我使用直方图比较之类的方法,我将完全失去所有空间信息-例如,如果一块补丁在顶部是草,而底部是砖,那么它会与底部在草地,顶部是砖的补丁完全匹配(再次,另一个“明显错误”的匹配)。 是否存在一种度量标准,可以将上述两种思想组合成一个合理的值,对于上述对1而言,该值将被评估为“相似”,但对于我的补丁及其垂直镜面示例,该度量值却不相似? 任何建议表示赞赏!

3
为什么将数据转换为类别可线性分离的高维特征空间会导致过拟合?
我在关于SVM和线性不可分数据的部分中读了我的书(Webb和Wiley进行的统计模式分类): 在许多现实世界中的实际问题中,将没有线性边界来分隔类别,并且寻找最佳的分隔超平面的问题是没有意义的。即使我们使用复杂的特征向量将数据转换为类别可以线性分离的高维特征空间,也会导致数据过拟合,从而导致泛化能力差。Φ (x )Φ(x)\Phi(x) 为什么将数据转换为类别可以线性分离的高维特征空间会导致过度拟合和较差的泛化能力?

1
如何自动分类在不同位置测得的信号峰值?
我有麦克风在空间中许多不同位置上随时间测量声音。所记录的声音全部源自空间中的相同位置,但是由于从源点到每个麦克风的路径不同;信号将(时间)偏移和失真。已经使用先验知识来尽可能地补偿时间偏移,但是数据中仍然存在一些时间偏移。测量位置越近,信号越相似。 我对自动分类峰感兴趣。我的意思是说,我正在寻找一种算法,“看”下图中的两个麦克风信号,并从位置和波形“识别”出两个主要声音并报告其时间位置: sound 1: sample 17 upper plot, sample 19 lower plot, sound 2: sample 40 upper plot, sample 38 lower plot 为此,我计划在每个峰周围进行Chebyshev展开,并使用Chebyshev系数的向量作为聚类算法(k均值?)的输入。 作为示例,以下是在两个峰值(蓝色圆圈)附近的9个样本(红色)上的5个切比雪夫序列对两个附近位置(蓝色)测得的时间信号的一部分: 近似值非常好:-)。 然而; 上图的切比雪夫系数为: Clu = -1.1834 85.4318 -39.1155 -33.6420 31.0028 Cru =-43.0547 -22.7024 -143.3113 11.1709 0.5416 下图的切比雪夫系数为: Cll = 13.0926 16.6208 -75.6980 -28.9003 0.0337 Crl =-12.7664 …

1
车辆细分和跟踪
我从事一个项目已经有一段时间了,以检测和跟踪从无人机捕获的视频中的车辆,目前,我正在使用SVM,该SVM受过从车辆和背景图像中提取的局部特征的特征包表示的训练。然后,我正在使用滑动窗口检测方法来尝试在图像中定位车辆,然后我想对其进行跟踪。问题在于,这种方法远远不够缓慢,而且我的检测器不如我希望的那样可靠,因此我得到了很多误报。 因此,我一直在考虑尝试从背景中分割汽车以找到大概位置,以便在应用分类器之前减少搜索空间,但是我不确定如何进行此操作,希望有人可以提供帮助? 此外,我一直在阅读有关使用图层进行运动分割的信息,使用光流按流模型对帧进行分割,是否有人对此方法有任何经验,如果可以的话,您是否可以提供一些输入,例如您是否认为此方法适用于我的问题。 更新:我也将这个问题发布到堆栈溢出中,并且得到了一个很好的答案,我已经实现了这个想法,并且效果很好,我正在研究除这种技术之外还使用光流技术。 以下是示例视频的两帧 框架0: 框架5:

1
识别聚集成形状的数据
我正在使用Python进行一个项目,以检测和分类一些鸟类歌曲,但发现自己处于将波形文件转换为频率与时间数据的位置。这并不是一个太大的问题,但是为了能够将不同的音节分为几类,我需要编写一些东西来检测何时数据集群为某种形状。为了让您大致了解数据的外观,以下是数据绘制时的图像: 我需要一些方法来获取每个单独的音节(每个形状的两侧都有分隔符)并将其保存到变量或自己的文件中,以便我可以使用SciPy在它们之间运行Pearson相关性。 另外,我更喜欢Python,但是如果您有其他方法可以使用其他语言进行编码,则可以开放。 谢谢!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.