Questions tagged «pattern-recognition»

指根据相似性将数据分类的技术(既可以事先知道,也可以学习)。

9
从底部到顶部解释马氏距离?
我正在研究模式识别和统计,几乎每本书我都涉及马哈拉诺比斯距离的概念。这些书给出了一些直观的解释,但仍然不足以让我真正真正了解正在发生的事情。如果有人问我“马氏距离是多少?” 我只能回答:“这是一件好事,它可以测量某种距离” :) 这些定义通常还包含特征向量和特征值,与马氏距离之间的连接有点麻烦。我了解特征向量和特征值的定义,但是它们与马氏距离有何关系?它与更改线性代数等的基数有关吗? 我还阅读了有关该主题的以下先前问题: 什么是马氏距离,如何将其用于模式识别? 高斯分布函数和马哈拉诺比斯距离(Math.SE)的直观解释 我也读过这个解释。 答案是好的,画面不错,但我仍然没有真正得到它。我有一个想法,但它仍然在黑暗中。有人可以给出“您将如何向您的祖母解释”的解释,以便我最终将其总结起来,而再也不会怀疑马哈拉诺比斯距离是多少?:)它来自哪里,为什么? 更新: 以下是有助于理解Mahalanobis公式的内容: https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-椭球

9
测量二维二进制矩阵的熵/信息/模式
我想测量二维二进制矩阵的熵/信息密度/图案相似度。让我显示一些图片以供说明: 此显示应具有较高的熵: 一种) 这应该具有中等熵: B) 最后,这些图片应该都具有接近零的熵: C) D) E) 是否有一些捕获熵的索引,分别。这些显示的“样式”? 当然,每种算法(例如,压缩算法;或ttnphns提出的旋转算法)都对显示器的其他功能敏感。我正在寻找一种尝试捕获以下属性的算法: 旋转和轴向对称 聚类量 重复次数 也许更复杂,算法可能对心理的“ 格式塔原理 ”的属性敏感,尤其是: 接近定律: 对称定律:即使距离很远,对称图像也可以集体感知: 具有这些属性的显示应被赋予“低熵值”;具有相当随机/非结构化点的显示应该被分配一个“高熵值”。 我知道,很可能没有一种算法可以捕获所有这些功能。因此,也非常欢迎提出仅针对某些功能甚至仅针对单个功能的算法的建议。 特别是,我正在寻找具体的,现有的算法或特定的,可实现的想法(我将根据这些标准来授予赏金)。

1
为什么Mantel的考试比Moran的I更受青睐?
Mantel的测试广泛用于生物学研究中,以检查动物的空间分布(在空间中)与它们的遗传相关性,侵略率或其他属性之间的相关性。许多优秀的期刊正在使用它( PNAS,动物行为,分子生态学...)。 我捏造了一些自然界中可能出现的模式,但是Mantel的测试似乎无法检测到它们。另一方面,Moran's I的结果更好(请参见各图下的p值)。 为什么科学家们不使用莫兰的我呢?有一些我看不到的隐藏原因吗?如果有某种原因,我如何知道(必须以不同的方式构造假设)以适当地使用我测试的Mantel或Moran的?一个真实的例子会有所帮助。 想象这种情况:每棵树上都有一个乌鸦的果园(17 x 17棵树)。每个乌鸦的“噪音”级别都可用,您想知道乌鸦的空间分布是否由它们发出的噪音决定。 至少有5种可能性: “羽毛鸟聚集在一起。” 相似的乌鸦越多,它们之间的地理距离(单个簇)越小。 “羽毛鸟聚集在一起。” 同样,乌鸦越相似,它们之间的地理距离就越小(多簇),但是一簇嘈杂的乌鸦不知道第二簇的存在(否则它们会融合成一个大簇)。 “单调趋势。” “异性相吸。” 类似的乌鸦不能站在一起。 “随机模式。” 噪声水平对空间分布没有重大影响。 对于每种情况,我都创建了一个点图并使用Mantel检验来计算相关性(不足为奇的是,其结果不显着,我永远也不会尝试在这些点模式之间找到线性关联)。 示例数据:( 尽可能压缩) r.gen <- seq(-100,100,5) r.val <- sample(r.gen, 289, replace=TRUE) z10 <- rep(0, times=10) z11 <- rep(0, times=11) r5 <- c(5,15,25,15,5) r71 <- c(5,20,40,50,40,20,5) r72 <- c(15,40,60,75,60,40,15) r73 <- c(25,50,75,100,75,50,25) rbPal …

3
将一长串的字符串(单词)聚类为相似性组
我手头有以下问题:我有很长的单词列表,可能有名称,姓氏等。我需要将此单词列表聚类,以便类似的单词(例如,具有类似编辑(Levenshtein)距离的单词)出现在同一集群。例如,“算法”和“算法”应该有很高的机会出现在同一集群中。 我很清楚模式识别文献中的经典无监督聚类方法,例如k-means聚类,EM聚类。这里的问题是这些方法对驻留在矢量空间中的点起作用。我在这里手头有弦。到目前为止,根据我的调查工作,关于如何在数值向量空间中表示字符串以及如何计算字符串簇的“均值”的问题似乎还没有得到充分回答。解决这个问题的一种简单方法是将k-Means聚类与Levenshtein距离结合起来,但问题仍然是“如何表示字符串的“均值”?”。有一个权重称为TF-IDF权重,但似乎它主要与“文本文档”聚类的区域有关,而不与单个单词的聚类有关。 http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf 我在这方面的搜索仍在进行中,但我也想从这里获得一些想法。在这种情况下,您会建议什么?有人知道解决此类问题的任何方法吗?

4
SVM中内核的区别?
有人可以告诉我SVM中内核之间的区别: 线性的 多项式 高斯(RBF) 乙状结肠 因为众所周知,内核用于将输入空间映射到高维特征空间。在该特征空间中,我们找到了线性可分界线。 什么时候使用它们(在什么条件下),为什么?

2
如何理解“非线性降维”中的“非线性”?
我试图了解线性降维方法(例如PCA)和非线性降维方法(例如Isomap)之间的差异。 在这种情况下,我不太了解(非线性)含义。我从维基百科上得知 相比之下,如果使用PCA(线性降维算法)将同一数据集缩小为二维,则结果值的组织就不太好。这表明采样此歧管的高维向量(每个代表字母“ A”)以非线性方式变化。 是什么 采样此歧管的高维向量(每个代表字母“ A”)以非线性方式变化。 意思?或更广泛地说,在这种情况下,我如何理解(非线性)?



3
模式识别任务中最先进的集成学习算法?
这个问题的结构如下:首先,我提供整体学习的概念,进一步提供模式识别任务的列表,然后给出整体学习算法的示例,最后介绍我的问题。那些不需要所有补充信息的人可能只是看标题,直接回答我的问题。 什么是整体学习? 根据维基百科的文章: 在统计和机器学习中,集成方法使用多种学习算法来获得比单独从任何组成学习算法中获得的更好的预测性能。与通常是无限的统计力学中的统计集合不同,机器学习集合仅指的是一组有限的替代模型的具体有限集合,但通常允许在这些替代模型之间存在更灵活的结构。 模式识别任务的示例: 光学字符识别 条码识别 车牌识别 人脸检测 语音识别 影像辨识 文件分类 集成学习算法的示例: 以下用于PR任务的集成学习算法(根据Wiki): 集成学习算法(将多种学习算法结合在一起的监督元算法): Boosting(主要用于减少偏见的机器学习集成元算法,以及在监督学习中的差异,以及将弱学习者转换为强学习者的一系列机器学习算法) Bootstrap聚合(“ 装袋 ”)(一种机器学习集成元算法,旨在提高统计分类和回归中使用的机器学习算法的稳定性和准确性)。 集合平均(创建多个模型并将其组合以产生所需输出的过程,而不是仅创建一个模型。通常,一组模型的性能要优于任何单个模型,因为模型的各种错误会“平均化”。 ) 专家混合,专家分层混合 不同的实现 神经网络的集合(一组神经网络模型,通过对各个模型的结果求平均值来进行决策)。 随机森林(一种用于分类,回归和其他任务的整体学习方法,通过在训练时构造大量决策树并输出作为个体的类(分类)或均值预测(回归)模式的类来进行操作树木)。 AdaBoost(将其他学习算法(“弱学习者”)的输出合并为一个加权总和,该总和代表增强分类器的最终输出)。 另外: 使用一个神经网络组合不同分类器的方法 胜任范围法 我的问题 哪种集成学习算法被认为是当今最先进的,并且在企业和组织中实际用于实践中(用于面部检测,车牌识别,光学字符识别等)?应该使用集成学习算法来提高识别精度并导致更好的计算效率。但是,现实中的事情会这样吗? 哪种集成方法可能在模式识别任务中显示出更好的分类准确性和性能?也许,某些方法现在已经过时,或者已经证明无效。由于某些新算法的优势,现在可能不再使用集成方法了。那些在该领域有经验或在该领域有足够知识的人,您能帮助澄清问题吗?

3
隐马尔可夫模型阈值
我已经开发出了使用mfcc和隐马尔可夫模型进行声音识别的概念验证系统。当我在已知声音上测试系统时,它会提供令人鼓舞的结果。尽管系统在输入未知声音时返回的结果具有最接近的匹配结果,并且得分的差异并不明显,但它是未知声音,例如: 我训练了3种隐藏式马尔可夫模型,一种用于讲话,一种用于从水龙头出来的水,另一种用于敲打桌子。然后,我对它们进行了看不见的数据测试,并得到以下结果: input: speech HMM\knocking: -1213.8911146444477 HMM\speech: -617.8735676792728 HMM\watertap: -1504.4735097322673 So highest score speech which is correct input: watertap HMM\knocking: -3715.7246152783955 HMM\speech: -4302.67960438553 HMM\watertap: -1965.6149147201534 So highest score watertap which is correct input: knocking HMM\filler -806.7248912250212 HMM\knocking: -756.4428782636676 HMM\speech: -1201.686687761133 HMM\watertap: -3025.181144273698 So highest score knocking which is correct input: …

3
图像是否由空间相连的独立区域组成的统计量度
考虑以下两个灰度图像: 第一张图片显示了蜿蜒的河流格局。第二张图片显示了随机噪声。 我正在寻找一种统计量,可以用来确定图像是否可能显示河流图案。 河流图像有两个区域:河流=高价值,其他地方=低价值。 结果是直方图是双峰的: 因此,具有河流图案的图像应具有较高的方差。 但是上面的随机图像也是如此: River_var = 0.0269, Random_var = 0.0310 另一方面,随机图像具有较低的空间连续性,而河流图像具有较高的空间连续性,这在实验方差图中清楚显示: 就像方差“汇总”一个数量的直方图一样,我正在寻找一种空间连续性的度量,以“汇总”实验方差图。 我希望这种度量可以在较小的滞后比较大的滞后更“惩罚”高半方差,因此我想出了: s v a r = ∑ñh = 1γ(小时)/ 小时2 svar=∑h=1nγ(h)/h2\ svar = \sum_{h=1}^n \gamma(h)/h^2 如果我仅从滞后= 1到15加起来,我得到: River_svar = 0.0228, Random_svar = 0.0488 我认为河流图像应该具有较高的方差,但空间方差较低,因此我引入了方差比: r a t i o = v a r / s …

2
为什么在完全分散的点模式中,Moran的I不等于“ -1”
维基百科是错的...还是我听不懂? 维基百科:白色和黑色正方形(“象棋图案”)完全分散,因此莫兰的I为-1。如果将白色方块堆叠到板子的一半,将黑色方块堆叠到板子的另一半,则莫兰的I将接近+1。正方形颜色的随机排列将使Moran's I的值接近于0。 # Example data: x_coor<-rep(c(1:8), each=8) y_coor<-rep(c(1:8), length=64) my.values<-rep(c(1,0,1,0,1,0,1,0,0,1,0,1,0,1,0,1), length=64) rbPal <- colorRampPalette(c("darkorchid","darkorange")) my.Col <- rbPal(10)[as.numeric(cut(my.values,breaks = 10))] # plot the point pattern... plot(y_coor,x_coor,col = my.Col, pch=20, cex=8, xlim=c(0,9),ylim=c(0,9)) 如您所见,点完全分散 # Distance matrix my.dists <- as.matrix(dist(cbind(x_coor,y_coor))) # ...inversed distance matrix my.dists.inv <- 1/my.dists # diagonals are "0" diag(my.dists.inv) …

1
鼠标(或键盘)点击的模式并预测计算机用户的活动
仅基于鼠标单击的时间模式(单击时间),可以预测计算机用户的活动吗?[ Ť1个,Ť2,Ť3,… ][Ť1个,Ť2,Ť3,…][t_1,t_2,t_3,\ldots] 例如,工作:在Facebook上花费时间,在照片上观看照片,在电脑上玩游戏。 如果他们有更详尽的预测(例如玩《星际争霸》,《反恐精英》和《模拟城市》),那么我也很感兴趣。 虽然(可以说)有人听到有人在玩(由于快速而突然的点击)或正在观看照片(等间隔的点击),但我对此是否还有客观的发现(出版物,博客研究等)感兴趣, 。 编辑: 我同样对键盘单击(不区分正在敲击哪个键)或组合方法(鼠标+键盘)感兴趣。

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx

3
ICA是否需要首先运行PCA?
我审阅了一篇基于应用程序的论文,说在应用ICA之前先应用PCA(使用fastICA软件包)。我的问题是,ICA(fastICA)是否要求PCA首先运行? 本文提到 ...也有人认为,预先应用PCA可以通过(1)在白化之前丢弃小的尾随特征值,以及(2)通过使成对依存关系最小化来降低计算复杂度,从而提高ICA性能。PCA对输入数据进行解相关;其余的高阶依存关系由ICA分隔。 另外,其他论文也正在ICA之前应用PCA,例如该论文。 在ICA之前运行PCA还有其他利弊吗?请提供理论参考。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.