Questions tagged «similarities»

分布,聚类,数据集或其他对象之间的紧密程度。



1
比较通过不同距离和方法获得的分层聚类树状图
[最初的标题“用于层次聚类树的相似性的度量”后来被@ttnphns更改,以更好地反映该主题] 我正在对患者记录的数据帧执行许多层次的聚类分析(例如,类似于http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y) 我正在尝试不同的距离度量,不同的参数权重和不同的层级方法,以了解它们对树的最终聚类/结构/视图(树状图)的影响。我的问题是,是否存在用于计算不同层次树之间的差异的标准计算/度量,以及如何在R中实现这一点(例如,量化一些树几乎相同,而有些树则完全不同)。

1
将相似度矩阵转换为(欧式)距离矩阵
在随机森林算法中,Breiman(作者)构造相似矩阵如下: 将所有学习示例发送到森林中的每棵树上 如果两个示例落在同一片叶子上,则相似矩阵中的对应元素增加1 用树数归一化矩阵 他说: 情况n和k之间的接近度形成矩阵{prox(n,k)}。从它们的定义可以很容易地看出,该矩阵是对称的,正定的并且在1上有界,对角线元素等于1。由此得出,值1-prox(n,k)是欧几里得中的平方距离维数空间不大于案例数。资源 在他的实现中,他使用sqrt(1-prox)(其中prox是相似矩阵)将其转换为距离矩阵。我想这与上面引用的“欧氏空间中的平方距离”有关。 有人可以解释为什么为什么在欧几里得空间中1-prox是平方距离,以及为什么他使用平方根来获得距离矩阵吗?

2
二进制数据的相似系数:为什么选择Jaccard而不是Russell和Rao?
从《统计科学百科全书》中,我了解到,给定二分(二进制:1 =存在; 0 =不存在)属性(变量),我们可以为样本的任意两个对象i和j形成列联表:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables where object i is 1 and j is …

5
是否有一个R函数可以计算余弦相似度矩阵?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 我想通过基于余弦距离的行聚类制作一个热图。我正在使用R并heatmap.2()制作数字。我可以看到其中有一个dist参数,heatmap.2但是找不到用于生成余弦相异度矩阵的函数。内置dist函数不支持余弦距离,我还发现了一个arules带有dissimilarity()函数的包,但仅适用于二进制数据。


3
欧氏距离得分和相似性
我刚读完《集体智慧》(托比·塞加兰(Toby Segaran))一书,就遇到了欧几里得距离得分。在书中作者展示了如何计算两个建议阵列之间的相似性(即。人 ×电影 ↦分数)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) 他通过 d (p 1,p 2)= √计算两个人和p 2的欧几里得距离p1个p1p_1p2p2p_2d(p1个,p2)= ∑我∈ 项目 (sp1个− 秒p2)2-------------√d(p1,p2)=∑i ∈ item(sp1−sp2)2d(p_1, p_2) = \sqrt{\sum_{i~\in~\textrm{item}} (s_{p_1} - s_{p_2})^2} 这对我来说完全有意义。我真正不明白的是,为什么他最后计算以下内容以获得“基于距离的相似性”: 1个1 + d(p1个,p2)11+d(p1,p2) \frac{1}{1 + d(p_1, p_2)} 因此,我不知何故必须是从远距离到相似的转换(对吗?)。但是为什么配方设计师看起来像这样?有人可以解释吗?

4
行规范化的目的是什么
我理解列归一化背后的原因,因为即使没有按相同的比例尺对特征进行加权,也可以使特征得到相等的加权-但是,在最近的相邻文献中,列和行均被归一化。什么是行归一化/为什么要对行进行归一化?具体来说,行归一化的结果如何影响行向量之间的相似度/距离?

3
量化两个数据集之间的相似性
摘要:试图找到最佳方法,使用一个值总结两个对齐的数据集之间的相似性。 详细资料: 我的问题最好用图表来解释。下图显示了两个不同的数据集,每个数据集都标有nf和nr。沿x轴的点表示进行测量的位置,而y轴上的值表示结果的测量值。 对于每个图,我想要一个数字来总结每个测量点的相似度nf和nr值。在此示例中,从视觉上看,第一张图的结果与第二张图的结果不太相似。但是我还有很多其他数据,差异不那么明显,因此能够对此进行定量排名将很有帮助。 我认为可能存在通常使用的标准技术。搜索统计相似性会得出很多不同的结果,但是我不确定最好选择什么,或者我是否准备好解决我的问题。因此,我认为在有一个简单答案的情况下,这个问题可能值得在这里提出。

1
当属性是名义的时,个人的最佳距离函数是什么?
我不知道在名义(无序分类)属性的情况下要使用个体之间的距离函数。我正在阅读一些教科书,他们建议使用简单匹配功能,但有些书则建议我将标称值更改为二进制属性,并使用Jaccard系数。但是,如果名义属性的值不是2怎么办?如果该属性中有三个或四个值怎么办? 应该为名义属性使用哪个距离函数?

2
美世定理是否相反?
一位同事有一个功能sss,对我们来说,它是一个黑匣子。该函数测量两个对象的相似度s (a ,b )s(a,b)s(a,b)。 我们肯定知道sss具有以下属性: 相似性分数是介于0和1之间(含0和1)的实数。 只有自我相同的对象的分数才为1。因此s (a ,b )= 1s(a,b)=1s(a,b)=1意味着a = ba=ba=b,反之亦然。 我们保证。s (a ,b )= s (b ,a )s(a,b)=s(b,a)s(a,b) = s(b,a) 现在,他想使用需要距离作为输入的算法,并依赖于满足距离公理的输入。 我的想法是,我们可以将相似性分数视为RBF核的结果有一定距离(可以是欧几里得范数或其他距离),即可以用代数重新排列,并假设相似性分数指的是RBF内核用于某些(未知)坐标系中的一对点。 小号(X一世,XĴ)− r 日志小号(X一世,XĴ)------------√= 经验( - d(米一世,米Ĵ)2[R)= d(米一世,米Ĵ)s(xi,xj)=exp⁡(−d(mi,mj)2r)−rlog⁡s(xi,xj)=d(mi,mj) \begin{align} s(x_i,x_j) &= \exp\left(-\frac{d( m_i, m_j)^2}{r}\right) \\ \sqrt{-r \log s(x_i,x_j) } &= d(m_i,m_j) \\ \end{align} 其中是一些未知向量,和X α是感兴趣的对象,并且d是一段距离。米α∈ [Rñmα∈Rnm_\alpha …

2
机器学习技术,用于学习字符串模式
我有一个单词列表,属于不同的自定义类别。每个类别都有其自己的模式(例如,一个具有固定长度的特殊字符,另一种仅存在于“单词”的类别中的字符,...)。 例如: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... 我正在寻找一种机器学习技术,根据训练数据自行学习这些模式。我已经尝试自己定义一些预测变量(例如,字长,特殊字符的数量...),然后使用神经网络来学习和预测类别。但这根本不是我想要的。我希望有一种技术可以自己学习每个类别的模式,甚至可以学习我从未想过的模式。 因此,我提供了算法学习数据(由单词类别示例组成),并希望它学习每种类别的模式,以便以后根据相似或相等的单词来预测类别。 有最先进的方法吗? 谢谢你的帮助

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
如何找到时间序列之间的相似性?
在以下示例中,我有一个数据框,该数据框由在海洋中5个深度处记录的水温测量值的时间序列组成,其中in的每个值Temp对应于in的日期DateTime和in 的深度Depth。 set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each = …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.