Questions tagged «distance-functions»

距离函数是指用于量化集合成员之间或对象之间的距离概念的函数。

5
3个概率分布的Jensen-Shannon发散计算:这样可以吗?
我想根据以下3个分布来计算他的詹森-香农散度。下面的计算是否正确?(我遵循了维基百科的JSD公式): P1 a:1/2 b:1/2 c:0 P2 a:0 b:1/10 c:9/10 P3 a:1/3 b:1/3 c:1/3 All distributions have equal weights, ie 1/3. JSD(P1, P2, P3) = H[(1/6, 1/6, 0) + (0, 1/30, 9/30) + (1/9,1/9,1/9)] - [1/3*H[(1/2,1/2,0)] + 1/3*H[(0,1/10,9/10)] + 1/3*H[(1/3,1/3,1/3)]] JSD(P1, P2, P3) = H[(1/6, 1/5, 9/30)] - [0 + 1/3*0.693 …

5
最佳距离测量
语境 我有两组数据要比较。在这两组的每个数据元素是含有22角(所有之间的矢量−π−π-\pi和ππ\pi)。角度与给定的人体姿势配置有关,因此姿势由22个关节角度定义。 我最终想要做的是确定两组数据的“紧密度”。因此,对于一组中的每个姿势(22D矢量),我想在另一组中找到其最近的邻居,并为每个最接近的对创建距离图。 问题 我可以简单地使用欧几里得距离吗? 为了有意义,我假设距离度量需要定义为:θ=|θ1−θ2|modπθ=|θ1−θ2|modπ\theta = |\theta_1 - \theta_2| \quad mod \quad \pi,其中|...||...||...|是绝对值,mod是模。然后使用得到的22个theta,我可以执行标准的欧几里德距离计算,t21+t22+…+t222−−−−−−−−−−−−−−√t12+t22+…+t222\sqrt{t_1^2 + t_2^2 + \ldots + t_{22}^2}。 它是否正确? 另一个距离度量标准(例如卡方或Bhattacharyya或其他度量标准)会更有用吗?如果是这样,请您提供一些原因的见解。

1
当属性是名义的时,个人的最佳距离函数是什么?
我不知道在名义(无序分类)属性的情况下要使用个体之间的距离函数。我正在阅读一些教科书,他们建议使用简单匹配功能,但有些书则建议我将标称值更改为二进制属性,并使用Jaccard系数。但是,如果名义属性的值不是2怎么办?如果该属性中有三个或四个值怎么办? 应该为名义属性使用哪个距离函数?



1
是Beyer等人的相对对比度定理。论文:“关于高维空间中距离度量的惊人行为”引起误解?
这在提到维数诅咒时经常被引用 (右手公式称为相对对比度) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 定理的结果表明,到给定查询点的最大距离和最小距离之间的差不会像在高维空间中到任何点的最近距离一样快。这使得邻近查询变得毫无意义且不稳定,因为最近邻居和最远邻居之间的区分度很差。 链接 但是,如果实际上尝试计算样本值的相对对比度,则意味着要获取一个包含非常小的值的向量,并计算到零向量的距离,然后对包含更大值的向量进行相同的计算,然后将其与尺寸为3且尺寸为10910910^9倍的尺寸,人们会看到,尽管该比例确实减小了,但变化却很小,以至于与实际使用的尺寸数量无关(或者有人知道有人在工作吗?数据的大小与Graham数的大小相同-我想这是描述纸张的效果与实际相关所需的大小-我认为不是)。 如前所述,该定理经常被引用来支持这样的说法,即基于欧几里德空间来测量接近度在高维空间中是一种较差的策略,作者本人也是这样说的,但是建议的行为实际上并未发生,这使我认为该定理已被误导使用。 示例:具有d尺寸 a=np.ones((d,)) / 1e5 b=np.ones((d,)) * 1e5 dmin,dmax=norm(a), norm(b) (dmax-dmin)/dmin 对于d = 3 9999999999.0 对于d = 1e8 9999999998.9996738 并使用 d = 1e8的 d = 3 用1e1代替1e5(假设数据已标准化) 99.0 98.999999999989527

3
通过PCA进行的Mahalanobis距离
我有一个 Ñ × pñ×pn\times p 矩阵,其中 ppp 是基因的数量, ññn是患者人数。任何使用过此类数据的人都知道ppp 总是大于 ññn。使用功能选择我已经ppp 下降到一个更合理的数字 ppp 仍然大于 ññn。 我想根据患者的遗传特征计算其相似度;我可以使用欧式距离,但是马哈拉诺比斯似乎更合适,因为它考虑了变量之间的相关性。问题(如在此说明的交)是Mahalanobis距离,特别是协方差矩阵,不工作时n &lt; pñ&lt;pn < p。当我在R中运行马氏距离时,得到的错误是: Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 到目前为止,为了解决这个问题,我使用了PCA,而不是使用基因,而是使用了成分,这似乎使我能够计算出马氏距离。5个分量代表方差的80%,所以现在Ñ &gt; pñ&gt;pn > p。 我的问题是:我可以使用PCA有意义地获取患者之间的马氏距离,还是不合适?是否有替代距离指标在以下情况下起作用n &lt; pñ&lt;pn < p 并且之间也有很大的相关性 ññn 变量?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.