Questions tagged «distance-functions»

距离函数是指用于量化集合成员之间或对象之间的距离概念的函数。


6
选择聚类方法
在对数据集进行聚类分析以将相似案例分组时,需要在大量聚类方法和距离度量中进行选择。有时,一种选择可能会影响另一种,但是方法有很多可能的组合。 是否有人对如何从各种聚类算法/方法和距离度量中进行选择提出建议?这与变量的性质(例如分类或数字)和聚类问题有什么关系?有没有最佳技术?

6
为什么k均值聚类算法仅使用欧几里得距离度量?
在效率或功能方面是否有特定目的,为什么k-means算法不使用余弦(不)相似度作为距离度量,而只能使用欧几里得范数?通常,当考虑或使用除欧几里得以外的其他距离时,K均值方法会符合并正确吗? [由@ttnphns添加。这个问题有两个方面。“非欧氏距离”可以涉及两个数据点之间的距离或数据点与聚类中心之间的距离。到目前为止,都尝试了两种方法来解决答案。]

3
两个正态分布随机变量之间的欧几里得距离的分布是什么?
假设给了两个对象,它们的确切位置是未知的,但是根据具有已知参数的正态分布(例如和。我们可以假设它们都是双变量法线,这样位置就由坐标上的分布来描述(即和是分别包含和的预期坐标的向量)。我们还将假定对象是独立的。a∼N(m,s)a∼N(m,s)a \sim N(m, s)b∼N(v,t))b∼N(v,t))b \sim N(v, t))(x,y)(x,y)(x,y)mmmvvv(x,y)(x,y)(x,y)aaabbb 有谁知道这两个对象之间的欧几里德距离平方的分布是否是已知的参数分布?还是如何通过分析得出此功能的PDF / CDF?



1
比较通过不同距离和方法获得的分层聚类树状图
[最初的标题“用于层次聚类树的相似性的度量”后来被@ttnphns更改,以更好地反映该主题] 我正在对患者记录的数据帧执行许多层次的聚类分析(例如,类似于http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y) 我正在尝试不同的距离度量,不同的参数权重和不同的层级方法,以了解它们对树的最终聚类/结构/视图(树状图)的影响。我的问题是,是否存在用于计算不同层次树之间的差异的标准计算/度量,以及如何在R中实现这一点(例如,量化一些树几乎相同,而有些树则完全不同)。

5
测量两个多元分布之间的“距离”
我正在寻找一些好的术语来描述我正在尝试做的事情,以使查找资源变得更加容易。 因此,假设我有两个点A和B的群集,每个群集与两个值X和Y相关联,并且我想测量A和B之间的“距离”,即从同一分布中对它们进行采样的可能性有多大(我可以假设分布是正态的)。例如,如果X和Y在A中相关,而在B中不相关,则分布是不同的。 凭直觉,我将得到A的协方差矩阵,然后看一下B中每个点适合在那里的可能性,反之亦然(可能使用马氏距离之类的方法)。 但这有点“临时”,可能有一种更为严格的描述方式(当然,在实践中,我有两个以上的数据集和两个以上的变量-我正在尝试确定我的哪个数据集是离群值)。 谢谢!

2
是否存在两个分布之间的Hellinger距离的无偏估计量?
在一个观察密度为的分布的分布的环境中,我想知道是否存在一个对密度为另一分布即 的Hellinger距离的无偏估计量(基于)。X1,…,XnX1,…,XnX_1,\ldots,X_nfffXiXiX_if0f0f_0H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

1
何时使用加权欧几里得距离,以及如何确定要使用的权重?
我有一组数据,其中每个数据包含nnn不同的度量。对于每种度量,我都有一个基准值。我想知道每个数据与基准值有多接近。 我想到了像这样使用加权欧几里得距离: dx,b=(∑ni=1wi(xi−bi)2))1/2dx,b=(∑i=1nwi(xi−bi)2))1/2\hspace{0.5in} d_{x,b}=\left( \sum_{i=1}^{n}w_i(x_i-b_i)^2)\right)^{1/2} 哪里 xixi\hspace{0.5in}x_i是特定数据的第i个度量的值 bibi\hspace{0.5in}b_i是该度量的相应基准值。 wiwi\hspace{0.5in} w_i是我将附加到第i个度量之间的权重值,但要遵守以下条件: 0&lt;wi&lt;10&lt;wi&lt;1\hspace{1in}0<w_i<1和∑ni=11∑i=1n1\sum_{i=1}^{n}1 但是,根据该文档,我发现要使用的权重是第i个度量的方差的倒数。我认为这种加权不会解释我对每种度量标准的重视程度。 因此: 是否有方法提出一组权重来反映观察者对度量的相对重要性,或者观察者可以为权重分配任意值吗? 使用加权欧几里得距离来解决这个问题是否合适?

3
将曼哈顿距离与Ward的集群间链接一起使用可以进行分层集群吗?
我正在使用层次聚类分析时间序列数据。我的代码是使用Mathematica实现的函数DirectAgglomerate[...],该函数根据以下输入生成层次聚类: 距离矩阵D 用于确定集群间链接的方法的名称。 我已经使用曼哈顿距离计算了距离矩阵D: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| 其中和Ñ ≈ 150是数据点在我的时间序列数。i=1,⋯,ni=1,⋯,ni = 1,\cdots, nn≈150n≈150n \approx 150 我的问题是,可以将Ward的集群间链接与曼哈顿距离矩阵一起使用吗?一些资料表明,沃德的连接只能与欧几里得距离一起使用。 请注意,DirectAgglomerate[...]仅使用距离矩阵而不是原始观测值来计算Ward的链接。不幸的是,我不确定Mathematica是如何修改Ward的原始算法的(根据我的理解),该算法通过最小化相对于聚类均值计算的观测值平方误差之和而起作用。例如,对于由单变量观测值向量组成的聚类,Ward将平方的误差平方和表示为:ccc (∑j||cj−mean(c)||2)2(∑j||cj−mean(c)||2)2(\sum_j||c_j - mean(c)||_2)^2 (其他软件工具(例如Matlab和R)也仅使用距离矩阵来实现Ward的聚类,因此问题并非特定于Mathematica。)


3
是否有人使用或L .5度量进行聚类,而不是使用L 2? Aggarwal等人, 关于距离度量在高维空间中的令人惊讶的行为, 他说(2001年)大号1个大号1个L_1大号.5大号.5L_.5大号2大号2L_2 对于高维数据挖掘应用, L 1始终比欧几里德距离度量 L 2更可取 大号1个大号1个L_1大号2大号2L_2 并声称或L .1会更好。大号.5大号.5L_.5大号.1大号.1L_.1 使用或L .5的原因可能是理论上的或实验上的,例如对异常值/Kabán论文的敏感性,或基于真实或合成数据运行的程序(请复制)。一个例子或一张照片会帮助我的外行直觉。大号1个大号1个L_1大号.5大号.5L_.5 这个问题是鲍勃·杜兰特(Bob Durrant)对“ 当下就是最近的邻居今天有意义”的回答的后续行动 。正如他所说,的选择既取决于数据又取决于应用程序。尽管如此,真实经验的报告还是有用的。ppp 6月7日(星期二)添加的注释: 我偶然发现了“基于L1范数和相关方法的统计数据分析”,道奇(Dodge)编辑,2002年,454p,isbn 3764369205 —数十篇会议论文。 谁能分析iid指数特征的距离集中?指数的原因之一是 ; 另一个(非专家)是最大熵分布≥0;第三,某些真实数据集,尤其是SIFT,看起来大致呈指数形式。| exp−exp | 〜ëXp|ËXp-ËXp|〜ËXp|exp - exp| \sim exp≥≥\ge

3
欧氏距离得分和相似性
我刚读完《集体智慧》(托比·塞加兰(Toby Segaran))一书,就遇到了欧几里得距离得分。在书中作者展示了如何计算两个建议阵列之间的相似性(即。人 ×电影 ↦分数)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) 他通过 d (p 1,p 2)= √计算两个人和p 2的欧几里得距离p1个p1p_1p2p2p_2d(p1个,p2)= ∑我∈ 项目 (sp1个− 秒p2)2-------------√d(p1,p2)=∑i ∈ item(sp1−sp2)2d(p_1, p_2) = \sqrt{\sum_{i~\in~\textrm{item}} (s_{p_1} - s_{p_2})^2} 这对我来说完全有意义。我真正不明白的是,为什么他最后计算以下内容以获得“基于距离的相似性”: 1个1 + d(p1个,p2)11+d(p1,p2) \frac{1}{1 + d(p_1, p_2)} 因此,我不知何故必须是从远距离到相似的转换(对吗?)。但是为什么配方设计师看起来像这样?有人可以解释吗?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: &gt; require(nlme) &gt; options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) &gt; m2&lt;-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.