使用哪个距离?例如,曼哈顿,欧几里得,布雷-柯蒂斯等


11

我不是社区生态学家,但是这些天我正在研究社区生态数据。

除了这些距离的数学运算之外,我无法理解的是每种距离的使用标准以及在何种情况下可以使用该距离。例如,对计数数据使用什么?如何将两个位置之间的倾斜角度转换为距离?还是两个地点的温度或降雨?每个距离的假设是什么,什么时候有意义?


理解距离度量,其假设,含义和适用性的可靠方法是沉思其公式。您知道,比较解剖学可以预测不同动物的生活和行为方式。另外,请阅读有关距离指标的书籍/文章。
ttnphns

2
Pedantic注释:Bray–Curtis不是距离而是相异之处。
Franck Dernoncourt 2013年

Answers:


13

不幸的是,在大多数情况下,您的问题没有明确的答案。也就是说,对于任何给定的应用程序,肯定会有许多距离度量标准,它们将产生相似且准确的答案。考虑到有效地使用了几十个(甚至数百个)有效距离度量,可以找到“正确”距离的想法并不是思考选择适当距离度量问题的有效方法。

相反,我将重点放在选择错误的距离度量上。您是否要让距离反映“绝对幅度”(例如,您有兴趣使用该距离来识别具有相似均值的股票),还是要反映响应的总体形状(例如,股价随时间波动类似,但原始值可能完全不同)?例如,前一种情况将指示诸如曼哈顿和欧几里得的距离,而后一种情况将指示相关距离。

如果您知道数据的协方差结构,那么马氏距离可能更合适。对于纯类别数据,存在许多建议的距离,例如匹配距离。对于混合的分类和连续的,高尔的距离很受欢迎(尽管我认为在理论上有些不满意)。

最后,在我看来,如果您证明您的结果和结论对距离度量的选择(当然是在适当距离的子集内)是可靠的,则您的分析将得到加强。如果您的分析随着使用的距离度量的细微变化而发生巨大变化,则应进行进一步研究以找出不一致的原因。


1
你是什么意思correlation distance?1 - [R
ttnphns 2013年

1
1rρ[1,1]cos1(ρ)1ρ22ρpractice

引用我的最后评论:Krzanowski(1983)。Biometrika,70(1),235--243。见236页
ahfoss

1
好,谢谢。还请检查此答案。可以得出这样一个事实,即r与在标准化数据(比较的配置文件)上获得的欧几里德距离完全相关,这reflect overall shape of the response就是您的话。
ttnphns

1
好帖子。如您所指出的,这两个指标确实相关。为了使您在当前讨论中的观点与背景相关,主要区别在于,在欧几里得距离变量中(通常)不是居中,而相关公式通过变量和标度将它们的标准偏差居中。因此,相关对于线性变换是不变的,而欧几里德距离不是必须的。
ahfoss

6

选择正确的距离不是一项基本任务。当我们要对数据集进行聚类分析时,使用不同的距离可能会出现不同的结果,因此务必谨慎选择选择的距离,因为我们可以制作出能够很好地捕获可变性的假制品,但实际上却没有解决我们的问题。

当我具有连续的数值变量并且我想反映绝对距离时,欧氏距离是合适的。该距离考虑了每个变量,并且不会消除冗余,因此,如果我有三个解释相同变量(相关)的变量,则将此效果加权三。而且,该距离不是比例不变的,因此通常我必须先进行比例缩放才能使用该距离。
生态学示例:我们在许多地方都有不同的观察结果,专家们从其中取样了一些微生物,物理和化学因素。我们想找到生态系统中的模式。这些因素具有高度相关性,但是我们知道每个人都相关,因此我们不想删除这些冗余。我们将欧几里德距离与缩放数据一起使用,以避免单位的影响。

马氏距离是合适的,当我有连续的数值变量,我想反映绝对距离,但是我们要消除冗余。如果我们重复变量,它们的重复作用将消失。

当我们想要强调变量之间的差异时,当我们想要区分轮廓时,Hellinger族,Species ProfileChord距离是合适的。这些距离以每个观测值的总量加权,以这种方式,即使在绝对大小上差异很大,各个个体之间的距离也会变小,个体更相似。小心!这些距离很好地反映了轮廓之间的差异,但失去了幅度效应。当我们有不同的样本量时,它们可能非常有用。
生态学示例:我们想研究许多土地的动物,我们有腹足纲动物清单的数据矩阵(行中的采样位置和列中的物种名称)。矩阵的特征是具有许多零和不同的大小,因为某些位置具有某些种类,而其他位置则具有其他种类。我们可以使用赫林格距离。

Bray-Curtis非常相似,但是当我们要区分轮廓并考虑相对幅度时,它更合适。


感谢您区分用例和示例。发现这对于将其应用于航空分类模型非常有帮助。
S3DEV

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.