我不是社区生态学家,但是这些天我正在研究社区生态数据。
除了这些距离的数学运算之外,我无法理解的是每种距离的使用标准以及在何种情况下可以使用该距离。例如,对计数数据使用什么?如何将两个位置之间的倾斜角度转换为距离?还是两个地点的温度或降雨?每个距离的假设是什么,什么时候有意义?
我不是社区生态学家,但是这些天我正在研究社区生态数据。
除了这些距离的数学运算之外,我无法理解的是每种距离的使用标准以及在何种情况下可以使用该距离。例如,对计数数据使用什么?如何将两个位置之间的倾斜角度转换为距离?还是两个地点的温度或降雨?每个距离的假设是什么,什么时候有意义?
Answers:
不幸的是,在大多数情况下,您的问题没有明确的答案。也就是说,对于任何给定的应用程序,肯定会有许多距离度量标准,它们将产生相似且准确的答案。考虑到有效地使用了几十个(甚至数百个)有效距离度量,可以找到“正确”距离的想法并不是思考选择适当距离度量问题的有效方法。
相反,我将重点放在不选择错误的距离度量上。您是否要让距离反映“绝对幅度”(例如,您有兴趣使用该距离来识别具有相似均值的股票),还是要反映响应的总体形状(例如,股价随时间波动类似,但原始值可能完全不同)?例如,前一种情况将指示诸如曼哈顿和欧几里得的距离,而后一种情况将指示相关距离。
如果您知道数据的协方差结构,那么马氏距离可能更合适。对于纯类别数据,存在许多建议的距离,例如匹配距离。对于混合的分类和连续的,高尔的距离很受欢迎(尽管我认为在理论上有些不满意)。
最后,在我看来,如果您证明您的结果和结论对距离度量的选择(当然是在适当距离的子集内)是可靠的,则您的分析将得到加强。如果您的分析随着使用的距离度量的细微变化而发生巨大变化,则应进行进一步研究以找出不一致的原因。
correlation distance
?1 - [R?
选择正确的距离不是一项基本任务。当我们要对数据集进行聚类分析时,使用不同的距离可能会出现不同的结果,因此务必谨慎选择选择的距离,因为我们可以制作出能够很好地捕获可变性的假制品,但实际上却没有解决我们的问题。
当我具有连续的数值变量并且我想反映绝对距离时,欧氏距离是合适的。该距离考虑了每个变量,并且不会消除冗余,因此,如果我有三个解释相同变量(相关)的变量,则将此效果加权三。而且,该距离不是比例不变的,因此通常我必须先进行比例缩放才能使用该距离。
生态学示例:我们在许多地方都有不同的观察结果,专家们从其中取样了一些微生物,物理和化学因素。我们想找到生态系统中的模式。这些因素具有高度相关性,但是我们知道每个人都相关,因此我们不想删除这些冗余。我们将欧几里德距离与缩放数据一起使用,以避免单位的影响。
该马氏距离是合适的,当我有连续的数值变量,我想反映绝对距离,但是我们要消除冗余。如果我们重复变量,它们的重复作用将消失。
当我们想要强调变量之间的差异时,当我们想要区分轮廓时,Hellinger族,Species Profile和Chord距离是合适的。这些距离以每个观测值的总量加权,以这种方式,即使在绝对大小上差异很大,各个个体之间的距离也会变小,个体更相似。小心!这些距离很好地反映了轮廓之间的差异,但失去了幅度效应。当我们有不同的样本量时,它们可能非常有用。
生态学示例:我们想研究许多土地的动物,我们有腹足纲动物清单的数据矩阵(行中的采样位置和列中的物种名称)。矩阵的特征是具有许多零和不同的大小,因为某些位置具有某些种类,而其他位置则具有其他种类。我们可以使用赫林格距离。
Bray-Curtis非常相似,但是当我们要区分轮廓并考虑相对幅度时,它更合适。
关于曼哈顿的距离:考夫曼,伦纳德和彼得·鲁西约(Peter J. Rousseeuw)。“在数据中查找组:聚类分析简介。” (2005)。
建议在以下情况下使用曼哈顿距离:例如,第一个变量的差为1,第二个变量的差为3,第一个变量的差为2,第二个变量的差为2。