是否有人使用或L .5度量进行聚类,而不是使用L 2?
Aggarwal等人,
关于距离度量在高维空间中的令人惊讶的行为,
他说(2001年)
对于高维数据挖掘应用, L 1始终比欧几里德距离度量 L 2更可取
并声称或L .1会更好。
使用或L .5的原因可能是理论上的或实验上的,例如对异常值/Kabán论文的敏感性,或基于真实或合成数据运行的程序(请复制)。一个例子或一张照片会帮助我的外行直觉。
这个问题是鲍勃·杜兰特(Bob Durrant)对“ 当下就是最近的邻居今天有意义”的回答的后续行动 。正如他所说,的选择既取决于数据又取决于应用程序。尽管如此,真实经验的报告还是有用的。
6月7日(星期二)添加的注释:
我偶然发现了“基于L1范数和相关方法的统计数据分析”,道奇(Dodge)编辑,2002年,454p,isbn 3764369205 —数十篇会议论文。
谁能分析iid指数特征的距离集中?指数的原因之一是 ; 另一个(非专家)是最大熵分布≥0;第三,某些真实数据集,尤其是SIFT,看起来大致呈指数形式。