14

是否有人使用L .5度量进行聚类,而不是使用L 2? Aggarwal等人, 关于距离度量在高维空间中的令人惊讶的行为, 他说(2001年)大号1个大号.5大号2

对于高维数据挖掘应用, L 1始终比欧几里德距离度量 L 2更可取 大号1个大号2

并声称L .1会更好。大号.5大号.1

使用L .5的原因可能是理论上的或实验上的,例如对异常值/Kabán论文的敏感性,或基于真实或合成数据运行的程序(请复制)。一个例子或一张照片会帮助我的外行直觉。大号1个大号.5

这个问题是鲍勃·杜兰特(Bob Durrant)对“ 当下就是最近的邻居今天有意义”的回答的后续行动 。正如他所说,的选择既取决于数据又取决于应用程序。尽管如此,真实经验的报告还是有用的。p


6月7日(星期二)添加的注释:

我偶然发现了“基于L1范数和相关方法的统计数据分析”,道奇(Dodge)编辑,2002年,454p,isbn 3764369205 —数十篇会议论文。

谁能分析iid指数特征的距离集中?指数的原因之一是 ; 另一个(非专家)是最大熵分布≥0;第三,某些真实数据集,尤其是SIFT,看起来大致呈指数形式。|ËXp-ËXp|ËXp


重要的是要提到Aggarwal等。在那篇特别的文章中,它在聚类,最近邻居和索引等问题中寻找规范的行为。Lp
deps_stats 2011年

您可能是针对序列使用度量而不是针对函数使用L p?我认为,如果有任何优化标准,就可以解决该问题。经验法则通常与此类问题的确切解决方案有关。无论如何,请尝试考虑knn解决方案的属性是首选。在阅读文章之后,可能还会讲更多有关该主题的内容。lpLp
Dmitrij Celov 2011年

@deps_stats,是的,谢谢;更改了标题和第一行。@ Dmitrij,1)是的,严格地说,小l是正确的,但是大l是常见且可以理解的。2)是的,您可以找到给定问题的最优p,但是您的首选是什么,为什么呢?
denis

Answers:


6

这里的关键是理解本文引用的“维数的诅咒”。来自维基百科:当维数非常大时,

几乎所有的高维空间都离中心“很远”,或者换句话说,高维单位空间可以说几乎完全由超立方体的“角”组成,几乎没有“中间”

结果,开始考虑哪些点与哪些其他点接近变得很棘手,因为它们之间的距离或多或少都相等。这是您链接到的第一篇论文中的问题。

高p的问题在于它强调更大的值-五平方和四平方相隔9个单位,但一个平方和两个平方相距仅三个单位。因此,较大的尺寸(拐角处的东西)支配了一切,而您却失去了对比度。因此,要避免这种长距离充气。使用小数p时,重点是较小尺寸上的差异-实际具有中间值的尺寸-会给您带来更大的对比度。


(+1)那么@David,通常有一个描述对比度质量的标准吗?
Dmitrij Celov 2011年

好像您链接的第一篇论文建议最大距离减去最小距离。不过,可能会有更好的方法。
David J. Harris

良好的直觉,+ 1(尽管不清楚距离分布中的角在哪里)。您是否在真实数据上使用了L .5L1L.5
denis

1
@Denis谢谢!我认为,如果数据在几乎所有维度或所有维度上都受限制,则角落部分最有意义。无论如何,恐怕我没有足够的集群经验,无法对您了解不同的指标。令人讨厌的是,最好的方法可能是尝试一些然后看看会发生什么
David J. Harris

1

有一篇使用Lp度量值且p在1到5之间的论文,您不妨看一下:

Amorim,RC和Mirkin,B.,Minkowski Metric,K-Means聚类中的特征加权和异常聚类初始化,模式识别,第一卷。45(3),第1061-1075页,2012年

下载, https ://www.researchgate.net/publication/232282003_Author's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf


0

我不知道你的是否是推理问题。如果问题是推断从载体的在某些约束下(这应该限定封闭凸集)当现有的猜测说ü给出然后将载体通过最小化推断2从-distance ù在约束集(如果现有ü不只是其通过最小化再给予2范数)。在本文中,上述原则被证明是在某些情况下正确的做法。http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385Rnu2uu2


L2L1L.5
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.