从底部到顶部解释马氏距离?


127

我正在研究模式识别和统计,几乎每本书我都涉及马哈拉诺比斯距离的概念。这些书给出了一些直观的解释,但仍然不足以让我真正真正了解正在发生的事情。如果有人问我“马氏距离是多少?” 我只能回答:“这是一件好事,它可以测量某种距离” :)

这些定义通常还包含特征向量和特征值,与马氏距离之间的连接有点麻烦。我了解特征向量和特征值的定义,但是它们与马氏距离有何关系?它与更改线性代数等的基数有关吗?

我还阅读了有关该主题的以下先前问题:

我也读过这个解释

答案是好的,画面不错,但我仍然没有真正得到它。我有一个想法,但它仍然在黑暗中。有人可以给出“您将如何向您的祖母解释”的解释,以便我最终将其总结起来,而再也不会怀疑马哈拉诺比斯距离是多少?:)它来自哪里,为什么?

更新:

以下是有助于理解Mahalanobis公式的内容:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-椭球

Answers:


188

这是一些多元数据的散点图(二维):

在此处输入图片说明

如果不使用轴,我们能做什么呢?

在此处输入图片说明

介绍数据本身建议的坐标。

起源将是在点的质心(其平均的点)。第一个坐标轴(下图中的蓝色)将沿着点的“脊线”延伸,(按定义)该点是方差最大的任何方向。的第二坐标轴(红色在图中)将垂直地延伸的第一个。(在两个以上的维度中,将在方差尽可能大的垂直方向上进行选择,依此类推。)

在此处输入图片说明

我们需要一个规模。沿每个轴的标准偏差将很好地建立沿轴的单位。请记住68-95-99.7的规则:大约三分之二(68%)的点应在原点的一个单位内(沿轴);大约95%应该在两个单位内。这样可以很容易地对正确的单位进行观察。作为参考,该图包括以下单位的单位圆:

在此处输入图片说明

那看起来真的不像圆圈吗?这是因为该图片失真了(两个轴上数字之间的间距证明了这一点)。让我们以正确的方向(从左到右,从下到上)的轴并使用单位长宽比重绘它,以便水平的一个单位实际上等于垂直的一个单位:

在此处输入图片说明

您在此图片而非原始图片中测量了马氏距离。

这里发生了什么? 我们让数据告诉我们如何构建用于在散点图中进行测量的坐标系。 仅此而已。尽管沿途有几个选择(我们总是可以使一个或两个轴都反转;在极少数情况下,沿着“脊柱”的方向(主要方向)并不是唯一的),但它们并不会改变距离在最后的情节中。


技术评论

(不是奶奶,奶奶可能在数字再次出现时就开始失去兴趣,而是要解决剩下的问题。)

  • 沿着新轴的单位向量是特征向量(协方差矩阵或其逆矩阵)。

  • 我们注意到,使椭圆不发生扭曲以形成一个圆,会将沿每个特征向量的距离除以标准偏差:协方差的平方根。令代表协方差函数,两点和之间的新(马哈拉诺比斯)距离是到的距离除以平方根。现在将相应的代数运算写为,以为矩阵表示形式,和为矢量表示形式。这有效X ÿ X ý Ç X - Ý X - ÿ ç X ÿ CxyxyC(xy,xy)Cxy(xy)C1(xy)无论使用什么基础表示向量和矩阵。 特别是,这是原始坐标中马氏距离的正确公式

  • 在最后一步中轴扩展的量是逆协方差矩阵的特征值(的平方根)。等效地,轴被协方差矩阵的特征值(的根)收缩。因此,散射越多,将椭圆转换成圆形所需的收缩就越大。

  • 尽管此过程始终适用于任何数据集,但对于近似多元法线的数据而言,它看起来很不错(经典的橄榄球状云)。在其他情况下,平均点可能无法很好地表示数据中心,否则将无法使用方差作为散布程度来准确识别“脊柱”(数据的总体趋势)。

  • 坐标原点的移动,轴的旋转和扩展共同形成仿射变换。 除了最初的偏移之外,这是从原始偏移(使用指向正坐标方向的单位向量)到新偏移(使用单位特征向量的选择)的基础变化。

  • 主成分分析(PCA)紧密相关。仅此一点就可以解释“问题从何而来”和“为什么”的问题-如果您还不相信让数据确定用于描述和测量其坐标的坐标的优美性和实用性,您将大为受益差异。

  • 对于多变量正态分布(其中我们可以进行用概率密度,而不是点云的类似属性的属性相同的结构),马氏距离(到新的原点)出现代替“的 ”中的表达表示标准正态分布的概率密度。因此,在新坐标中,多元正态分布看起来像标准正态exp 1xexp(12x2)当投影到原点的任何线上时。特别是,在每个新坐标中它都是标准法线。从这个角度来看,多元正态分布彼此之间唯一的实质意义在于它们使用的维数。(请注意,此尺寸数量可能会且有时小于标称尺寸。)


3
如果有人好奇,仿射变换就是“是保持直线...以及直线上的点之间的距离之比的变换”。(@whuber,我不知道您是否要在项目符号中添加这样的内容。)
gung

@gung我提到仿射变换后,立即对其进行了刻画:翻译和基础变更。我选择这种语言是因为它与问题中使用的语言相同。(我们必须在某种程度上宽松地采取“基础变更”以包含不可逆的线性变换:这对于PCA来说是重要的问题,它有效地删除了一些基础要素。)
笨蛋

13
@whuber,您的解释可能是我见过的最好的解释。通常,在对此进行解释时,当他们提到椭球和球体时,会非常抽象地覆盖它们,而它们却无法显示其含义。演示轴转换如何将数据分布转换为“球形”,从而使距离可以从数据均值中看成数据的sd的倍数,这一点很荣幸,就像一维的情况一样数据。我认为这种可视化是关键,不幸的是,在该主题的大多数讨论中都忽略了这种可视化。干得好---您的专家

是否有强大的PCA?当查看协方差矩阵的大小时,是否允许我们丢弃异常数据点?
EngrStudent 2014年

@肯定:对协方差矩阵的任何鲁棒估计都会导致鲁棒的PCA。存在其他直接方法,如在回答有关鲁棒PCA的问题时所引用的那样。
ub

37

我奶奶做饭 你的也可能。烹饪是教授统计学的一种好方法。

南瓜哈瓦那人饼干很棒!想一想圣诞点心中肉桂姜的味道如何,然后意识到它们本身有多热。

成分是:

  • 哈瓦那辣椒(10,去籽切碎)
  • 糖(1.5杯)
  • 黄油(1杯)
  • 香草精(1茶匙)
  • 鸡蛋(2个中等)
  • 面粉(2.75杯)
  • 小苏打(1茶匙)
  • 盐(1茶匙)

想象一下您的域的坐标轴是成分量。糖。面粉。盐。小苏打。在其他所有条件相同的情况下,沿着这些方向的变化几乎不会对风味品质产生任何影响,因为哈瓦那辣椒的数量会发生变化。面粉或黄油的含量变化10%会使面粉或黄油的含量降低,但不是杀手。仅添加少量的哈瓦那人,就会使您大吃一惊,从上瘾的甜点到基于睾丸激素的疼痛竞赛。

马哈拉诺比斯在“成分量”上的距离远不及与“最佳口味”的距离。对变化非常敏感的真正“有效”成分是您必须最谨慎地控制的那些。

如果您考虑任何高斯分布与标准正态分布,有什么区别?基于中心趋势(平均值)和变化趋势(标准偏差)的中心和比例。一种是另一种的坐标变换。Mahalanobis就是这种转变。它显示了如果将您的兴趣分布重新设定为标准正态而非高斯分布,世界将会是什么样。


4
高斯分布正态分布,那么您要在最后一段中做出什么区分?
ub

1
@Whuber-标准。我的意思是标准。以为我说了。应该检查编辑历史。接下来的句子重复了主要思想。
EngrStudent 2013年

2
你的“的意思是什么,然后高斯分布”?
ub

1
更好?它可以是具有任何均值和方差的高斯分布-但变换是通过减去均值并按标准偏差缩放来映射到标准正态。
EngrStudent 2013年

4
是的,现在更清楚了。我很困惑,为什么您使用两个术语(高斯和正常)来指代同一件事,但是既然您已经解释了它就可以了。我对您的最后一个说法也有些困惑,这似乎是说每个多元分布都可以变成标准的正态分布(根据您链接到的定义是单变量的):我认为您的意思是可以使其看起来是标准的每个组件均正常 无论如何,您开始时的类比是很好的。
ub

10

为起点,便见马哈拉诺比斯距离作为通常的欧几里德距离的一个合适的变形向量之间和在。这里额外的信息是和实际上是随机向量,即随机变量向量的2种不同实现,这是我们讨论的背景。Mahalanobis试图解决的问题如下: Xý ř Ñ XÿXd(x,y)=x,yxyRnxyX

“ 知道它们是相同的多元随机变量的实现,如何测量和之间的“差异” ?” ÿxy

显然,任何实现与自身的相异度应等于0;此外,相异性应该是实现的对称函数,并且应该反映出背景中随机过程的存在。通过引入多元随机变量的协方差矩阵来考虑最后一个方面。çxC

收集以上想法,我们很自然地得出

D(x,y)=(xy)C1(xy)

如果多元随机变量的分量不相关,例如与 (我们将 “归一化” 以获得),则马氏距离与之间的欧几里得距离。在存在非平凡的相关性的情况下,(估计的)相关性矩阵使“欧几里得距离”变形。XiX=(X1,,Xn)Cij=δijXiVar(Xi)=1D(x,y) xyC(x,y)


9

让我们考虑两个变量的情况。看到这张二元正态图(感谢@whuber),您不能简单地说AB大于AC。存在正协方差;这两个变量彼此相关。

仅当变量为

  1. 独立
  2. 方差等于1。

本质上,马氏距离测量执行以下操作:将变量转换为方差等于1的不相关变量,然后计算简单的欧几里得距离。


1
您是否建议我每次看到图中的相关性(如您的答案所示)时,都应该只考虑计算马氏距离而不是欧氏距离?什么会告诉我什么时候使用哪个?
sandyp

7

我将尽力向您解释:

马氏距离测量点x与数据分布之间的距离。数据分布以均值和协方差矩阵为特征,因此被假设为多元高斯模型。

它在模式识别中用作模式(课程的训练示例的数据分布)和测试示例之间的相似性度量。协方差矩阵给出了数据如何在特征空间中分布的形状。

该图表示三个不同的类别,红线表示每个类别的相同马氏距离。 位于红线上的所有点到类均值的距离都相同,因为使用了协方差矩阵。

该图表示三个不同的类别,红线表示每个类别的相同马氏距离。位于红线上的所有点到类均值的距离都相同,因为使用了协方差矩阵。

关键特征是使用协方差作为归一化因子。


6

我想在Whuber的出色答案中添加一些技术信息。这些信息可能不会让奶奶感兴趣,但是也许她的孙子会觉得有用。以下是相关线性代数的自下而上的说明。

马氏距离定义为,其中是一些数据的协方差矩阵的估计值;这意味着它是对称的。如果用于估计的列不是线性相关的,则为正定。对称矩阵是对角线化的,它们的特征值和特征向量是实数。PD矩阵的特征值均为正。特征向量可以选择为具有单位长度,并且是正交的(即正交),因此我们可以写和。将其插入距离定义中,d(x,y)=(xy)TΣ1(xy)ΣΣΣΣ=QTDQΣ1=QD12D12QTd(x,y)=[(xy)TQ]D12D12[QT(xy)]=zTz。显然,方括号中的乘积是转置的,乘以的效果是将向量旋转为正交基。最后,对角线是对角线,它是通过将对角线上的每个元素取反然后取平方根而形成的,从而重新缩放每个矢量的每个元素。实际上,恰好是正交空间中每个特征的反标准偏差(即Q(xy)D12D12D1精度矩阵,并且由于数据是基于正交的,因此矩阵是对角线的)。效果是通过“展平”其轴将Whuber称为旋转椭圆的形状转换为一个圆。显然,以平方单位测量,因此取平方根可将距离返回原始单位。zTz


5

我可能回答这个问题有点晚了。本文在这里是一个良好的开端认识马氏距离。他们提供了带有数值的完整示例。我喜欢它的是问题的几何表示形式。


4

只是为了补充上面的出色解释,马哈拉诺比斯距离自然是在(多元)线性回归中产生的。这是在其他答案中讨论的马氏距离与高斯分布之间的某些联系的简单结果,但无论如何我认为还是值得阐明的。

假设我们有一些数据,其中和。假设存在一个参数向量和一个参数矩阵这样,其中是iid维高斯随机矢量,均值和协方差(且它们独立于)。则给定是具有均值的高斯(x1,y1),,(xN,yN)xiRnyiRmβ0Rmβ1Rm×nyi=β0+β1xi+ϵiϵ1,,ϵNm0X ÿ X β 0 + β 1 X ÇCxiyixiβ0+β1xi和协方差。C

因此,给定(作为的函数)的的负对数似然由 我们将协方差设为常数,因此 其中 是之间的马氏距离yixiβ=(β0,β1)

logp(yixi;β)=m2log(2πdetC)+12(yi(β0+β1xi))C1(yi(β0+βxi)).
C
argminβ[logp(yixi;β)]=argminβDC(β0+β1xi,yi),
DC(y^,y)=(yy^)C1(yy^)
y^,yRm

由独立,对数似然的给定的由总和 因此, 其中因子不影响精氨酸。logp(yx;β)y=(y1,,yN)x=(x1,,xN)

logp(yx;β)=i=1Nlogp(yixi;β)
argminβ[logp(yx;β)]=argminβ1Ni=1NDC(β0+β1xi,yi),
1/N

总之,使观测数据的负对数似然性最小化(即,使似然性最大化)的系数也使具有马哈拉诺比斯距离给出的损失函数的数据的经验风险最小化。β0,β1


1
好吧,不完全是。对应于术语会改变很多事情。而且您似乎集中在另一个维度上:Mahalanobis距离实际上在列所跨越的维空间中起着更为重要的作用,因为这与杠杆相关。但是,由于和在符号中的作用相反,读者可能会对此感到困惑:是参数向量,而是设计矩阵!logdetCnxβxβ
ub

我的意图是在这里表示一个标记的训练示例(因此这里没有设计矩阵);是向量的原因是我正在进行多元回归(否则,噪声项将是单变量高斯分布,将没有协方差矩阵,并且该示例似乎太琐碎了)。也许我的记法不是标准的,因为我的背景不是统计学的。关于术语的存在,我的意思是。(x,y)yϵlogdetCargminβ[logp(yx;β)]=argminβ(yβx)C1(yβx)
本CW

重要的是要解释符号所指的内容,而不是要求读者猜测。您的解释很可能是一个很好的解释,但是如果没有这种解释(您已从最新评论开始),我怀疑大多数读者将难以理解您的意思。
whuber

2
我明白你的意思。我已经编辑了原始答案,以便将一些想法纳入这些评论。
本CW

2

马氏距离是考虑数据协方差的欧氏距离(自然距离)。它给噪声分量更大的权重,因此对于检查两个数据集之间的相似性非常有用。

正如您在此处的示例中所见,当变量相关时,分布转移到一个方向。您可能要删除此效果。如果您在距离上考虑到相关性,则可以消除偏移效果。


2
我相信马氏距离有效downweights大方差的方向,而不是让“大”砝码那里。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.