的距离可以写成EMD(P,Q)=infE∥X−Y∥,其中,最小值是X和 Y的所有联合分布的总和Y与边缘人X∼P,Y∼Q。这也称为第一个 Wasserstein距离,它是Wp=inf(E∥X−Y∥p)1/p且具有相同的最小值。
令X∼P=N(μx,Σx),Y∼Q=N(μy,Σy)。
下界:由于詹森不等式,由于范数是凸的,
E∥X−Y∥≥∥E(X−Y)∥=∥μx−μy∥,
因此EMD始终为至少均值之间的距离(对于任何分布)。
基于W2:
再次由Jensen不等式
(E∥X−Y∥)2≤E∥X−Y∥2。因此W1≤W2。但是Dowson和Landau(1982)建立了
W2(P,Q)2=∥μx−μy∥2+tr(Σx+Σy−2(ΣxΣy)1/2),
给出EMD=W1。
更严格的上限:
考虑耦合
这是Knott和Smith(1984)派生的地图。,关于分布的最佳映射,《优化理论与应用学报》 43(1)pp作为的最佳映射;另请参阅此博客文章。请注意,和
XY∼N(μx,Σx)=μy+Σ−12x(Σ12xΣyΣ12x)12Σ−12xA(X−μx).
W2A=ATEYVarY=μy+A(EX−μx)=μy=AΣxAT=Σ−12x(Σ12xΣyΣ12x)12Σ−12xΣxΣ−12x(Σ12xΣyΣ12x)12Σ−12x=Σ−12x(Σ12xΣyΣ12x)Σ−12x=Σy,
因此耦合有效。
距离就是,现在
与
∥X−Y∥∥D∥D=X−Y=X−μy−A(X−μx)=(I−A)X−μy+Aμx,
EDVarD=μx−μy=(I−A)Σx(I−A)T=Σx+AΣxA−AΣx−ΣxA=Σx+Σy−Σ−12x(Σ12xΣyΣ12x)12Σ12x−Σ12x(Σ12xΣyΣ12x)12Σ−12x.
因此,的上限为。不幸的是,这种期望一个封闭的形式是令人惊讶的不愉快写下来一般多元法线:看到这个问题,以及这一个。W1(P,Q)E∥D∥
如果的方差最终球形(例如,,则的方差变为),前者问题给出了广义Laguerre多项式的答案。DΣx=σ2xIΣy=σ2yID(σx−σy)2I
通常,基于詹森不等式,我们有一个简单的上限,例如在第一个问题中得出:
E∥D∥(E∥D∥)2≤E∥D∥2=∥μx−μy∥2+tr(Σx+Σy−AΣx−ΣxA)=∥μx−μy∥2+tr(Σx)+tr(Σy)−2tr(Σ−12x(Σ12xΣyΣ12x)12Σ12x)=∥μx−μy∥2+tr(Σx)+tr(Σy)−2tr((Σ12xΣyΣ12x)12)=W2(P,Q)2.
最后的相等是因为矩阵和是相似的,因此它们具有相同的特征值,因此其平方根具有相同的迹线。ΣxΣyΣ12xΣyΣ12x=Σ−12x(ΣxΣy)Σ12x
只要不退化,这种严格,在大多数情况下,当。∥D∥Σx≠Σy
一个猜想:也许这个更接近的上限很紧。再说一遍,我在这里有一个很长的不同上限,我猜想是很严格的,实际上比宽松,所以也许您不应该太相信这个猜想。:)E∥D∥W2