最大平均差异(距离分布)


15

我有两个数据集(源数据和目标数据),它们遵循不同的分布。我正在使用MMD(这是一种非参数的距离分布)来计算源数据和目标数据之间的边际分布。

源数据,Xs

目标数据,Xt

适应矩阵A

*投影数据,Zs = A'* Xs和Zt = A'Xt

* MMD =>距离(P(Xs),P(Xt))= | 平均值(A'Xs)-平均值(A'Xt )|

这意味着:原始空间中源数据和目标数据之间的分布距离等于嵌入式空间中投影源数据和目标数据的均值之间的距离。

我对MMD的概念有疑问。

在MMD公式中,为什么可以通过计算潜在空间中的距离来测量原始空间中的分布距离?

谢谢


您实际上还没有问过一个问题:您只是告诉我们您感到困惑!
whuber

Answers:


44

稍微概述一下MMD可能会有所帮助。

通常,MMD通过将分布之间的距离表示为特征的平均嵌入之间的距离来定义。也就是说,假设我们有分布和在一组。MMD由特征图,其中是所谓的再生内核希尔伯特空间。通常,MMD为 PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

举一个例子,我们可能有和。在这种情况下: 因此该MMD只是两个分布的均值之间的距离。这样的匹配分布将匹配其均值,尽管它们的方差或其他方式可能不同。X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

您的情况略有不同:我们有和,其中,其中是矩阵。所以我们有 这个MMD是平均值的两个不同投影之间的差。如果或映射不可逆,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA 与前一个版本不同:它无法区分前一个版本的某些分布。

您还可以构造更远的距离。例如,如果并且您使用,则MMD变为,不仅可以区分均值不同的分布,还可以区分方差不同的分布。X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

而且,您可以得到比这更强大的功能:如果映射到一般的可复制内核Hilbert空间,则可以应用内核技巧来计算MMD,结果发现许多内核(包括高斯内核)都导致了MMD。当且仅当分布相同时为零。φ

具体来说,让,您会得到 ,您可以直接通过样本进行估算。k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


更新:这是名称中“最大”的来源。

特征映射映射到一个可复制的内核希尔伯特空间。这些是函数的空间,并且满足关键属性(称为再现属性):对于任何。φ:XHf,φ(x)H=f(x)fH

在最简单的示例中,与,我们将每个视为对应于某些的,乘以。然后,复制属性应该有意义。X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

在更复杂的环境中,例如高斯核,是一个复杂得多的函数,但是重现属性仍然成立。f

现在,我们可以给出MMD的替代特征: 第二行是希尔伯特空间中范数的一般事实:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g通过。第四点取决于称为Bochner可积性的技术条件,但确实适用于例如有限内核或具有有限支持的发行版。然后最后,我们使用再现属性。f=g/g

这最后一条线被称为“最大平均差异”的原因-它是单位球中两个测试之间的平均差的最大,过测试函数。fH


感谢您的解释,对我来说更清楚了;我仍然没有得到这个概念。在开始时,您曾说过:“ MMD是通过将分布之间的距离表示为要素的平均嵌入之间的距离来定义的。” 为什么这个想法成真?
Mahsa'5

“ MMD是通过将分布之间的距离表示为特征的平均嵌入之间的距离来定义的。” 为什么这个想法成真?与RKHS空间有关吗?
Mahsa'5

1
这只是一个定义:您可以通过比较分布的均值来比较它们。或者,您可以通过比较均值的某种转换来比较分布;或通过比较其均值和方差;或通过比较任何其他特征图(包括RKHS中的特征图)的均值。
Dougal

感谢您的答复; 我将阅读有关RKHS功能图的更多信息。我想知道为什么在RKHS特征图中用MMD定义距离?我的意思是,RKHS在MMD距离定义中有什么好处?
马萨斯(Mahsa)'17年

这里的解释集中于“平均差异”,而不是“最大平均差异”。有人能详细说明“最大化”部分吗?
江翔

5

这是我对MMD的解释。如果它们的矩相似,则两个分布相似。通过应用内核,我可以转换变量,以便计算所有时刻(第一,第二,第三等)。在潜在空间中,我可以计算矩之间的差并将其平均。这提供了数据集之间相似性/不相似性的度量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.