稍微概述一下MMD可能会有所帮助。
通常,MMD通过将分布之间的距离表示为特征的平均嵌入之间的距离来定义。也就是说,假设我们有分布和在一组。MMD由特征图,其中是所谓的再生内核希尔伯特空间。通常,MMD为
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
举一个例子,我们可能有和。在这种情况下:
因此该MMD只是两个分布的均值之间的距离。这样的匹配分布将匹配其均值,尽管它们的方差或其他方式可能不同。X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
您的情况略有不同:我们有和,其中,其中是矩阵。所以我们有
这个MMD是平均值的两个不同投影之间的差。如果或映射不可逆,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ 与前一个版本不同:它无法区分前一个版本的某些分布。
您还可以构造更远的距离。例如,如果并且您使用,则MMD变为,不仅可以区分均值不同的分布,还可以区分方差不同的分布。X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
而且,您可以得到比这更强大的功能:如果映射到一般的可复制内核Hilbert空间,则可以应用内核技巧来计算MMD,结果发现许多内核(包括高斯内核)都导致了MMD。当且仅当分布相同时为零。φ
具体来说,让,您会得到
,您可以直接通过样本进行估算。k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
更新:这是名称中“最大”的来源。
特征映射映射到一个可复制的内核希尔伯特空间。这些是函数的空间,并且满足关键属性(称为再现属性):对于任何。φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
在最简单的示例中,与,我们将每个视为对应于某些的,乘以。然后,复制属性应该有意义。X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
在更复杂的环境中,例如高斯核,是一个复杂得多的函数,但是重现属性仍然成立。f
现在,我们可以给出MMD的替代特征:
第二行是希尔伯特空间中范数的一般事实:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥通过。第四点取决于称为Bochner可积性的技术条件,但确实适用于例如有限内核或具有有限支持的发行版。然后最后,我们使用再现属性。f=g/∥g∥
这最后一条线被称为“最大平均差异”的原因-它是单位球中两个测试之间的平均差的最大,过测试函数。fH