L2距离,如user39665的注释中所建议。这是:
请注意,例如在矩阵食谱的 8.1.8节中看到的:
因此可以在时间轻松评估。L2(P,Q)2=∫(p(x)−q(x))2dx=∫(∑iαipi(x)−∑jβjqj(x))2dx=∑i,i′αiαi′∫pi(x)pi′(x)dx+∑j,j′βjβj′∫qj(x)qj′(x)dx−2∑i,jαiβj∫pi(x)qj(x)dx.
∫ Ñ(X ; μ ,Σ )Ñ(X ; μ ',Σ ')∫N(x;μ,Σ)N(x;μ′,Σ′)dx=N(μ;μ′,Σ+Σ′)
O(mn)
高斯RBF内核的最大平均差异(MMD)。这是一个很酷的距离,在统计界尚不为人所知,它需要一些数学来定义。
令
将希尔伯特空间为对应于的再生内核希尔伯特空间:。k(x,y):=exp(−12σ2∥x−y∥2),
Hkk(x,y)=⟨φ(x),φ(y)⟩H
将平均映射内核定义为
K(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
MMD然后
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
对于我们的混合物和,请注意
,类似地,对于和。PQK(P,Q)=∑i,jαiβjK(Pi,Qj)
K(P,P)K(Q,Q)
事实证明,使用与类似的技巧,为
L2K(N(μ,Σ),N(μ′,Σ′))(2πσ2)d/2N(μ;μ′,Σ+Σ′+σ2I).
随着,显然这收敛到距离的倍数。但是,通常您希望使用不同的,一个代表数据变化的规模。σ→0L2σ
MMD中的多项式内核也可以使用封闭形式。看到k
Muandet,Fukumizu,Dinuzzo和Schölkopf(2012)。通过支持测量机从分发中学习。《神经信息处理系统进展》(正式版)。arXiv:1202.6504。
有关此距离的许多不错的属性,请参见
Sriperumbudur,Gretton,Fukumizu,Schölkopf和Lanckriet(2010)。希尔伯特空间嵌入和概率测度度量。机器学习研究杂志,11,1517–1561。arXiv:0907.5309。