统计数据的图形直观


12

这篇文章中,您可以阅读以下声明:

模型通常由有限维流形上的点表示。θ

迈克尔·K·默里和约翰·赖斯的《微分几何与统计》中这些概念以散文可读的方式进行了解释,甚至忽略了数学表达式。不幸的是,很少有插图。MathOverflow上的帖子也是如此

我想寻求视觉表示的帮助,以作为对主题进行更正式理解的地图或动机。

歧管上有什么要点?此在线查找中的引号似乎表明它可以是数据点,也可以是分布参数:

流形和信息几何的统计是差分几何满足统计的两种不同方式。在流形统计中,数据位于流形上,而在信息几何中,数据位于Rn,但是将感兴趣的概率密度函数的参数化族视为流形。这样的流形被称为统计流形。


我画这个图由切空间的这种解释的启发在这里

在此处输入图片说明

[ 编辑以反映以下有关的评论:C ]在流形,切线空间是与相关的点上所有可能的导数(“速度”)的集合。流经的流形上的所有可能曲线这可以看作是从每条曲线穿过一组映射即定义为组成,用表示曲线(从实线到歧管表面的函数(M)pM(ψ:RM)p.p,C(t)R,(fψ)(t)ψM)穿过点并在上图中以红色表示;和表示一个测试功能。“ iso- ”白色轮廓线映射到实线上的同一点,并围绕点。p,˚F pf,fp

等价(或施加到统计等价中的一个)进行了讨论这里,和将涉及以下引用

如果指数族的参数空间包含维开放集,则称其为满秩。s

不是满秩的指数族通常被称为弯曲指数族,因为通常参数空间是维度小于的曲线小号Rss.

这似乎使得对图的解释如下:分布参数(在这种情况下是指数分布族)位于流形上。在秩不足的非线性优化问题的情况下,的数据点将通过函数映射到流形上的一条线。这将与物理学中的速度计算并行:沿着“ iso-f”线的梯度寻找函数的导数(橙色的方向导数):函数将起到优化分布参数选择的作用,如曲线 ψ - [R中号 ˚F ˚F ψ '˚F 中号[R ψ ˚FRψ:RMf(fψ)(t).f:MRψ在歧管上沿轮廓线行进。f


背景添加的材料:

值得注意的是,我相信这些概念与ML中的非线性降维没有直接关系。它们看起来更类似于信息几何。这是一个报价:

重要的是,关于流形的统计与流形学习有很大的不同。后者是机器学习的一个分支,其目标是从值数据中学习潜在流形。通常,所需的潜在歧管的尺寸小于。潜在歧管可以是线性或非线性的,具体取决于所使用的特定方法。 ÑRnn


从统计流形上下面的信息与应用建模形状变形奥伦Freifeld

在此处输入图片说明

虽然通常是非线性的,但我们可以将由表示的切线空间关联到每个点。是向量空间,其维数与相同。的起源是 。如果嵌入在某个欧几里德空间中,我们可以将 视为一个仿射子空间,使得:1)它在处触摸;2)至少在局部,完全位于其一侧。TpM的元素称为切向量。Ť p 中号p 中号Ť p 中号中号Ť p 中号p 中号Ť p 中号中号p 中号MTpMpMTpMMTpMpMTpMMpM

在流形上,统计模型通常用切线空间表示。

[...]

[我们考虑两个]数据集由的点组成:M

DL={p1,,pNL}M ;

DS={q1,,qNS}M

令和代表两个可能未知的点。假设两个数据集满足以下统计规则:µLµSM

{logμL(p1),,logμL(pNL)}TμLM,logμL(pi)i.i.dN(0,ΣL) {logμS(q1),,logμS(qNS)}TμSM,logμS(qi)i.i.dN(0,ΣS)

[...]

换句话说,当在处(相对于)的切线空间(作为切线向量)表示时,可以看作是一组零协方差的iid样本。同样,当在处的切线空间中表示时,可以将其视为来自零均值高斯且具有协方差一组iid样本。这概括了欧几里得情形。DLMμLΣLDSμSΣS

在相同的参考文献中,我在网上找到了我所询问的有关该图形概念的最接近(且仅是实际上)的示例:

在此处输入图片说明

这是否表示数据位于以切线向量表示的流形表面上,并且参数将映射在笛卡尔平面上?


1
您想在这里做什么?抽出歧管?他们中的大多数太无聊了。例如,尝试使用高斯分布。
阿克萨卡(Aksakal)

我通常会将参数空间视为矢量空间,例如。如果要考虑参数“流形”,首先想到的是“约束系统”,例如。否则,为什么空间不“完整”?(定义“流形”的子集是什么?)θRnf(θ)=0
GeoMatt22 '16

2
希望,@ whuber可以跟进并详细说明他在聊天中发表的评论。
gung-恢复莫妮卡

1
您修改过的问题的简短答案是“否”。切线空间描述了歧管中所有平滑路径的速度。它在统计中的主要作用是使可能性最大化,其中流形描述了一个有限参数化的族。在“流形学习”中,流形用作数据的局部逼近-它是线性回归中“列空间”的弯曲形式。在那里,切线空间被嵌入到周围的欧几里德空间内。在本地,它描述了数据的“方向”,并且它的普通捆绑包给出了“错误”方向。
ub

1
是的:处的余切空间可以定义为周围的函数细菌的派生。处的切线空间(因此!)只是其对偶空间。 和通过上的坐标图获得拓扑-也就是说,接受两个切线空间和在“附近” 的概念。这将定义(以及可视化问题)为定义切线空间。这是始于的所有向量的。Spivak,在流形上的微积分中TpMpppTMTMTpMTqMMTxRnx,提供了此类的清晰基本定义。
ub

Answers:


3

可以将概率分布族分析为流形上具有与分布参数相对应的固有坐标的点。这样做的目的是避免使用错误的度量表示:单变量高斯可以作为欧几里德流形中的点绘制,如下图的右侧与所述平均值 -轴,并在在该SD轴线(在绘制的方差的情况下正半):(Θ)N(μ,σ2),R2xy

在此处输入图片说明

但是,单位矩阵(欧几里得距离)将无法测量各个的(不相似)程度:在上述图左侧的法线曲线上,给定域中的间隔,即使平均值保持固定,方差较小的高斯曲线的不重叠区域(深蓝色)也较大。实际上,对于统计流形“有意义”的唯一黎曼度量是Fisher信息度量pdf

Fisher信息距离:几何读数中,Costa SI,Santos SA和Strapasson JE利用高斯分布Fisher信息矩阵Beltrami-Pointcaré磁盘模型中的度量之间的相似性来得出封闭式。

双曲面的“北”锥变成非欧几里德流形,其中每个点对应于均值和标准差(参数空间),并且两者之间的最短距离例如和是一条测地曲线,作为双抛物线投影(赤道图)在赤道平面上,并且可以通过度量张量来测量之间的距离 - Fisher信息度量x2+y2x2=1pdfs,PQ,pdfsgμν(Θ)eμeν

D(P(x;θ1),Q(x;θ2))=minθ(t)|θ(0)=θ1,θ(1)=θ201(dθdt)I(θ)dθdtdt

I(θ)=1σ2[1002]

在此处输入图片说明

相对熵是密切相关的,虽然缺乏几何形状和相关指标。

有趣的是,可以将Fisher信息矩阵解释为Shannon熵的Hessian :

gij(θ)=E[2logp(x;θ)θiθj]=2H(p)θiθj

H(p)=p(x;θ)logp(x;θ)dx.

该示例在概念上与更常见的立体地球图相似。

此处未解决ML多维嵌入或流形学习。


1

将概率链接到几何的方法不止一种。我确定您听说过椭圆分布(例如高斯分布)。该术语本身暗含几何关系,绘制协方差矩阵时很明显。使用歧管,它只是将每个可能的参数值放置在坐标系中。例如,高斯流形将在两个维度上:。您可以具有任何值,但只能有正方差。因此,高斯流形将是整个空间的一半。没那么有趣μ,σ2μRσ2>0R2


我想我以为“歧管”的尺寸应该小于其嵌入空间的尺寸?所以半个空格不算?
GeoMatt22

对高斯来说,它甚至不是多方面的,对。您需要约束,所以它变成某种平面或直线
Aksakal

我想了解你的答案的含义......你的意思是“ 一个几何链接”?另外,我刚刚在MathOverflow上找到了这篇相关文章
2016年

3
像Fisher-Rao这样的合适度量会变得更加有趣...,然后成为Poincare双曲半位en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model
mic

2
所有人:(1)描述参数族的流形是内在流形:它们不需要嵌入任何向量空间中。(2)它们不仅仅是可微的流形:Fisher信息赋予它们黎曼度量(局部距离),使它们能够进行几何学研究。这使“整个空间的一半”变成曲面。R2
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.