我最近注意到,很多人都在开发许多方法的张量等效项(张量分解,张量内核,用于主题建模的张量等),我想知道,为什么世界突然对张量着迷?最近是否有特别令人惊讶的论文/标准结果带来了这一结果?在计算上比以前怀疑的便宜很多吗?
我不是一个傻瓜,我很感兴趣,并且如果有关于这方面的文章的指针,我很想阅读。
我最近注意到,很多人都在开发许多方法的张量等效项(张量分解,张量内核,用于主题建模的张量等),我想知道,为什么世界突然对张量着迷?最近是否有特别令人惊讶的论文/标准结果带来了这一结果?在计算上比以前怀疑的便宜很多吗?
我不是一个傻瓜,我很感兴趣,并且如果有关于这方面的文章的指针,我很想阅读。
Answers:
张量通常会提供更自然的数据表示形式,例如考虑视频,它由时间上明显相关的图像组成。您可以将其转换为矩阵,但这不是自然的或直观的(对视频的某些矩阵表示进行因子分解意味着什么?)。
张量趋向于以下几个原因:
我认为您的问题应该与一个与问题本身一样自由流动和开放的答案相匹配。因此,这是我的两个类比。
首先,除非您是纯粹的数学家,否则可能首先会教您单变量概率和统计学。例如,您的第一个OLS示例很可能在这样的模型上:
最可能的是,您通过实际最小平方和最小化得出了估算值:
然后为参数编写FOC并获得解决方案:
然后,您被告知,使用矢量(矩阵)表示法可以更轻松地实现此目的:
并且TTS变为:
FOC为:
解决方案是
如果您擅长线性代数,那么一旦学习了它,便会坚持使用第二种方法,因为它实际上比写下第一种方法中的所有和更容易,尤其是一旦您进入多元统计时。
因此,我的类比是从矩阵移到张量类似于从矢量移到矩阵:如果您知道张量,则某些事情看起来会更容易。
第二,张量来自哪里?我不确定这件事的全部历史,但是我是从理论力学中学到的。当然,我们有一门关于张量的课程,但是我不明白在该数学课程中所有这些花哨的交换指数方法有什么用。在研究张力的情况下,这一切都变得有意义。
因此,在物理学中,它们也以定义为每单位面积力的简单压力示例开始,因此:
这意味着您可以通过将压力(标量)乘以面积单位来计算力矢量(法向矢量)。那就是当我们只有一个无限的平面时。在这种情况下,只有一个垂直力。一个大气球将是一个很好的例子。
但是,如果您正在研究材料内部的张力,则需要处理所有可能的方向和表面。在这种情况下,您将在任意给定的表面上向各个方向拉动或推动力,而不仅仅是垂直方向。一些表面被切向力“向侧面”撕裂等。因此,您的方程变为:
力仍然是向量,并且表面积仍然由其法线向量,但是是张量现在,不是标量。
好吧,标量和向量也是张量:)
张量自然出现的另一个地方是协方差或相关矩阵。试想一下:如何将一次相关矩阵转换为另一个?您意识到我们不能只这样做:
其中是因为我们需要保持所有正半定数。
因此,我们必须找到路径,使,其中 对矩阵的干扰很小。有很多不同的路径,我们可以搜索最短的路径。这就是我们进入黎曼几何,流形和张量的方式。
更新:什么是张量?
@amoeba和其他人对张量的含义以及它是否与数组相同进行了热烈的讨论。因此,我认为一个例子是有条理的。
说,我们去集市买杂货,有两个商人花花公子和。我们注意到,如果我们付出美元和美元 然后远销美国苹果磅,远销美国橘子。例如,如果我们同时支付1美元,即,那么我们必须得到1磅苹果和1.5磅橙子。
我们可以用矩阵的形式表达这种关系:
2 -1
-0.5 2
然后,如果我们付给他们美元,那么商人就生产出这么多的苹果和橘子:
这与通过矢量乘法的矩阵完全一样。
现在,让我们声明与其使用这些商人的消费捆绑,而不是分别从这些商人那里购买商品。我们要么同时支付0.71美元,要么我们支付 0.71美元,并要求返还0.71美元。像最初的情况一样,我们去集市,将花费在束1上,将花费在束2上。
因此,让我们看一个示例,其中我们仅在束1上花费 2。在这种情况下,第一个商人获得美元,第二个商人获得相同的。因此,我们必须获得与上述示例中相同数量的产品,不是吗?
也许吧,也许不是。您注意到矩阵不是对角线的。这表明出于某种原因,一个商人对其产品收取多少费用还取决于我们向另一商人支付了多少费用。他们必须知道可能是通过谣言付给他们多少钱?在这种情况下,如果我们开始成捆购买,他们肯定会知道我们为每个捆绑包支付了多少,因为我们将捆绑包声明给了集市。在这种情况下,我们如何知道矩阵应保持不变?
也许有了我们在市场上付款的全部信息,定价公式也会改变!这将改变我们的矩阵,并且无法说出精确度。
这是我们输入张量的地方。本质上,我们使用张量说,当我们开始成捆交易而不是直接与每个商人交易时,计算不会改变。这就是约束,它将对施加变换规则,我们将其称为张量。
特别地,我们可能注意到我们有一个正交基,其中表示向商户支付1美元,而向商户支付美元。我们可能还会注意到,这些束还形成正交基,这也是将第一基简单逆时针旋转45度。这也是第一个基础的PC分解。因此,我们说切换到束是简单的坐标更改,并且不应更改计算。注意,这是我们强加给模型的外部约束。它不是来自矩阵的纯数学属性。
现在,我们的购物可以表示为向量。向量也是张量,顺便说一句。张量很有趣:它可以表示为,而杂货则表示为。对于杂货,表示来自商人的产品磅,而不是所支付的美元。
现在,当我们将坐标更改为束时,张量方程保持不变:
很好,但是支付向量现在位于不同的基础上:,而我们可以在旧的基础上保持生产向量。张量也变化:。很容易得出张量必须如何转换,这将是,其中旋转矩阵定义为。在我们的例子中,它是束的系数。
我们可以计算出张量变换的公式,它们将产生与和的示例相同的结果。
So, let's look at an example where we spend just z1=1.42 on bundle 1. In this case, the first merchant gets x1=1 dollars, and the second merchant gets the same x2=1.
先前您说的第一束就是我们pay both 0.71 dollars
。因此,在第一个捆绑包上花费1.42应该每个获得0.71,而不是1,不是吗?
这不是您问题的答案,而是对不同人在此处提出的问题的扩展评论,即:机器学习“张量”与数学中的张量是否相同?
现在,根据Cichoki 2014年的《大数据处理时代:通过Tensor网络和Tensor分解的新方法》和Cichoki等人的文章。2014年,用于信号处理应用的Tensor分解,
高阶张量可以解释为多路数组,[...]
张量可以被认为是一个多索引数值数组,[...]
张量(即多路阵列)[...]
因此,在机器学习/数据处理中,张量似乎被简单地定义为多维数值数组。这种3D张量的示例是大小的视频帧。根据该定义,通常的 ×数据矩阵是2D张量的一个示例。640 × 480 n × p
这不是在数学和物理学中定义张量的方式!
我的结论是:(a)机器学习张量不是数学/物理张量,并且(b)将它们视为张量积的元素也几乎没有用。
相反,它们是矩阵的多维概括。不幸的是,还没有确定的数学术语,因此“张量”的新含义现在仍然存在。
作为研究和构建神经网络并反复询问此问题的人,我得出的结论是,我们借用了张量表示法的有用方面,仅仅是因为它们使推导变得容易得多,并且将梯度保持在其原始形状中。该张量链式法则是我所见过的最优雅的衍生工具之一。更多的张量表示法鼓励使用高效的简化方法,而在使用矢量微积分的通用扩展版本时,简直就是噩梦般的发现。
例如,在矢量/矩阵演算中,有4种类型的矩阵乘积(Hadamard,Kronecker,普通和Elementwise),但在张量演算中,只有一种类型的乘法,但它涵盖了所有矩阵乘法等等。如果您要慷慨大方,请解释张量以表示多维数组,我们打算使用基于张量的演算来查找其导数,而不是要处理的对象是张量。
老实说,我们可能将其称为多维数组张量,因为大多数机器学习专家并不十分在乎遵守高级数学或物理学的定义。现实情况是,我们只是借鉴了发达的爱因斯坦求和惯例和计算公式,它们通常在描述张量时使用,并且不想一遍又一遍地说基于爱因斯坦求和惯例的演算。也许有一天,我们可能会开发出一套新的表示法和约定,它们仅从张量演算中窃取了所需的内容,专门用于分析神经网络,但作为一个年轻的领域却需要时间。
现在,我实际上同意其他答案的大部分内容。但是我将在某一方面扮演Devil的拥护者。再次,它将是自由流动的,所以道歉...
谷歌宣布了一个名为Tensor Flow的深度学习程序。这使我想知道深度学习的“张量”是什么,因为我无法与所见定义建立联系。
现在的想法是将一堆这样的转换链接在一起,以便获得原始坐标的有用表示。因此,例如,在图像的最后变换之后,简单的逻辑回归将产生出色的分类准确性;而在原始图像上绝对不会。
现在,似乎已经看不见的东西是在适当的张量中寻求的不变性。特别是当转换后的变量的尺寸可能在每一层不同的情况下。[例如,我在张量上看到的一些东西对于非方形雅可比主义者是没有意义的-我可能缺少一些方法]
保留的是变量转换的概念,对于特定任务,向量的某些表示可能比其他表示更有用。类比是在笛卡尔坐标系或极坐标系中解决问题是否更有意义。
编辑以响应@Aksakal:
由于坐标数的变化,无法完美保留向量。但是,从某种意义上说,至少有用的信息可以在转换下保留。例如,使用PCA,我们可能会降低坐标,因此我们无法反转转换,但是降维仍然有用。如果所有后续转换都是可逆的,则可以从倒数第二层映射回输入空间。实际上,我只看到了概率模型,该模型可以通过采样来实现(RBM)。
这是《非负张量因式分解及其在统计学和计算机视觉中的应用》(A. Shashua和T. Hazan)的简短编辑(针对上下文)摘录,这是为什么至少有人对张量着迷的原因。
任何n维问题都可以通过连接维以二维形式表示。因此,例如,找到一组图像的非负低秩分解的问题是3-NTF(非负张量因式分解),其中图像形成3D立方体的切片,但也可以表示为通过对图像(构成矩阵列的图像)进行矢量化处理来解决NMF(非负矩阵分解)问题。
图像集合的矩阵表示不合适的原因有两个:
- 空间冗余(像素,不一定相邻,具有相似的值)在矢量化过程中丢失,因此我们期望效率较低的分解,并且
- NMF分解不是唯一的,因此,即使存在(局部)生成模型,NMF也不一定会朝该方向移动,这一点已由Chu,M.,Diele,F.,Plemmons,R. &Ragni,S.“非负矩阵分解的最优性,计算和解释”,SIAM矩阵分析杂志,2004年。例如,图像集上的不变部分趋于在所有因素中形成重影并污染稀疏效应。NTF几乎总是唯一的,因此我们希望NTF方案朝生成模型的方向发展,特别是不受不变部分的影响。
[编辑]刚发现彼得·麦卡拉(Peter McCullagh)的书,《统计中的Tensor方法》。
张量在信号(或图像)的未知混合物识别中显示出感兴趣的特性,尤其是在规范多态(CP)张量分解的概念周围,例如参见“ 张量:简介”,P。Comon,2014年。以“盲源分离(BSS)”为名:
无论是显式的还是隐式的,张量分解都是许多盲源分离(BSS)算法的核心。特别地,规范多联体(CP)张量分解在确定不确定混合物中起着核心作用。尽管有一些相似之处,但CP和奇异值分解(SVD)却有很大不同。正如本简介中所指出的,一般而言,张量和矩阵具有不同的属性。
最近,已经针对三阶张量得出了一些唯一性结果:关于三阶张量的规范多态分解的唯一性(第1 部分,第2部分),I。Domanov 等人。,2013年。
张量分解通常与稀疏分解有关,例如通过在分解因子(正交性,范德蒙德,汉克尔)和低阶上施加结构,以适应非唯一性。
随着对不完整数据分析和确定来自传感器阵列的复杂测量的需求日益增长,张量越来越多地用于矩阵完成,潜变量分析和源分离。
附加说明:规范多态分解显然也等同于均质多项式的Waring分解,作为线性形式的幂之和,可用于系统识别(块结构,并行Wiener-Hammerstein或非线性状态空间模型)。
我是否可以特别推荐我的书:Kroonenberg,PM Applied Multiway Data Analysis和Smilde等。多路分析。在化学科学中的应用(均为Wiley)。我的文章也可能是有趣的:Kroonenberg,PM(2014年)。多向成分分析和三向对应分析的历史。在J. Blasius和MJ Greenacre(编辑)。数据的可视化和语言化(第77–94页)。纽约:查普曼和霍尔/ CRC。ISBN 9781466589803。
这些参考文献讨论的是多重数据而不是张量,但涉及的是同一研究领域。