偏最小二乘法中的“偏”是什么?


16

在偏最小二乘回归(PLSR)或偏最小二乘结构方程模型(PLS-SEM)中,“偏偏”一词指的是什么?


4
请注意,小沃尔德(Wold Jr.)认为“偏最小二乘”这个名称具有误导性,应该被称为“投影到潜在空间”。
Momo 2015年

@Momo:是的,我已经读过。但是,即使PLS产生了一定程度的误导,“潜在空间上的投影”也不太清楚,更不用说以书面形式使用该术语时缺乏便利了​​。
Aleksandr Blekh,2015年

Answers:


17

我想主要根据历史观点回答这个问题,这很有趣。发明了偏最小二乘(PLS)方法的赫尔曼·沃尔德(Herman Wold 并没有立即使用术语PLS(甚至提到术语Partial)。在初始阶段(1966-1969年),他将此方法称为NILES - 1966年发表的有关此主题的首篇论文的缩写,该主题涉及“ 基于迭代最小二乘程序的非线性估计”

正如我们所看到的,以后将被称为部分过程的过程称为迭代过程,着重于估计权重和潜在变量(LV)的过程的迭代性质。“最小二乘”项来自使用普通最小二乘(OLS)回归来估计模型的其他未知参数(Wold,1980)。“部分”一词似乎起源于NILES程序,该程序实现了“将模型的参数拆分为子集以便可以对它们进行部分估计的想法”(Sanchez,2013年,第216页;重点是我的) 。

术语PLS的首次使用出现在论文非线性迭代偏最小二乘(NIPALS)估计程序中,该程序标志着PLS历史的下一个时期-NIPALS建模时期。1970年代和1980年代成为软建模时期,在Karl Joreskog的LISREL方法对SEM的影响下,Wold将NIPALS方法转变为软建模,这实质上已经形成了现代PLS方法的核心(术语PLS在1970年代末成为主流) )。Sanchez(2013)将PLS历史上的下一个时期称为1990年代称为“差距”时期,其主要特点是减少了其使用。幸运的是,从2000年代开始(合并期),PLS作为一种非常受欢迎的SEM分析方法而获得了回报,特别是在社会科学领域。

更新(响应变形虫的评论):

  • 也许,桑切斯的措辞在我引用的短语中并不理想。我认为“部分估算”适用于潜在 的变量。Wold(1980)详细介绍了该概念。
  • 没错,NIPALS最初是为PCA开发的。混淆源于存在线性PLS方法和非线性PLS方法的事实。我认为Rosipal(2011)很好地解释了这些差异(至少,这是到目前为止我所看到的最好的解释)。

更新2(进一步说明):

针对在变形虫的回答中表达的担忧,我想澄清一些事情。在我看来,我们需要区分NIPALS和PLS之间使用“部分”一词。这就产生了两个独立的问题,分别是:1)NIPALS中“部分”的含义和2)PLS中“部分”的含义(这是Phil2014的原始问题)。尽管我不确定前者,但我可以进一步澄清后者。

根据Wold,Sjöström和Eriksson(2001)的说法,

PLS中的“部分”表示这是部分回归,因为...

换句话说,“部分”源于以下事实:针对PLS的NIPALS算法进行的数据分解可能未包括所有组件,因此“部分”。我怀疑,如果可以对“部分”数据使用该算法,那么通常同样的原因也适用于NIPALS。那将解释NIPALS中的“ P”。

在NIPALS定义用的是“非线性”的条款(不要混淆非线性PLS,它代表了PLS方法的非线性变!),我认为它是指算法本身,而是非线性模型,它可以是使用基于线性回归的NIPALS进行分析。

更新3(Herman Wold的解释):

虽然赫尔曼·沃尔德(Herman Wold)的1969年论文似乎是有关NIPALS的最早论文,但我设法找到了另一篇有关该主题的最早论文。这是Wold(1974)的论文,PLS的“父亲”提出了他在NIPALS定义中使用“部分”一词的理由(第71页):

3.1.4。NIPALS估计:迭代OLS。如果模型的一个或多个变量是潜在变量,则预测变量关系不仅涉及未知参数,而且还涉及未知变量,结果使估计问题变为非线性。如3.1(iii)所示,NIPALS通过迭代程序(例如,步骤s = 1、2,...)解决了该问题,每个步骤s涉及有限数量的OLS回归,其中一个用于模型的每个预测变量关系。每个这样的回归都为未知参数和潜在变量的子集提供代理估计(因此称为部分最小二乘),这些代理估计在过程的下一步中用于计算新的代理估计。

参考文献

Rosipal,R.(2011年)。非线性偏最小二乘法:概述。在Lodhi H.和Yamanishi Y.(编)中,化学信息学和高级机器学习的观点:复杂的计算方法和协作技术,第169-189页。ACCM,IGI Global。取自http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

Sanchez,G.(2013年)。与R. Berkeley,CA的PLS路径建模:Trowchez Editions。取自http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

沃尔德(1974)。具有潜在变量的因果流:根据NIPALS建模方法的划分。欧洲经济评论,第5期,67-86。北荷兰出版。

沃尔德(1980)。缺乏理论知识时的模型构建和评估:偏最小二乘的理论和应用。在J. Kmenta和JB Ramsey(编辑)的《计量经济学模型的评估》,第47-74页中。纽约:学术出版社。取自http://www.nber.org/chapters/c11693

Wold,S.,Sjöström,M.和Eriksson,L.(2001)。PLS回归:化学计量学的基本工具。化学计量学和智能实验室系统,58,109-130。doi:10.1016 / S0169-7439(01)00155-1取自http://www.libpls.net/publication/PLS_basic_2001.pdf


@amoeba:我相信本文与您最近讨论过的其他方法相比,以更技术性的方式解释了PLS。但是,请注意,上面的解释集中在PLS回归上,而PLS包括多类系统分析(请参阅以下演示文稿中的幻灯片10)。恕我直言,幻灯片25-29上的技术说明也很有帮助。演示文稿:plsmodeling.com/pls/pls-introduction
Aleksandr Blekh,2015年

// @ Aleksandr Blekh:这些都是很好的参考。
Alph

哇,人们给PLS历史的时期起个名字!令人印象深刻。
变形虫说莫妮卡(Reonica Monica)

尽管我认真地研究了桑切斯的书,但仍然不理解NIPALS与“将模型的参数分为子集以便可以部分估计的想法”有关。最初建议使用NIPALS作为计算主成分的方法,对吗?这很简单。我在那里看不到任何将参数“拆分”为“子集”的信息,所以我不知道桑切斯在这里在说什么。顺便说一句,我也不了解NIPALS中的“非线性”。当然PCA是线性技术!
变形虫说恢复莫妮卡

@amoeba:请查看我的更新以回应您的评论。希望能帮助到你。
Aleksandr Blekh

7

XY

但是,从历史上看,正如@Aleksandr很好地解释(+1)一样,PLS是由Wold引入的,他使用了他的NIPALS算法来实现它;NIPALS代表“非线性迭代偏最小二乘”,因此很显然,PLS中的P刚从NIPALS那里获得。

此外,NIPALS(我记得在其他地方读过)最初不是为PLS开发的;它是为PCA引入的。现在,用于PCA的NIPALS是一种非常简单的算法。我可以在这里展示。假设是一个以行为单位观察的居中数据矩阵。目标是找到第一个主轴(协方差矩阵的特征向量)和第一个主分量(数据到)。我们随机初始化,然后迭代以下步骤直到收敛:v p v pXvpvp

  1. v=Xp(pp)1
  2. 设置至。v1
  3. p=Xv(vv)1

而已!因此,真正的问题是为什么Wold将此算法称为“部分”算法?答案(在@Aleksandr第三次更新后,我终于明白了)是Wold将和视为两个[参数集],共同为数据矩阵建模。该算法按顺序更新这些参数(步骤1和3),即一次仅更新一部分参数!因此“部分”。vXpX

(为什么他仍然称其为“非线性”,但我仍然不明白。)

这个术语非常容易引起误解,因为如果这是“部分的”,那么每个期望最大化算法也都是“部分的”(实际上,NIPALS可以看作是EM的原始形式,参见Roweis 1998)。我认为PLS是“机器学习中最误导性术语”竞赛的不错候选人。las,尽管小沃德(Wold Jr.)做出了努力,但这种情况不太可能改变(请参阅上面的@Momo评论)。


您可能会对我的答案的UPDATE 2感兴趣,并作进一步说明。
Aleksandr Blekh

感谢您继续进行讨论(为防止任何误解,我应该说我没有以任何方式批评您!)。现在,到您的Update2。您为什么认为我们应该区分PLS和NIPALS中“部分”的含义?这听起来很奇怪;PLS源于NIPALS的工作,这表明它的名称只是简称“ niPaLS”。这似乎得到了Wold等人的证实。您在2001年发现的论文:“这包括一种简单而有效的方法来估算这些模型中的参数NIPALS [...]。这又导致这些模型的缩写PLS”
变形虫说恢复莫妮卡

1
好发现!但是我不认为1974年是“有关NIPALS的最早论文”:标题为1969年的论文有NIPALS(请参阅我以前的评论)。但是,此引号实际上为我们提供了一个问题:如果我们讨论我的PCA NIPALS示例,那么Wold将和作为两个描述参数,术语“ partial”是指每个参数单独更新,即一次仅更新一部分参数!您也阅读它吗?p XvpX
变形虫说恢复莫妮卡

1
大!我认为这个问题终于得到令人满意的回答。我终于同意了您的答案+1 :-)我编辑了我的答案,以结合这种新的理解。关于您的答案:当您在Update 1和Update 2中解释“部分”一词时,您的意思真的和我们现在所同意的一样吗?在我看来,您的答案目前包含几种不同的解释……
阿米巴说莫妮卡(Reonica)Monica 2015年

1
我不知道!也许是正确的。您能否详细说明使用NIPALS可以分析哪些“非线性模型”以及如何进行分析?另一方面,这可能是一个完全不同的主题。我想指出的是,沃尔德开发NIPALS并不是为了自己而计算PCA,而是考虑到某些特殊应用,他必须处理非线性问题并以某种方式将其线性化,从而简化为PCA?如今,人们将NIPALS作为一种简单的算法来计算前导奇异向量,但是也许1969年的Wold完全不同意这种观点!
变形虫说莫妮卡(
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.