偏最小二乘法中的“偏”是什么？

在偏最小二乘回归（PLSR）或偏最小二乘结构方程模型（PLS-SEM）中，“偏偏”一词指的是什么？

— 阿尔法
source

请注意，小沃尔德（Wold Jr.）认为“偏最小二乘”这个名称具有误导性，应该被称为“投影到潜在空间”。

— Momo 2015年

@Momo：是的，我已经读过。但是，即使PLS产生了一定程度的误导，“潜在空间上的投影”也不太清楚，更不用说以书面形式使用该术语时缺乏便利了。

— Aleksandr Blekh，2015年

Answers:

我想主要根据历史观点回答这个问题，这很有趣。发明了偏最小二乘（PLS）方法的赫尔曼·沃尔德（Herman Wold ）并没有立即使用术语PLS（甚至提到术语Partial）。在初始阶段（1966-1969年），他将此方法称为NILES - 1966年发表的有关此主题的首篇论文的缩写，该主题涉及“ 基于迭代最小二乘程序的非线性估计”。

正如我们所看到的，以后将被称为部分过程的过程称为迭代过程，着重于估计权重和潜在变量（LV）的过程的迭代性质。“最小二乘”项来自使用普通最小二乘（OLS）回归来估计模型的其他未知参数（Wold，1980）。“部分”一词似乎起源于NILES程序，该程序实现了“将模型的参数拆分为子集以便可以对它们进行部分估计的想法”（Sanchez，2013年，第216页；重点是我的）。

术语PLS的首次使用出现在论文非线性迭代偏最小二乘（NIPALS）估计程序中，该程序标志着PLS历史的下一个时期-NIPALS建模时期。1970年代和1980年代成为软建模时期，在Karl Joreskog的LISREL方法对SEM的影响下，Wold将NIPALS方法转变为软建模，这实质上已经形成了现代PLS方法的核心（术语PLS在1970年代末成为主流））。Sanchez（2013）将PLS历史上的下一个时期称为1990年代称为“差距”时期，其主要特点是减少了其使用。幸运的是，从2000年代开始（合并期），PLS作为一种非常受欢迎的SEM分析方法而获得了回报，特别是在社会科学领域。

更新（响应变形虫的评论）：

也许，桑切斯的措辞在我引用的短语中并不理想。我认为“部分估算”适用于潜在的变量块。Wold（1980）详细介绍了该概念。
没错，NIPALS最初是为PCA开发的。混淆源于存在线性PLS方法和非线性PLS方法的事实。我认为Rosipal（2011）很好地解释了这些差异（至少，这是到目前为止我所看到的最好的解释）。

更新2（进一步说明）：

针对在变形虫的回答中表达的担忧，我想澄清一些事情。在我看来，我们需要区分NIPALS和PLS之间使用“部分”一词。这就产生了两个独立的问题，分别是：1）NIPALS中“部分”的含义和2）PLS中“部分”的含义（这是Phil2014的原始问题）。尽管我不确定前者，但我可以进一步澄清后者。

根据Wold，Sjöström和Eriksson（2001）的说法，

PLS中的“部分”表示这是部分回归，因为...

换句话说，“部分”源于以下事实：针对PLS的NIPALS算法进行的数据分解可能未包括所有组件，因此“部分”。我怀疑，如果可以对“部分”数据使用该算法，那么通常同样的原因也适用于NIPALS。那将解释NIPALS中的“ P”。

在NIPALS定义用的是“非线性”的条款（不要混淆非线性PLS，它代表了PLS方法的非线性变！），我认为它是指不为算法本身，而是非线性模型，它可以是使用基于线性回归的NIPALS进行分析。

更新3（Herman Wold的解释）：

虽然赫尔曼·沃尔德（Herman Wold）的1969年论文似乎是有关NIPALS的最早论文，但我设法找到了另一篇有关该主题的最早论文。这是Wold（1974）的论文，PLS的“父亲”提出了他在NIPALS定义中使用“部分”一词的理由（第71页）：

3.1.4。NIPALS估计：迭代OLS。如果模型的一个或多个变量是潜在变量，则预测变量关系不仅涉及未知参数，而且还涉及未知变量，结果使估计问题变为非线性。如3.1（iii）所示，NIPALS通过迭代程序（例如，步骤s = 1、2，...）解决了该问题，每个步骤s涉及有限数量的OLS回归，其中一个用于模型的每个预测变量关系。每个这样的回归都为未知参数和潜在变量的子集提供代理估计（因此称为部分最小二乘），这些代理估计在过程的下一步中用于计算新的代理估计。

参考文献

Rosipal，R.（2011年）。非线性偏最小二乘法：概述。在Lodhi H.和Yamanishi Y.（编）中，化学信息学和高级机器学习的观点：复杂的计算方法和协作技术，第169-189页。ACCM，IGI Global。取自http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

Sanchez，G.（2013年）。与R. Berkeley，CA的PLS路径建模：Trowchez Editions。取自http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

沃尔德（1974）。具有潜在变量的因果流：根据NIPALS建模方法的划分。欧洲经济评论，第5期，67-86。北荷兰出版。

沃尔德（1980）。缺乏理论知识时的模型构建和评估：偏最小二乘的理论和应用。在J. Kmenta和JB Ramsey（编辑）的《计量经济学模型的评估》，第47-74页中。纽约：学术出版社。取自http://www.nber.org/chapters/c11693

Wold，S.，Sjöström，M.和Eriksson，L.（2001）。PLS回归：化学计量学的基本工具。化学计量学和智能实验室系统，58，109-130。doi：10.1016 / S0169-7439（01）00155-1取自http://www.libpls.net/publication/PLS_basic_2001.pdf

— 亚历山大·布莱克（Aleksandr Blekh）
source

@amoeba：我相信本文与您最近讨论过的其他方法相比，以更技术性的方式解释了PLS。但是，请注意，上面的解释集中在PLS回归上，而PLS包括多类系统分析（请参阅以下演示文稿中的幻灯片10）。恕我直言，幻灯片25-29上的技术说明也很有帮助。演示文稿：plsmodeling.com/pls/pls-introduction。

— Aleksandr Blekh，2015年

// @ Aleksandr Blekh：这些都是很好的参考。

— Alph

哇，人们给PLS历史的时期起个名字！令人印象深刻。

— 变形虫说莫妮卡（Reonica Monica）

尽管我认真地研究了桑切斯的书，但仍然不理解NIPALS与“将模型的参数分为子集以便可以部分估计的想法”有关。最初建议使用NIPALS作为计算主成分的方法，对吗？这很简单。我在那里看不到任何将参数“拆分”为“子集”的信息，所以我不知道桑切斯在这里在说什么。顺便说一句，我也不了解NIPALS中的“非线性”。当然PCA是线性技术！

— 变形虫说恢复莫妮卡

@amoeba：请查看我的更新以回应您的评论。希望能帮助到你。

— Aleksandr Blekh

$X$ $Y$

但是，从历史上看，正如@Aleksandr很好地解释（+1）一样，PLS是由Wold引入的，他使用了他的NIPALS算法来实现它；NIPALS代表“非线性迭代偏最小二乘”，因此很显然，PLS中的P刚从NIPALS那里获得。

此外，NIPALS（我记得在其他地方读过）最初不是为PLS开发的；它是为PCA引入的。现在，用于PCA的NIPALS是一种非常简单的算法。我可以在这里展示。假设是一个以行为单位观察的居中数据矩阵。目标是找到第一个主轴（协方差矩阵的特征向量）和第一个主分量（数据到）。我们随机初始化，然后迭代以下步骤直到收敛： $\newcommand{\X}{\mathbf X}\X$ $\newcommand{\v}{\mathbf v}\v$ $\newcommand{\p}{\mathbf p}\p$ $\v$ $\p$

$\v = \X^\top \p (\p^\top \p)^{-1}$
设置至。 $\|\v\|$ $1$
$\p = \X \v (\v^\top \v)^{-1}$

而已！因此，真正的问题是为什么Wold将此算法称为“部分”算法？答案（在@Aleksandr第三次更新后，我终于明白了）是Wold将和视为两个[参数集]，共同为数据矩阵建模。该算法按顺序更新这些参数（步骤1和3），即一次仅更新一部分参数！因此“部分”。 $\v$ $\p$ $\X$

（为什么他仍然称其为“非线性”，但我仍然不明白。）

这个术语非常容易引起误解，因为如果这是“部分的”，那么每个期望最大化算法也都是“部分的”（实际上，NIPALS可以看作是EM的原始形式，参见Roweis 1998）。我认为PLS是“机器学习中最误导性术语”竞赛的不错候选人。las，尽管小沃德（Wold Jr.）做出了努力，但这种情况不太可能改变（请参阅上面的@Momo评论）。

— 变形虫说恢复莫妮卡
source

您可能会对我的答案的UPDATE 2感兴趣，并作进一步说明。

— Aleksandr Blekh

感谢您继续进行讨论（为防止任何误解，我应该说我没有以任何方式批评您！）。现在，到您的Update2。您为什么认为我们应该区分PLS和NIPALS中“部分”的含义？这听起来很奇怪；PLS源于NIPALS的工作，这表明它的名称只是简称“ niPaLS”。这似乎得到了Wold等人的证实。您在2001年发现的论文：“这包括一种简单而有效的方法来估算这些模型中的参数NIPALS [...]。这又导致这些模型的缩写PLS”。

— 变形虫说恢复莫妮卡

好发现！但是我不认为1974年是“有关NIPALS的最早论文”：标题为1969年的论文有NIPALS（请参阅我以前的评论）。但是，此引号实际上为我们提供了一个问题：如果我们讨论我的PCA NIPALS示例，那么Wold将和作为两个描述参数，术语“ partial”是指每个参数单独更新，即一次仅更新一部分参数！您也阅读它吗？

v

$\mathbf v$

p

$\mathbf p$

X

$\mathbf X$

— 变形虫说恢复莫妮卡

大！我认为这个问题终于得到令人满意的回答。我终于同意了您的答案+1 :-)我编辑了我的答案，以结合这种新的理解。关于您的答案：当您在Update 1和Update 2中解释“部分”一词时，您的意思真的和我们现在所同意的一样吗？在我看来，您的答案目前包含几种不同的解释……

— 阿米巴说莫妮卡（Reonica）Monica 2015年

我不知道！也许是正确的。您能否详细说明使用NIPALS可以分析哪些“非线性模型”以及如何进行分析？另一方面，这可能是一个完全不同的主题。我想指出的是，沃尔德开发NIPALS并不是为了自己而计算PCA，而是考虑到某些特殊应用，他必须处理非线性问题并以某种方式将其线性化，从而简化为PCA？如今，人们将NIPALS作为一种简单的算法来计算前导奇异向量，但是也许1969年的Wold完全不同意这种观点！

— 变形虫说莫妮卡（