PLS回归与PLS路径建模之间的差异。对PLS的批评


12

在这里提出这个问题,但是没有人给出很好的答案。因此,我认为再次提出该建议是一个好主意,并且我想补充一些意见/问题。

  • 第一个问题是“ PLS路径建模”和“ PLS回归”之间的区别是什么?更概括地说,什么是结构方程建模(SEM),路径建模和回归?据我了解,回归更多地关注预测,而SEM则关注于响应和预测变量之间的关系,而路径建模是SEM的特例?

  • 我的第二个问题是PLS有多可靠?最近,如Rönkkö等人所述,它受到了许多批评2016年以及Rönkkö等人。2015年这导致了拒绝的论文基础上高一级期刊,如PLS 经营管理杂志这里是期刊编辑的说明):

    我们几乎拒绝所有基于PLS的手稿,因为我们得出结论,在OM研究人员使用的各种模型中,PLS毫无例外都是错误的建模方法。

    我应该注意我的领域是光谱学,既不是管理/心理学也不是统计学。在上面链接的论文中,作者更多地谈论了PLS作为SEM方法,但对我来说,他们的批评似乎也适用于PLS回归。


您的链接都在付费专区后面。
Jeremy Miles

你是绝对正确的!很抱歉,我有PDF,但不确定是否可以上传或共享。科学应该是免费的:)
Ress

stats.stackexchange.com/questions/179733中详细解释和讨论了PLS回归。不幸的是,我几乎不了解“路径建模”。
amoeba

我认为“路径建模”只是SEM的别称
rep_ho

摘自2016年论文:“大多数有关重量目的的PLS光泽介绍性文章都认为PLS是SEM,因此与复合材料的回归相比,它必须具有优势(例如,Gefen等人,2011);但是,此类工作通常不会明确指出PLS本身也只是复合材料的回归。” 有误导性。该论证的主要目的是,我是否可以看到作者断言SEM必须是纯粹的理论构造,并且他们不赞成凭经验得出的结构方程式。但是PLS确实通过协方差得出“结构化”方程。
ReneBt

Answers:


9

第一个问题是“ PLS路径建模”和“ PLS回归”之间的区别是什么?

没有,它们是同义词。

更概括地说,什么是结构方程建模(SEM),路径建模和回归?据我了解,回归更多地关注预测,而SEM则关注于响应和预测变量之间的关系,而路径建模是SEM的特例?

SEM是一种回归形式。回归是将独立变量和因变量相关联的任何方法,包括使用多个作为独立实体处理的变量的方法。SEM特别使用变量之间的数学关系来约束最终模型,在PLS的情况下,这就是协方差。我的理解是,路径建模是一个特定领域的术语(不是我的,我是像您一样的光谱学家)。

我的第二个问题是PLS有多可靠?最近,如Rönkkö等人所述,它受到了许多批评。2016年以及Rönkkö等人。2015年

Henseler等人发现了一个很好的反驳关于PLS的2013年共同信念和现实。Rönkkö等人的主要关注点。在某些情况下,PLS在表现出潜在潜能的情况下表现不佳。实际上,PLS旨在处理多种潜在因素,这种情况在现实世界中更为常见。

多么值得信赖?对于光谱学来说,它是一种出色的工具,但确实有其局限性。它确实存在过度拟合的风险,因为它可以建立复杂的模型来捕获来自多个潜在因素的贡献。因此,必须谨慎使用它,并且必须进行适当的外部验证,但这些警告适用于所有模型构建工具。我主要在现实世界的数据集上工作了20年,而我还没有遇到任何实验数据集,该数据集只有一个共同因素支持因变量(既不基于数据也不基于科学理论)。


1
+1,尽管我希望这个答案在Ronkko等人的文章中有更多细节。VS Henseler等。意见分歧。我根本不是光谱学家,但我对PLS作为线性回归的正则化方法有相对较好的理解(这就是Hastie等人在《统计学习的要素》中所介绍的方式)。我认为它在化学计量学中称为PLS1。这里的“性能”与重建错误有关,可以使用交叉验证来选择正则化强度,等等。对于任何遇到过脊峰回归或PCR或类似情况的人,这都是非常熟悉的设置。
amoeba

[续]我也知道带有多个因变量的PLS2,但是我不确定使用它的频率。同时,从试图了解什么Ronkko等。意思是,似乎“ SEM”的关注点专门在将多个X与多个Y相关联(然后是PLS2吗?),也许更多地是在解释X和Y之间的关系,而不是像这样预测Y。我什至不知道他们所说的“性能”是什么意思,我也不知道当他们批评PLS时他们更喜欢用什么代替 PLS。
amoeba

谢谢ReneBT和变形虫。我张贴在Reddit上这个问题,在这里,有人(soumya_ray)回答说,回归和SEM是根本不同的。她没有解释技术差异。顺便说一句,她的回答与您所说的相反(您的回答对我来说很有意义)。
Ress

顺便说一句,我使用PLS进行频段选择。我确认您对PLS性能的观点,尽管它可能会带来良好的预测(在测试和校准方面),但是该模型可能根本上是错误的,或者至少很难解释,因为它选择了与变量无关的重要变量作为重要变量。响应变量。
Ress

关于作者提出的关键问题的另一条评论是:“ PLS算法因此通过使用数据中的任何相关性,产生的权重与用作起点的单位加权复合物相比,增加了相邻复合物之间的相关性,但是这样做不保证实现任何全局最优”。值得一提的是,简而言之,该模型仅适用于具有相同基础协方差结构的总体,这不会使PLS无效,而是意味着必须谨慎构建和使用模型。
ReneBt
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.