Questions tagged «partial-least-squares»

一类用于对两组变量X和Y之间的关系进行建模的线性方法。包括PLS回归。

2
偏最小二乘回归背后的理论
谁能为了解SVD和PCA的人推荐一个关于偏最小二乘回归背后的理论的很好的解释(可在线获得)?我在网上查看了许多资料,但没有找到将严谨性和可访问性完美结合的任何内容。 我研究了《统计学习的要素》,这是在对交叉验证提出的一个问题的评论中提出的,什么是偏最小二乘(PLS)回归?它与OLS有何不同?,但我认为该参考文献并未涉及“正义”这一主题(这样做太简短了,并且没有提供关于该主题的太多理论)。从我读过,PLS利用预测变量,的线性组合zi=Xφizi=Xφiz_i=X \varphi_i协方差最大化yTziyTzi y^Tz_i 受约束∥φi∥=1‖φi‖=1\|\varphi_i\|=1和zTizj=0ziTzj=0z_i^Tz_j=0 if i≠ji≠ji \neq j, where the φiφi\varphi_i are chosen iteratively, in the order in which they maximize the covariance. But even after all I've read, I'm still uncertain whether that is true, and if so, how the method is executed.


2
时“单位方差”岭回归估计的极限
考虑带有附加约束的岭回归,该约束要求具有单位平方和(等效于单位方差);如果需要,可以假定也具有单位平方和: ÿy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. \ lambda \ to \ infty时\ hat {\ boldsymbol \ beta} _ \ lambda ^ *的限制是多少?β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*λ→∞λ→∞\lambda\to\infty 以下是一些我认为是正确的声明: 当λ=0λ=0\lambda=0,有一个整洁的显式解决方案:采用OLS估计器β^0= (X⊤X )− 1X⊤ÿβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y并对其进行归一化以满足约束(可以通过添加Lagrange乘数并进行微分来查看此约束): β^∗0= β^0/ ∥X β^0∥ 。β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = …


1
偏最小二乘,减少秩回归和主成分回归之间有什么联系?
缩减秩回归和主成分回归只是偏最小二乘的特殊情况吗? 本教程(第6页,“目标比较”)指出,当我们在不投影X或Y的情况下进行偏最小二乘时(即“不偏”),相应地,它变成了降低秩回归或主成分回归。 在此SAS文档页面的 “降低的等级回归”和“方法之间的关系”部分中做出了类似的说明。 一个更基本的跟进问题是他们是否具有相似的潜在概率模型。

1
设置中的回归:如何选择正则化方法(套索,PLS,PCR,山脊)?
我想查看是否去岭回归,LASSO,主成分回归(PCR),或偏最小二乘(PLS)中的情况下有大量的变量/特征()和样品的较小数量(Ñ < p),而我的目标是预测。pppn < pn<pn np > 10 np>10np>10n 变量(和Y)以不同程度相互关联。XXXÿYY 我的问题是哪种策略最适合这种情况?为什么?

2
偏最小二乘(PLS)回归的模型假设
我正在尝试查找有关PLS回归假设的信息(单)。我对将PLS的假设与OLS回归的假设进行比较特别感兴趣。 ÿyy 我已经阅读/浏览了有关PLS主题的大量文献;Wold(Svante and Herman),Abdi和许多其他人的论文,但找不到令人满意的来源。 沃尔德等。(2001)PLS回归:化学计量学的基本工具确实提到了PLS的假设,但是只提到了 X不必独立, 该系统是一些潜在变量的函数, 该系统在整个分析过程中应表现出同质性,并且 测量误差是可以接受的。 XXX 没有提及观察到的数据或模型残差的任何要求。有谁知道解决这个问题的资源吗?考虑基础数学类似于PCA(以最大化ÿyy和X之间的协方差为目标XXX)是(y,X)(y,X)(y, X)的多元正态性吗?模型残差是否需要表现出方差均匀性? 我也相信我在某处读到,观察不必是独立的。就重复测量研究而言,这意味着什么?

1
R中的偏最小二乘回归:为什么标准化数据上的PLS不等于最大化相关性?
我在偏最小二乘(PLS)非常新,我试着去了解R函数的输出plsr()的pls包。让我们模拟数据并运行PLS: library(pls) n <- 50 x1 <- rnorm(n); xx1 <- scale(x1) x2 <- rnorm(n); xx2 <- scale(x2) y <- x1 + x2 + rnorm(n,0,0.1); yy <- scale(y) p <- plsr(yy ~ xx1+xx2, ncomp=1) 我期望以下数字aaa和bbb > ( w <- loading.weights(p) ) Loadings: Comp 1 xx1 0.723 xx2 0.690 Comp 1 SS …

1
PLS回归与PLS路径建模之间的差异。对PLS的批评
在这里提出了这个问题,但是没有人给出很好的答案。因此,我认为再次提出该建议是一个好主意,并且我想补充一些意见/问题。 第一个问题是“ PLS路径建模”和“ PLS回归”之间的区别是什么?更概括地说,什么是结构方程建模(SEM),路径建模和回归?据我了解,回归更多地关注预测,而SEM则关注于响应和预测变量之间的关系,而路径建模是SEM的特例? 我的第二个问题是PLS有多可靠?最近,如Rönkkö等人所述,它受到了许多批评。2016年以及Rönkkö等人。2015年这导致了拒绝的论文基础上高一级期刊,如PLS 经营管理杂志(这里是期刊编辑的说明): 我们几乎拒绝所有基于PLS的手稿,因为我们得出结论,在OM研究人员使用的各种模型中,PLS毫无例外都是错误的建模方法。 我应该注意我的领域是光谱学,既不是管理/心理学也不是统计学。在上面链接的论文中,作者更多地谈论了PLS作为SEM方法,但对我来说,他们的批评似乎也适用于PLS回归。

1
PCA和PLS中的“负荷”和“相关负荷”有什么区别?
做主成分分析(PCA)时,要做的一件事是相互绘制两个载荷以研究变量之间的关系。在随附的用于进行主成分回归和PLS回归的PLS R软件包的论文中,有一个不同的图,称为相关负荷图(请参见本文中的图7和第15页)。的相关性装载,因为它是解释的,是分数之间和实际观察到的数据的相关性(从PCA或PLS)。 在我看来,加载和相关加载非常相似,只是它们的缩放比例有所不同。使用内置数据集mtcars的R中的可重现示例如下: data(mtcars) pca <- prcomp(mtcars, center=TRUE, scale=TRUE) #loading plot plot(pca$rotation[,1], pca$rotation[,2], xlim=c(-1,1), ylim=c(-1,1), main='Loadings for PC1 vs. PC2') #correlation loading plot correlationloadings <- cor(mtcars, pca$x) plot(correlationloadings[,1], correlationloadings[,2], xlim=c(-1,1), ylim=c(-1,1), main='Correlation Loadings for PC1 vs. PC2') 这些图的解释有什么区别?哪种曲线图(如果有的话)最适合在实践中使用?

1
为什么所有PLS组件一起只能解释原始数据的一部分差异?
我有一个由10个变量组成的数据集。我运行偏最小二乘(PLS)来预测这10个变量的单个响应变量,提取10个PLS分量,然后计算每个分量的方差。在原始数据上,我得出所有变量的方差之和为702。 然后,我将每个PLS分量的方差除以该总和,得到由PLS解释的方差的百分比,令人惊讶的是,所有分量一起解释了原始方差的44%。 对此有什么解释?不应该是100%吗?

2
如何在PLS中计算回归系数的置信区间?
PLS的基本模型是,给定的矩阵和向量y与 X = TP'+ E,y = T q'+ f相关, 其中T是一个潜在的n x k矩阵,而E ,f是噪声项(假设X,y为中心)。n×mn×mn \times mXXXnnnyyyX=TP′+E,X=TP′+E,X = T P' + E, y=Tq′+f,y=Tq′+f,y = T q' + f,TTTn×kn×kn \times kE,fE,fE, fX,yX,yX, y PLS生成T,P,q的估计T,P,qT,P,qT, P, q,以及回归系数\ hat {\ beta}的“捷径”向量,β^β^\hat{\beta}从而y∼Xβ^y∼Xβ^y \sim X \hat{\beta}。我想在一些简化的假设下找到\ hat {\ beta}的分布β^β^\hat{\beta},其中可能包括以下内容: 该模型是正确的,即 对于未知的T,P,q,X = TP'+ E,y = T q'+ …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.