Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。


2
如何使用主成分分析选择变量进行回归?
我目前正在使用主成分分析来选择要在建模中使用的变量。目前,我在实验中进行了A,B和C测量-我真正想知道的是:我可以减少测量并停止记录C和/或B以节省时间和精力吗? 我发现所有这三个变量都在我的第一个主成分上加重了,这占我数据差异的60%。组件得分告诉我,如果我将这些变量按一定比率(aA + bB + cC)加在一起。我可以在数据集中为每种情况在PC1上获得一个分数,并且可以将此分数用作建模中的变量,但这不能让我停止测量B和C。 如果我对PC1上的A,B和C的负载求平方,我发现变量A占PC1方差的65%,变量B占PC1方差的50%,变量C也占50%,即有些每个变量A,B和C所占PC1方差的一个变量与另一个变量共享,但是A占更大的比例。 认为我可以选择变量A或在模型中使用变量(可能是aA + bB)是错误的,因为该变量描述了PC1中很大一部分的方差,而这又描述了PC1中很大一部分的方差。数据? 您过去采用哪种方法? 即使有其他重型装载机,单个变量在PC1上的负载也最重? 使用所有变量在PC1上的组件得分,即使它们都是重型装载机?

1
条件同方差与异方差
摘自《计量经济学》,作者:Fumio Hayashi(第一章): 无条件同方性: 误差项E(εᵢ²)的第二矩在整个观测中都是恒定的 在所有观察结果中,函数形式E(εᵢ²| xi)是恒定的 有条件的同方性: 解除了误差项E(ε)²)的第二矩在整个观测值中恒定的限制 因此,条件二阶矩E(εᵢ²| xi)可能由于对xᵢ的依赖而在观测中有所不同。 所以,我的问题是: 有条件的同方性与异方性有何不同? 我的理解是,当第二个时刻的观测值不同时,存在异方差。

2
测试两个非嵌套模型的AIC差异
AIC或任何其他信息标准的全部要点是,越少越好。因此,如果我有两个模型M1:y = a0 + XA + e和M2:y = b0 + ZB + u,并且如果第一个(A1)的AIC小于第二个(A2)的AIC,则M1具有从信息论的角度来看,这是一个更好的选择。但是,是否存在差异A1-A2的截止基准?少多少就是少多少?换句话说,除了眼球外,是否还有针对(A1-A2)的测试? 编辑:Peter / Dmitrij ...感谢您的答复。实际上,在这种情况下,我的实质专长与我的统计专长相冲突。从本质上讲,问题不是在两个模型之间进行选择,而是在检查两个我知道在很大程度上相等的变量是否添加了相等数量的信息(实际上,第一个模型中的一个变量和第二个模型中的向量。请考虑以下情况)一堆变量,而不是它们的索引。)正如Dmitrij指出的那样,最好的选择似乎是考克斯考验。但是,是否有一种方法可以实际测试两个模型的信息内容之间的差异?
12 regression  aic 

1
非嵌套模型的测试等效性
假设是和虚拟d的线性函数。我的假设是d本身就像其他变量Z的向量的享乐主义索引。我有一个这种支持MANOVA的ž(即Z_1,Z_2,...,z_n)上d。有什么方法可以测试这两个模型的等效性:yyyxxxddddddZZZMANOVAMANOVAMANOVAZZZz1z1z_1z2z2z_2znznz_nddd 模型1:y=b0+b1⋅x+b2⋅d+e1y=b0+b1⋅x+b2⋅d+e1y = b_0 + b_1 \cdot x + b_2\cdot d + e_1 模型2:y=g0+Z⋅G+e2y=g0+Z⋅G+e2y = g_0 + Z\cdot G + e_2 其中GGG是参数的列向量。

2
模型选择或正则化后的GLM
我想分两个部分提出这个问题。两者都处理广义线性模型,但是前者处理模型选择,而其他则处理正则化。 背景:我利用GLM(线性,逻辑,伽马回归)模型进行预测和描述。当我提到“ 正常情况下,人们会做回归 ”时,我主要是指这样的描述:(i)系数周围的置信区间,(ii)预测周围的置信区间和(iii)与系数线性组合有关的假设检验,例如“是治疗A和治疗B有什么区别?”。 您是否在以下每种情况下使用正常理论合理地丧失了做这些事情的能力?如果是这样,这些事情真的只对用于纯预测的模型有用吗? I.当通过某种模型选择过程拟合了GLM时(具体来说,它是基于AIC的逐步过程)。 二。通过正则化方法拟合GLM时(例如在R中使用glmnet)。 我的感觉是,对我来说,答案是技术上来说,您应该对“ 使用回归进行的正常操作 ”使用引导程序,但是没有人真正遵守。 添加: 在收到一些答复并在其他地方阅读后,这是我的看法(对其他人有益并能得到纠正)。 I. A)RE:错误概括。为了概括新数据的错误率,在没有保留集的情况下,可以进行交叉验证,但是您需要为每个折叠完全重复该过程-使用嵌套循环-因此必须进行任何功能选择,参数调整等。每次独立完成。这个想法应该适用于任何建模工作(包括惩罚方法)。 B)RE:假设检验和GLM的置信区间。当对广义线性模型使用模型选择(特征选择,参数调整,变量选择)并且存在保留集时,可以在分区上训练模型,然后将模型拟合到其余数据或完整数据集上并使用该模型/数据执行假设检验等。如果不存在保留集,则可以使用引导程序,只要对每个引导程序样本重复完整的过程即可。但这限制了可以进行的假设检验,因为例如可能不一定总是选择一个变量。 C)RE:不对未来数据集进行预测,然后在理论和一些假设检验的指导下,建立一个有目的的模型,甚至考虑在模型中保留所有变量(无论是否有意义)(沿Hosmer和Lemeshow的思路)。这是回归模型的小变量集经典类型,然后允许使用CI和假设检验。 D)RE:惩罚回归。没有建议,也许认为这仅适合于预测(或作为特征选择的一种,然后应用于上述B中的另一数据集),因为引入的偏差使CI和假设检验变得不明智-即使使用自举。


3
了解SVM回归:目标函数和“平坦度”
用于分类的SVM对我而言具有直觉的意义:我知道如何最小化||θ||2||θ||2||\theta||^2产生最大余量。但是,我不了解回归的目标。各种文本(此处和此处)将其描述为最大化“平坦度”。我们为什么要这样做?回归等于“保证金”的概念是什么? 这里有一些尝试的答案,但是没有一个真正帮助我理解。
12 regression  svm 


1
用新观察值更新套索拟合
我正在将L1正则化线性回归拟合到一个非常大的数据集(具有n >> p。)中,变量是预先已知的,但观察结果却很小。我想在每个块之后保持套索适合。 在看到每组新的观察结果之后,我显然可以重新拟合整个模型。但是,鉴于有大量数据,这将是非常低效的。到达每个步骤的新数据量非常小,并且拟合之间不太可能在步骤之间变化很大。 我有什么办法可以减少总体计算负担? 我一直在研究Efron等人的LARS算法,但是如果可以按照上述方式进行“热启动”,那么很高兴考虑其他任何拟合方法。 笔记: 我主要是在寻找一种算法,但是指向可以做到这一点的现有软件包的指针也可能很有见地。 除了当前的套索轨迹外,当然欢迎该算法保持其他状态。 布拉德利·埃夫隆(Bradley Efron),特雷弗·哈斯提(Trevor Hastie),伊恩·约翰斯通(Iain Johnstone)和罗伯特·蒂布舍拉尼(Robert Tibshirani),《 最小角度回归》,《统计年鉴》(含讨论)(2004)32(2),407--499。
12 regression  lasso 




4
是什么导致套索对于特征选择不稳定?
在压缩感知中,有一个定理保证 具有唯一的稀疏解c(有关更多详细信息,请参见附录)。argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc 套索有类似的定理吗?如果有这样一个定理,那么它不仅可以保证套索的稳定性,而且还可以为套索提供更有意义的解释: 套索可以发现稀疏回归系数向量ccc,该向量用于通过y = Xc生成响应y。yyyy=Xcy=Xcy = Xc 我问这个问题有两个原因: 我认为“套索偏爱稀疏解决方案”并不能解决为什么使用套索进行特征选择的问题,因为我们甚至无法分辨选择特征的优势。 我了解到套索因功能选择不稳定而臭名昭著。在实践中,我们必须运行引导程序样本以评估其稳定性。导致这种不稳定的最关键原因是什么? 附录: 给定XN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)。ccc是ΩΩ\Omega稀疏向量(Ω⩽MΩ⩽M\Omega \leqslant M)。过程y=Xcy=Xcy = Xc生成响应yyy。如果XXX具有\ Omega阶的NSP(零空间属性),ΩΩ\Omega并且X的协方差矩阵的XXX特征值都不接近零,则 argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y …

1
了解负岭回归
我正在寻找有关负脊回归的文献。 总之,它是用负线性岭回归的一般化λλ\lambda的估计公式β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.肯定的案例有一个很好的理论:作为损失函数,作为约束,作为贝叶斯先验...但我仅凭上述公式感到对否定版本感到迷惑。它恰好对我正在做的事情有用,但是我无法清楚地解释它。 您是否了解有关负山脊的严肃入门文字?如何解释?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.