Questions tagged «lars»

5
收缩方法能解决什么问题?
假期的来临使我有机会借助“统计学习的要素”在火炉旁next 缩。从计量经济学的角度来看,我在掌握收缩方法(如岭回归,套索和最小角度回归(LAR))的使用方面遇到了麻烦。通常,我对参数估计值本身以及实现无偏见或至少一致感兴趣。收缩方法不能做到这一点。 在我看来,当统计人员担心回归函数对预测变量过于敏感时,会使用这些方法,因为它认为预测变量比实际更为重要(通过系数的大小来衡量)。换句话说,过度拟合。 但是,OLS通常会提供无偏且一致的估计。(脚注)我一直认为过拟合的问题不是给出太大的估计,而是给出过小的置信区间,因为未考虑选择过程( ESL提到了后者。 无偏/一致的系数估计会导致对结果的无偏/一致的预测。收缩方法使预测比OLS更接近平均结果,似乎在桌上留下了信息。 重申一下,我没有看到收缩方法试图解决什么问题。我想念什么吗? 脚注:我们需要完整的列级条件来识别系数。误差的外生性/零条件均值假设和线性条件期望假设决定了我们可以对系数进行的解释,但是即使这些假设不成立,我们也可以得到无偏或一致的估计值。

5
在R中使用Lars(或glmnet)软件包中的LASSO进行变量选择
抱歉,这个问题有点基本。 我正在寻找在R中的多元线性回归模型中使用LASSO变量选择的方法。我有15个预测变量,其中之一是分类的(会引起问题吗?)。设置好和我使用以下命令:ÿXxxÿyy model = lars(x, y) coef(model) 我的问题是我何时使用coef(model)。这将返回一个包含15行的矩阵,每次添加一个额外的预测变量。但是,没有建议选择哪种模型。我错过了什么吗?有没有办法让我的lars包返回一个“ 最佳 ”模型? 还有其他文章建议使用glmnet代替,但这似乎更复杂。尝试如下,使用相同的和。我在这里错过了什么吗?: ÿXxxÿyy cv = cv.glmnet(x, y) model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min) predict(model, type="coefficients") 最后一条命令返回我的变量列表,大多数变量带有系数,尽管有些为= 0。这是LASSO 选择的“ 最佳 ”模型的正确选择吗?然后,如果我用所有具有系数的变量拟合线性模型,则not=0得到的系数估计值非常相似,但略有不同。有什么区别的原因吗?用LASSO选择的这些变量重新拟合线性模型并将其作为我的最终模型是否可以接受?否则,我将看不到任何有意义的p值。我错过了什么吗? 是否 type.gaussian="covariance" 确保glmnet使用多元线性回归? 变量的自动归一化是否会完全影响系数?有什么方法可以在LASSO程序中包括交互项? 我希望更多地使用此过程来演示如何使用LASSO,而不是将其实际用于任何重要的推断/预测(如果发生任何变化)的任何模型。 感谢您抽出时间来阅读。对于LASSO / lars / glmnet的任何一般性评论也将不胜感激。


2
LASSO / LARS与一般到特定(GETS)方法
我一直在想,为什么LASSO和LARS模型选择方法如此受欢迎,即使它们基本上只是逐步向前选择的变体(并因此受到路径依赖性)? 同样,为什么通用到特定(GETS)方法用于模型选择,尽管它们比LARS / LASSO更好,因为它们没有逐步回归问题,因此为什么大多数该模型被忽略?(关于GETS的基本参考资料:http ://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-其中的最新算法从避免路径依赖的广泛模型和树搜索开始,并且已经证明可以通常比LASSO / LARS更好。 似乎很奇怪,LARS / LASSO似乎比General to Specific(GETS)获得了更多的曝光和引用,有人对此有何想法? 并非试图引发激烈的辩论,而是寻找合理的解释,以解释为什么文学似乎确实集中在LASSO / LARS而不是GETS上,很少有人指出LASSO / LARS的缺点。

2
glmnet包中的偏差度量的确切定义,是否具有交叉验证?
对于当前的研究,我通过二项式因变量通过R中的glmnet包使用Lasso方法。 在glmnet中,可以通过交叉验证找到最佳的lambda,并将生成的模型与各种度量进行比较,例如分类错误或偏差。 我的问题:glmnet中的偏差有多准确?如何计算? (在Friedman等人的相应论文“通过坐标下降的广义线性模型的正则化路径”中,我仅对cv.glmnet中使用的偏差发现了这一评论:“平均偏差(减去左侧的对数似然的两倍数据)”(第17页))。

1
R-套索回归-每个回归者的Lambda不同
我要执行以下操作: 1)OLS回归(无惩罚项)以获得beta系数;代表用于回归的变量。我这样做 Ĵb∗jbj∗b_{j}^{*}jjj lm.model = lm(y~ 0 + x) betas = coefficients(lm.model) 2)带惩罚项的套索回归,选择标准应为贝叶斯信息标准(BIC),由 λj=log(T)T|b∗j|λj=log⁡(T)T|bj∗|\lambda _{j} = \frac{\log (T)}{T|b_{j}^{*}|} 其中代表变量/回归数,代表观察数,代表步骤1)中获得的初始beta。我想获得此特定值的回归结果,该值对于使用的每个回归变量都不同。因此,如果存在三个变量,则将存在三个不同的值。Ť b * Ĵ λ Ĵ λ ĴjjjTTTb∗jbj∗b_{j}^{*}λjλj\lambda_jλjλj\lambda_j 然后通过以下公式给出OLS-Lasso优化问题 中号我Ñb ε - [Rñ= { ∑t = 1Ť(yŤ− b⊤XŤ)2+ T∑j = 1米(λŤ| bĴ| ) }minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}\underset{b\epsilon \mathbb{R}^{n} }{min} = \left \{ \sum_{t=1}^{T}(y_{t}-b^{\top} X_{t} )^{2} …
11 r  regression  glmnet  lars 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.