Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
使用GLMNET还是LARS计算LASSO解决方案?
我想获得LASSO问题的系数 | | ÿ- Xβ| | +λ | | β| |1个。||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 问题是glmnet和lars函数给出不同的答案。对于glmnet函数,我要求的系数。| Y | | 而不只是,但我仍然得到不同的答案。λ / | | ÿ| |λ/||Y||\lambda/||Y||λλ\lambda 这是预期的吗?lars和glmnet之间是什么关系?我知道glmnet解决LASSO问题的速度更快,但是我想知道哪种方法更强大?λλλ\lambdaλλ\lambda deps_stats恐怕我的数据集太大,以至于LARS无法处理它,而另一方面glmnet可以处理我的大型数据集。 mpiktas我想找到(Y-Xb)^ 2 + L \ sum | b_j |的解决方案 但是,当我从两种算法(拉尔斯和glmnet)询问它们对于特定L的计算系数时,我得到了不同的答案……我想知道这是正确的/预期的吗?或者我只是为两个函数使用了错误的lambda。

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

3
添加系数以获得交互作用-SE怎么办?
我有一个多元回归,其中包括相互作用。例如,要估算最差的五分位数的治疗效果,我需要将来自治疗回归指标的系数与来自交互变量(与治疗和五分位数1相互作用)的系数相加。通过回归将两个系数相加时,如何获得标准误差?是否可以将两个系数的标准误差相加?那t统计呢?是否可以添加这些?我猜不是,但是我找不到任何指导。 提前非常感谢您的帮助!

2
将回归系数平均以建立模型是否存在任何理论问题?
我想构建一个回归模型,该模型是多个OLS模型的平均值,每个模型都基于完整数据的子集。其背后的思想是基于本文的。我创建k个折叠并建立k个OLS模型,每个模型都基于没有折叠之一的数据。然后,我平均回归系数以获得最终模型。 这让我印象深刻,类似于随机森林回归,其中建立了多个回归树并将其平均。但是,平均OLS模型的性能似乎比仅在整个数据上构建一个OLS模型差。我的问题是:为多个OLS模型求平均有理论上的错误或不合需要的理由吗?我们可以期望平均多个OLS模型来减少过度拟合吗?下面是一个R示例。 #Load and prepare data library(MASS) data(Boston) trn <- Boston[1:400,] tst <- Boston[401:nrow(Boston),] #Create function to build k averaging OLS model lmave <- function(formula, data, k, ...){ lmall <- lm(formula, data, ...) folds <- cut(seq(1, nrow(data)), breaks=k, labels=FALSE) for(i in 1:k){ tstIdx <- which(folds==i, arr.ind = TRUE) tst <- …

1
刚刚确定的2SLS中位数是无偏的吗?
在《最无害的计量经济学:经验主义者的同伴》中(Angrist and Pischke,2009:第209页),我读到以下内容: (...)实际上,刚刚确定的2SLS(即简单的Wald估计量)几乎是无偏的。这很难正式显示,因为刚刚确定的2SLS没有任何时刻(即,采样分布有粗尾)。但是,即使仪器较弱,刚刚确定的2SLS也会大致居中。因此,我们说刚刚确定的2SLS是中值无偏的。(...) 虽然作者说是刚刚确定的2SLS是中位数,不带偏见,他们既没有证实,也没有提供一个参考的证据。他们在第213页再次提到了该命题,但没有提及证明。另外,我在麻省理工学院第22页的关于工具变量的讲义中找不到提出这一主张的动机。 原因可能是该提议是错误的,因为他们在博客的注释中拒绝了该提议。但是,他们写道,刚刚确定的2SLS 近似为中值。他们使用一个小型的蒙特卡洛实验来激发这一点,但没有提供分析证明或与近似值相关的误差项的封闭式表达。无论如何,这是作者对密歇根州立大学教授Gary Solon的答复,他评论说刚刚确定的2SLS 并非中性的。 问题1:如何证明刚刚确定的2SLS 并不像Gary Solon所说的那样是中性的? 问题2:如Angrist和Pischke所论,您如何证明刚刚确定的2SLS 近似中值无偏? 对于问题1,我正在寻找一个反例。对于问题2,我(主要)是在寻找证明或参考证明。 在这种情况下,我也在寻找中值无偏差的正式定义。我理解这个概念如下:估计器θ(X 1 :Ñ)的θ基于某些设定的X 1 :ñ的Ñ随机变量是中值无偏为θ当且仅当的分布θ(X 1 :n)具有中值θ。θ^(X1:n)θ^(X1:n)\hat{\theta}(X_{1:n})θθ\thetaX1:nX1:nX_{1:n}nnnθθ\thetaθ^(X1:n)θ^(X1:n)\hat{\theta}(X_{1:n})θθ\theta 笔记 在刚刚确定的模型中,内生回归变量的数量等于工具数量。 {YX=Xβ+Wγ+u=Zδ+Wζ+v(1)(1){Y=Xβ+Wγ+uX=Zδ+Wζ+v\begin{cases} Y&=X\beta+W\gamma+u \\ X&=Z\delta+W\zeta+v \end{cases}\tag{1}XXXk×n+1k×n+1k\times n+1kkkk×n+1k×n+1k\times n+1ZZZWWWuuuvvv ββ\beta(1)(1)(1)XXXZZZWWWX^X^\hat{X}YYYX^X^\hat{X}WWWX^X^\hat{X}ββ\beta yi=α+βxi+uiyi=α+βxi+uiy_i=\alpha+\beta x_i+u_ixixix_iziziz_iββ\betaβ^2SLS=sZYsZX,(2)(2)β^2SLS=sZYsZX,\hat{\beta}^{\text{2SLS}}=\frac{s_{ZY}}{s_{ZX}}\tag{2},sABsABs_{AB}AAABBB(2)(2)(2)β^2SLS=∑i(yi−y¯)zi∑i(xi−x¯)zi=β+∑i(ui−u¯)zi∑i(xi−x¯)zi(3)(3)β^2SLS=∑i(yi−y¯)zi∑i(xi−x¯)zi=β+∑i(ui−u¯)zi∑i(xi−x¯)zi\hat{\beta}^{\text{2SLS}}=\frac{\sum_i(y_i-\bar{y})z_i}{\sum_i(x_i-\bar{x})z_i}=\beta+\frac{\sum_i(u_i-\bar{u})z_i}{\sum_i(x_i-\bar{x})z_i}\tag{3}y¯=∑iyi/ny¯=∑iyi/n\bar{y}=\sum_iy_i/nx¯=∑ixi/nx¯=∑ixi/n\bar{x}=\sum_i x_i/nu¯=∑iui/nu¯=∑iui/n\bar{u}=\sum_i u_i/nnnn 我进行了文献搜索,使用“正当识别”和“中位数无偏”一词来查找回答问题1和2的参考文献(请参见上文)。我什么都没找到。我发现(见下文)的所有文章都提到Angrist和Pischke(2009:第209、213页)时指出刚确定的2SLS是中值无偏的。 Jakiela,P.,Miguel,E.,&Te Velde,VL(2015)。您已经赢得了它:估算人力资本对社会偏好的影响。实验经济学,18(3),385-407。 An,W.(2015年)。工具变量估计社交网络中的对等效应。社会科学研究,50,382-394。 Vermeulen,W.和Van Ommeren,J.(2009)。土地利用规划会影响区域经济吗?同时分析了荷兰的住房供应,内部移民和当地就业增长。住房经济学杂志,18(4),294-310。 Aidt,TS,&Leon,G.(2016年)。民主的机会之窗:撒哈拉以南非洲骚乱的证据。冲突解决杂志,60(4),694-717。


1
岭回归的AIC:自由度与参数数量
我想计算岭回归模型的AICc。问题是参数的数量。对于线性回归,大多数人建议参数的数量等于估计系数的数量加上sigma(误差的方差)。 当涉及到岭回归时,我读到帽子矩阵的迹线(自由度(df))仅用作AIC公式中的参数项数(例如,此处或此处)。 它是否正确?我还可以简单地使用df来计算AICc吗?我可以简单地将+1添加到df中以解决误差差异吗?

1
您可以简单地对IRLS方法进行直观的解释,以找到GLM的MLE吗?
背景: 我正在尝试遵循普林斯顿对GLM的MLE估计的评论。 我明白MLE估计的基础:likelihood,score,观察和期望Fisher information与Fisher scoring技术。而且我知道如何用MLE估计来证明简单的线性回归。 问题: 我什至不了解这种方法的第一行:( 工作变量定义为以下内容的直觉是什么:ž一世ziz_i ž一世= η^一世+ (y一世- μ^一世)dη一世dμ一世zi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} 为什么用它们代替来估计β?ÿ一世yiy_iββ\beta 它们与的关系response/link function是和μ之间的关系ηη\etaμμ\mu 如果有人有一个简单的解释,或者可以指导我获得更基本的说明,我将不胜感激。

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

2
没有UMP时如何定义拒绝区域?
考虑线性回归模型 y=Xβ+uy=Xβ+u\mathbf{y}=\mathbf{X\beta}+\mathbf{u}, u∼N(0,σ2I)u∼N(0,σ2I)\mathbf{u}\sim N(\mathbf{0},\sigma^2\mathbf{I}), E(u∣X)=0E(u∣X)=0E(\mathbf{u}\mid\mathbf{X})=\mathbf{0}。 设与。ħ 1:σ 2 0 ≠ σ 2H0:σ20=σ2H0:σ02=σ2H_0: \sigma_0^2=\sigma^2H1:σ20≠σ2H1:σ02≠σ2H_1: \sigma_0^2\neq\sigma^2 我们可以推导出,其中。并且是灭者矩阵的典型表示法,其中是因变量在上回归了。ð我中号(X)=Ñ×ķ中号X中号XŶ= ÿ ÿ ÿXyTMXyσ2∼χ2(n−k)yTMXyσ2∼χ2(n−k)\frac{\mathbf{y}^T\mathbf{M_X}\mathbf{y}}{\sigma^2}\sim \chi^2(n-k)dim(X)=n×kdim(X)=n×kdim(\mathbf{X})=n\times kMXMX\mathbf{M_X}MXy=y^MXy=y^\mathbf{M_X}\mathbf{y}=\hat{\mathbf{y}}y^y^ \hat{\mathbf{y}}yy\mathbf{y}XX\mathbf{X} 我正在阅读的书指出: 之前,我曾问过应该使用什么标准来定义拒绝区域(RR),请参阅此问题的答案,主要的是选择使测试尽可能强大的RR。 在这种情况下,备选方案是双边复合假设,通常不需要UMP检验。而且,根据书中给出的答案,作者没有显示他们是否研究了RR的功能。尽管如此,他们还是选择了两尾RR。为什么会这样,因为该假设没有“单方面”确定RR? 编辑:此图像作为练习4.14的解决方案,在本书的解决方案手册中。

3
简单线性回归,p值和AIC
我知道这个话题在这里之前已经提出过很多次了,但是我仍然不确定如何最好地解释我的回归输出。 我有一个非常简单的数据集,由一列x值和一列y值组成,并根据位置(位置)分为两组。要点看起来像这样 一位同事假设,我们应该将单独的简单线性回归拟合到每个组,我已经使用进行了拟合y ~ x * C(loc)。输出如下所示。 OLS Regression Results ============================================================================== Dep. Variable: y R-squared: 0.873 Model: OLS Adj. R-squared: 0.866 Method: Least Squares F-statistic: 139.2 Date: Mon, 13 Jun 2016 Prob (F-statistic): 3.05e-27 Time: 14:18:50 Log-Likelihood: -27.981 No. Observations: 65 AIC: 63.96 Df Residuals: 61 BIC: 72.66 Df Model: …


2
95%置信区间的公式
我在stats.stackexchange上进行了搜索和搜索,但是找不到用于为线性回归计算值的95%置信区间的公式。有人可以提供吗?R2R2R^2 更好的是,假设我在下面的R中运行了线性回归。如何使用R代码为R2R2R^2值计算95%的置信区间。 lm_mtcars <- lm(mpg ~ wt, mtcars)

2
通过多元回归捕获季节性以获取每日数据
我有一个季节性很强的产品的每日销售数据。我想在回归模型中捕获季节性。我已经读到,如果您有季度或每月数据,那么在这种情况下,您可以分别创建3和11个虚拟变量-但是我可以处理每日数据吗? 我有三年的每日数据。自变量是价格点,促销标志(是/否)和温度。因变量是该产品的销售额。我不是在寻找时间序列模型,而是在使用多元回归模型。

4
回归模型,其响应变量是通常发生年度事件的一年中的一天
在这种情况下,我指的是湖泊结冰的那一天。该“冰上”日期每年仅发生一次,但有时根本不发生(如果冬天温暖的话)。因此,在一年中,湖泊可能在第20天(1月20日)结冰,而在另一年,它可能根本不会结冰。 目的是找出冰冻日期的驱动因素。 预测因素将是每年的秋季/冬季气温。年份可能是长期线性趋势的预测指标。 1)整数“一年中的一天”是否是合理的响应变量(如果不是,则是什么?)? 2)如何处理湖泊永不结冰的年份? 编辑: 我不知道这里的礼节是什么,但我认为我会张贴收到的建议的结果。这是论文,开放获取。感谢@pedrofigueira和@cboettig,我对使用的方法获得了很好的反馈。当然,错误是我自己的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.