Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。

4
带有延迟和时间序列的多元线性回归之间的“机械”区别是什么?
我是商业和经济学专业的毕业生,目前正在攻读数据工程硕士学位。在研究线性回归(LR)然后进行时间序列分析(TS)时,我想到了一个问题。为什么要创建一种全新的方法,即时间序列(ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用ACF和PACF确定滞后的顺序)?所以老师建议我写一篇关于这个问题的文章。我不会徒劳地寻求帮助,所以我做了关于该主题的研究。 我已经知道使用LR时,如果违反了高斯-马尔可夫假设,则OLS回归是不正确的,并且在使用时间序列数据(自相关等)时会发生这种情况。(与此有关的另一个问题是,一个通用汽车假设是自变量应该是正态分布的?还是仅以自变量为条件的因变量?) 我也知道,当使用分布式滞后回归(这是我在这里提出的建议)并使用OLS估计参数时,变量之间的多重共线性可能(显然)会出现,因此估计将是错误的。 在关于TS和LR的类似帖子中,@ IrishStat说: ...回归模型是传递函数模型的一种特殊情况,也称为动态回归模型或XARMAX模型。重点是在时间序列中进行模型识别,即适当的差异,适当的X滞后,适当的ARIMA结构,适当的未确定的确定性结构的识别,例如脉冲,水平移动,本地时间趋势,季节性脉冲和合并必须考虑参数变化或误差变化。 (我也在Autobox中阅读了他关于Box Jenkins vs LR的论文。)但这仍然不能解决我的问题(或者至少没有为我澄清RL和TS的不同机制)。 显然,即使存在滞后变量,OLS也会出现问题,而且效率不高也不正确,但是如果使用最大可能性,这些问题是否还会持续存在?我已经读过ARIMA是通过最大似然估计的,因此,如果使用ML而不是OLS估计带有滞后的LR,它是否会产生“正确”的系数(让我们假设还包括滞后误差项,例如阶次MA) q)。 简而言之,是OLS问题吗?应用ML是否解决了问题?


2
多元线性回归模拟
我是R语言的新手。我想知道如何从满足回归的所有四个假设的多重线性回归模型进行模拟。 好的谢谢。 假设我要基于此数据集模拟数据: y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67) x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500) x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2) fit<-lm(y~x1+x2) summary(fit) 然后我得到输出: Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -13.2805 -7.5169 -0.9231 7.2556 12.8209 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 42.85352 11.33229 3.782 0.00149 ** x1 -0.02534 0.01293 -1.960 0.06662 . x2 0.33188 2.41657 …


2
变量选择的方法相互冲突:AIC,p值或两者?
据我了解,基于p值的变量选择(至少在回归上下文中)存在很大缺陷。出于相似的原因,基于AIC(或类似方法)的变量选择似乎也被认为存在缺陷,尽管这似乎还不清楚(例如,请参见我的问题和有关此主题的一些链接:“逐步模型选择”到底是什么?)。 但是说您确实选择了这两种方法之一来选择模型中的最佳预测变量集。 Burnham and Anderson 2002(模型选择和多模型推断:一种实用的信息理论方法,第83页)指出,不应将基于AIC的变量选择与基于假设检验的变量选择混合:“对原假设和信息理论方法的检验应不能一起使用;它们是非常不同的分析范例。” 另一方面,Zuur等。2009年(《具有生态学扩展的混合效应模型,R》第541页)似乎主张使用AIC首先找到最佳模型,然后使用假设检验执行“微调”:“缺点是AIC可能比较保守。 ,一旦AIC选择了最佳模型,您可能需要进行一些微调(使用从方法一获得的假设检验)。” 您会看到这如何使两本书的读者对采用哪种方法感到困惑。 1)这些只是统计思维的不同“阵营”和统计学家之间的分歧话题吗?这些方法之一现在是否只是简单地“过时”,但在撰写本文时被认为适当?还是从一开始就是一个明显的错误? 2)在这种情况下是否适合使用这种方法?例如,我来自生物学背景,我经常试图确定哪些变量似乎影响或推动了我的反应。我经常有很多候选的解释变量,我试图找出哪些是“重要的”(相对而言)。另外,请注意,候选预测变量的集合已经减少到被认为具有某些生物学相关性的变量,但是它可能仍然包括5-20个候选预测变量。

4
两个变量的总和如何比单个变量解释更多的方差?
当两个预测变量负相关时,我得到的总和与第三个变量的相关性令人困惑。是什么导致这些令人困惑的结果? 示例1:两个变量的总和与第三个变量之间的相关性 考虑Guildford 1965年文本第427页的公式16.23,如下所示。 困惑的发现:如果两个变量都将.3与第三个变量相关联,并且将-.7彼此相关联,则公式得出的值为.52。如果两个变量各自仅与第三个变量相关联为0.2,那么总和与第三个变量的相关性如何为0.52? 示例2:两个变量和第三个变量之间的多重相关性是什么? 考虑Guildford 1965年文本的404页上的公式16.1(如下所示)。 令人困惑的发现:情况相同。如果两个变量都将.3与第三个变量相关联,并将-.7彼此相关联,则公式得出的值为.52。如果两个变量各自仅与第三个变量相关联为0.2,那么总和与第三个变量的相关性如何为0.52? 我尝试了一个快速的蒙特卡洛模拟,它证实了吉尔福德公式的结果。 但是,如果两个预测变量各自预测第三个变量的方差的4%,那么它们之和如何能预测1/3的方差? 资料来源:《心理学和教育基础统计学》,第四版,1965年。 澄清说明 我正在处理的情况涉及基于现在衡量个人能力来预测他们的未来表现。 下面的两个维恩图显示了我对情况的理解,旨在澄清我的困惑。 该维恩图(图1)反映了x1和C之间的零阶r = .2。在我的领域中,有许多这样的预测变量可以适度地预测标准。 该维恩图(图2)反映了两个这样的预测变量x1和x2,每个预测变量在r = .2时预测C,并且两个预测变量呈负相关,r =-。7。 我不知所措,无法想象两个r = .2预测变量之间的关系,可以使它们一起预测C的25%的方差。 我寻求帮助来了解x1,x2和C之间的关系。 如果(有人回答我的问题建议)x2充当x1的抑制变量,那么第二维恩图中的哪个区域被抑制? 如果有一个具体的例子会有所帮助,我们可以认为x1和x2是两个人的能力,而C是四年后的四年制大学GPA。 我在设想抑制器变量如何导致两个r = .2零阶r的8%解释方差扩大并解释C的25%方差时遇到了麻烦。一个具体的示例将是一个非常有用的答案。


1
比率分析技术
我正在寻找有关比率和费率分析的建议和意见。在我工作的领域中,尤其是比率的分析非常普遍,但是我已经阅读了几篇论文,表明这可能是有问题的,我在想: Kronmal,Richard A.1993。重新讨论了比率标准的虚假相关和谬误。皇家统计协会杂志A 156(3):379-392 及相关论文。根据我到目前为止所读的内容,比率似乎可以产生虚假的相关性,迫使回归线穿过原点(这并不总是合适的),并且如果不正确地进行建模,可能会违反边际原理(在理查德·戈德斯坦(Richard Goldstein)中使用比率回归))。但是,在某些情况下必须合理使用比率,我希望统计学家对此发表一些意见。

2
如何解释Stata中的概率模型?
我不确定如何解释我在Stata上运行的概率回归。数据是关于贷款批准的,白色是一个虚拟变量,如果一个人是白人,则为= 1,否则为= 0。任何有关如何阅读此书的帮助将不胜感激。我最想寻找的是如何找到白人和非白人的贷款批准估计概率。有人可以帮我解决这里的文字以及如何使其正常吗?对不起,我不知道该怎么做。 . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) = 78.94 Prob > chi2 = 0.0000 Log likelihood = …

1
线性回归与空间自相关
我想使用通过遥感获得的一些变量来预测某个地区的树高。像近似生物量,等等。我想首先使用线性回归(我知道这不是最好的主意,但这对我的项目来说是必不可少的步骤)。我想知道空间自相关对它的影响有多严重,如果可能的话,最简单的纠正方法是什么。顺便说一下,我正在R中做所有事情。

2
如何在多元回归分析中使用
下图是回归测试的残留散点图,对于这些测试,可以肯定已经满足“正态性”,“均方差性”和“独立性”的假设!为了测试“线性”假设,尽管通过查看图表可以推测出该关系是曲线的,但是问题是:“ R2线性”的值如何用于测试线性假设?“ R2线性”值确定该关系是否为线性的可接受范围是什么?如果不满足线性假设并且对IV进行转换也无济于事怎么办? 这是测试完整结果的链接。 散点图:

6
个体回归显着但VIF较低时的多重共线性
我有6个变量(),我使用预测ÿ。在执行数据分析时,我首先尝试了多元线性回归。因此,只有两个变量是重要的。但是,当我进行线性回归将每个变量分别与y进行比较时,除一个变量外,其他所有变量都是显着的(p范围从小于0.01到小于0.001)。有人认为这是由于多重共线性。X1个。。。X6x1...x6x_{1}...x_{6}ÿyyÿyyppp 我对此的初步研究建议使用VIF检查多重共线性。我从R下载了适当的软件包,并最终得到了VIF:3.35、3.59、2.64、2.24和5.56。根据在线上的各种消息来源,您应该担心与VIF的多重共线性是4还是5。 我现在对这对我的数据意味着什么感到困惑。我还是没有多重共线性问题?如果这样做,该如何进行?(我无法收集更多数据,并且变量是模型中没有明显关联的部分)如果我没有这个问题,那我应该从我的数据中获取什么,尤其是这些变量具有很高的意义单独,但组合起来根本不重要。 编辑:有关数据集的一些问题,所以我想扩展... 在这种特殊情况下,我们希望了解特定的社交提示(手势,凝视等)如何影响某人产生其他提示的可能性。我们希望我们的模型包括所有重要的属性,因此我不愿意删除一些似乎多余的属性。 目前没有任何假设。相反,这个问题尚未研究,我们正在寻求对哪些属性很重要的更好的理解。据我所知,这些属性应该彼此相对独立(您不能只说凝视和手势相同,或者是另一个子集)。能够报告所有结果的p值将是一件很高兴的事情,因为我们希望其他研究人员能够了解所研究的内容。 编辑2:由于它出现在下面的某处,所以我的是24。ñnn

1
刚刚确定的2SLS中位数是无偏的吗?
在《最无害的计量经济学:经验主义者的同伴》中(Angrist and Pischke,2009:第209页),我读到以下内容: (...)实际上,刚刚确定的2SLS(即简单的Wald估计量)几乎是无偏的。这很难正式显示,因为刚刚确定的2SLS没有任何时刻(即,采样分布有粗尾)。但是,即使仪器较弱,刚刚确定的2SLS也会大致居中。因此,我们说刚刚确定的2SLS是中值无偏的。(...) 虽然作者说是刚刚确定的2SLS是中位数,不带偏见,他们既没有证实,也没有提供一个参考的证据。他们在第213页再次提到了该命题,但没有提及证明。另外,我在麻省理工学院第22页的关于工具变量的讲义中找不到提出这一主张的动机。 原因可能是该提议是错误的,因为他们在博客的注释中拒绝了该提议。但是,他们写道,刚刚确定的2SLS 近似为中值。他们使用一个小型的蒙特卡洛实验来激发这一点,但没有提供分析证明或与近似值相关的误差项的封闭式表达。无论如何,这是作者对密歇根州立大学教授Gary Solon的答复,他评论说刚刚确定的2SLS 并非中性的。 问题1:如何证明刚刚确定的2SLS 并不像Gary Solon所说的那样是中性的? 问题2:如Angrist和Pischke所论,您如何证明刚刚确定的2SLS 近似中值无偏? 对于问题1,我正在寻找一个反例。对于问题2,我(主要)是在寻找证明或参考证明。 在这种情况下,我也在寻找中值无偏差的正式定义。我理解这个概念如下:估计器θ(X 1 :Ñ)的θ基于某些设定的X 1 :ñ的Ñ随机变量是中值无偏为θ当且仅当的分布θ(X 1 :n)具有中值θ。θ^(X1:n)θ^(X1:n)\hat{\theta}(X_{1:n})θθ\thetaX1:nX1:nX_{1:n}nnnθθ\thetaθ^(X1:n)θ^(X1:n)\hat{\theta}(X_{1:n})θθ\theta 笔记 在刚刚确定的模型中,内生回归变量的数量等于工具数量。 {YX=Xβ+Wγ+u=Zδ+Wζ+v(1)(1){Y=Xβ+Wγ+uX=Zδ+Wζ+v\begin{cases} Y&=X\beta+W\gamma+u \\ X&=Z\delta+W\zeta+v \end{cases}\tag{1}XXXk×n+1k×n+1k\times n+1kkkk×n+1k×n+1k\times n+1ZZZWWWuuuvvv ββ\beta(1)(1)(1)XXXZZZWWWX^X^\hat{X}YYYX^X^\hat{X}WWWX^X^\hat{X}ββ\beta yi=α+βxi+uiyi=α+βxi+uiy_i=\alpha+\beta x_i+u_ixixix_iziziz_iββ\betaβ^2SLS=sZYsZX,(2)(2)β^2SLS=sZYsZX,\hat{\beta}^{\text{2SLS}}=\frac{s_{ZY}}{s_{ZX}}\tag{2},sABsABs_{AB}AAABBB(2)(2)(2)β^2SLS=∑i(yi−y¯)zi∑i(xi−x¯)zi=β+∑i(ui−u¯)zi∑i(xi−x¯)zi(3)(3)β^2SLS=∑i(yi−y¯)zi∑i(xi−x¯)zi=β+∑i(ui−u¯)zi∑i(xi−x¯)zi\hat{\beta}^{\text{2SLS}}=\frac{\sum_i(y_i-\bar{y})z_i}{\sum_i(x_i-\bar{x})z_i}=\beta+\frac{\sum_i(u_i-\bar{u})z_i}{\sum_i(x_i-\bar{x})z_i}\tag{3}y¯=∑iyi/ny¯=∑iyi/n\bar{y}=\sum_iy_i/nx¯=∑ixi/nx¯=∑ixi/n\bar{x}=\sum_i x_i/nu¯=∑iui/nu¯=∑iui/n\bar{u}=\sum_i u_i/nnnn 我进行了文献搜索,使用“正当识别”和“中位数无偏”一词来查找回答问题1和2的参考文献(请参见上文)。我什么都没找到。我发现(见下文)的所有文章都提到Angrist和Pischke(2009:第209、213页)时指出刚确定的2SLS是中值无偏的。 Jakiela,P.,Miguel,E.,&Te Velde,VL(2015)。您已经赢得了它:估算人力资本对社会偏好的影响。实验经济学,18(3),385-407。 An,W.(2015年)。工具变量估计社交网络中的对等效应。社会科学研究,50,382-394。 Vermeulen,W.和Van Ommeren,J.(2009)。土地利用规划会影响区域经济吗?同时分析了荷兰的住房供应,内部移民和当地就业增长。住房经济学杂志,18(4),294-310。 Aidt,TS,&Leon,G.(2016年)。民主的机会之窗:撒哈拉以南非洲骚乱的证据。冲突解决杂志,60(4),694-717。


1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.