Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。


1
多重相关系数和确定系数几何解释
我对回归的多重相关性和确定系数的几何含义感兴趣或矢量记号,RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} 这里的设计矩阵有行和列,其中第一个是,它是1s的向量,对应于截距。XX\mathbf{X}nnnkkkx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_nβ1β1\beta_1 在维主题空间而不是维变量空间中,几何更有趣。定义帽子矩阵:nnnkkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top 这是的列空间上的正交投影,即 由代表每个变量的向量跨越的原点的平坦部分,其中第一个是。然后将观测到的响应投影到平面上的“阴影”上,拟合值的向量,如果沿着投影的路径看,我们会看到残差向量形成了三角形的第三边。这应该为我们提供两种途径来对进行几何解释XX\mathbf{X}kkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}ý = ħ Ŷ ë = ÿ - ÿ - [R 2yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}R2R2R^2: 多重相关系数的平方,它定义为和之间的相关性。这将在几何上显示为角度的余弦。RRRÿyy\mathbf{y}y^y^\mathbf{\hat{y}} …


3
在解释变量的回归系数时,其顺序是否重要?
起初我以为顺序无关紧要,但是后来我了解了用于计算多个回归系数的gram-schmidt正交化过程,现在我有了第二个想法。 根据gram-schmidt过程,在其他变量中索引解释性变量的时间越晚,其残差矢量越小,这是因为从中减去了先前变量的残差矢量。结果,说明变量的回归系数也较小。 如果这是真的,那么该变量的残差矢量如果被更早地索引,则将更大,因为将从中减去的残差矢量会更少。这意味着回归系数也将更大。 好的,所以我被要求澄清我的问题。因此,我从文本中发布了屏幕截图,这让我一开始很困惑。好的,去。 我的理解是,至少有两个选择来计算回归系数。第一个选项在下面的屏幕截图中表示为(3.6)。 这是第二个选项(我不得不使用多个屏幕截图)。 除非我误读了某些内容(这肯定是可能的),否则在第二种选择中顺序似乎很重要。第一种选择有关系吗?为什么或者为什么不?还是我的参照系太混乱了,甚至不是一个有效的问题?另外,这是否与I型平方和vs II型平方和相关? 在此先多谢,我很困惑!


6
高级回归建模示例
我正在寻找高级线性回归案例研究,以说明使用GLM或OLS建模复杂的多个非线性关系所需的步骤。很难找到超出基本学校例子的资源:我读过的大多数书都不会超出响应的对数转换以及一个预测变量的BoxCox或最佳情况下的自然样条。同样,到目前为止,我所看到的所有示例都在单独的模型(通常在单个预测器模型中)中解决每个数据转换问题。 我知道BoxCox或YeoJohnson转换是什么。我正在寻找的是详细的,真实的案例研究,其中的响应/关系不清楚。例如,响应并非严格为正(因此您不能使用log或BoxCox),预测变量之间以及与响应之间均具有非线性关系,并且最大似然数据转换似乎并不意味着标准0.33或0.5指数。同样,发现剩余方差是非恒定的(从未如此),因此也必须转换响应,并且必须在非标准GLM族回归或响应转换之间进行选择。研究人员可能会做出选择,以避免过度拟合数据。 编辑 到目前为止,我收集了以下资源: 回归建模策略,F。Harrell 应用计量经济学时间序列,W。恩德斯 具有R,G. Petris的动态线性模型 应用回归分析,D。Kleinbaum 统计学习概论,G。James / D。维滕 我只读了最后一篇(ISLR),尽管它比高级回归建模更着重于ML,但它是一篇很好的文章(手表上有5颗五星)。 还有这对CV呈现一个具有挑战性的回归情况下,好的职位。

3
多元回归中的“其他所有条件”是什么意思?
当我们这样做多元回归,说我们正在寻找在平均变化在一个变化的变量变量,保存了在其他变量不变,什么值,我们持有的其他变量不变?他们的意思是?零?有什么价值吗?ÿyyXxx 我倾向于认为它具有任何价值。只是在寻求澄清。如果有人有证明,那也将是一件好事。

4
多重插补和模型选择
当您具有要估计的先验线性模型时,多重插补非常简单。但是,当您实际上要进行一些模型选择时,事情似乎有些棘手(例如,从更大的一组候选变量中找到“最佳”预测变量集-我正在特别考虑使用R的LASSO和分数多项式)。 一种想法是使模型适合具有丢失值的原始数据,然后在MI数据集中重新估计该模型,并像平常一样合并估计。但是,这似乎有问题,因为您期望出现偏差(或者为什么首先要选择MI?),这可能会导致从一开始就选择“错误的”模型。 另一个想法是要在每个MI数据集中使用任何模型选择过程-但是如果结果包含不同的变量集,您将如何合并结果呢? 我曾经想过要堆叠一组MI数据集,并将它们分析为一个大型数据集,然后将其用于拟合单个“最佳”模型,并包括随机效应以说明您对以下问题使用重复测量的事实每个观察。 听起来合理吗?还是天真地令人难以置信?任何有关此问题的指针(具有多个插补的模型选择)将不胜感激。

4
多元回归中预测变量的重要性:部分与标准化系数
我想知道线性模型中部分与系数之间的确切关系是什么,我是否应该仅使用一个或两个来说明因素的重要性和影响。R2R2R^2 据我所知,summary我得到了系数的估计值,并且得到anova了每个因子的平方和-一个因子的平方和除以平方和加残差的和的比例为(以下代码位于中)。R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 *** young 8.173e-01 …

2
如何描述或可视化多元线性回归模型
我正在尝试使用几个输入参数(例如3)将多元线性回归模型拟合到我的数据中。 F(x )F(x )= A x1个+ B x2+ CX3+ d要么= (A B C )Ť(x1个 X2 X3)+d(i)(ii)(一世)F(X)=一种X1个+乙X2+CX3+d要么(ii)F(X)=(一种 乙 C)Ť(X1个 X2 X3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align} 如何解释和可视化此模型?我可以想到以下选项: 提及描述的回归方程(系数,常数)以及标准偏差,然后提及残差图以显示该模型的准确性。 (我)(一世)(i) 独立变量和因变量的成对图,如下所示: 一旦系数已知,可以将用于获得方程式的数据点压缩为它们的实际值。也就是说,训练数据具有而不是,,,形式的新值,其中每个自变量乘以其各自的系数。然后,可以将此简化版本直观地显示为简单回归,如下所示:x …

5
多元回归的假设:正态性假设与恒定方差假设有何不同?
我读到这些是使用多元回归模型的条件: 模型的残差几乎是正常的, 残差的变异性几乎恒定 残差是独立的,并且 每个变量都与结果线性相关。 1和2有何不同? 您可以在这里看到一个: 因此,上图表明,相距2个标准差的残差与Y帽相距10个。这意味着残差遵循正态分布。您不能从中推断出2吗?残差的变异性几乎恒定吗?


2
将多元线性模型转换为多元回归
将多元线性回归模型重铸为多元线性回归是否完全等效?我指的不是简单地运行单独的回归。ttt 我已经在几个地方(贝叶斯数据分析-Gelman等人,以及Multivariate Old School-Marden)中读到了这一点,可以很容易地将多元线性模型重新参数化为多元回归。但是,两个消息来源都没有对此进行详细说明。他们本质上只是提到它,然后继续使用多元模型。数学上,我将首先编写多元版本, Yn×t=Xn×kBk×t+Rn×t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, 其中粗体变量是矩阵,其大小在其下方。和往常一样,是数据,是设计矩阵,是正态分布的残差,而是我们感兴趣的推理对象。X R BYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} 要将其重新参数化为熟悉的多元线性回归,只需将变量重写为: ynt×1=Dnt×nkβnk×1+rnt×1,ynt×1=Dnt×nkβnk×1+rnt×1, \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, 其中使用的重新参数化为y=row(Y)y=row(Y)\mathbf{y} = row(\mathbf{Y}) ,β=row(B)β=row(B)\boldsymbol\beta = row(\mathbf{B})和D=X⊗InD=X⊗In\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}。 row()row()row()表示矩阵的行首尾相连排列成一个长向量,⊗⊗\otimes是kronecker或外部乘积。 …


2
当我在回归中包含平方变量时会发生什么?
我从我的OLS回归开始: 其中D是虚拟变量,估计值与p值低的零不同。然后,我进行了Ramsey RESET测试,发现我对该方程有一些误称,因此我将平方x包括在内: ÿ = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 d + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 平方项解释了什么?(Y非线性增加?) 通过这样做,我的D估计值不再从零变化,而具有较高的p值。我如何解释方程式中的平方项(通常)? 编辑:改善问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.