Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。

2
多元线性回归中对p值的理解
关于多元线性回归分析的p值,Minitab网站的介绍如下所示。 每个项的p值检验零假设,即该系数等于零(无影响)。低p值(<0.05)表示您可以拒绝原假设。换句话说,具有低p值的预测变量可能是对模型有意义的补充,因为预测变量值的变化与响应变量的变化有关。 例如,我的合成MLR模型为 。输出结果如下所示。然后,可以使用该公式计算。ÿ= 0.46753 X1个− 0.2668 X2+ 1.6193 X3+ 4.5424 X4+ 14.48ÿ=0.46753X1个-0.2668X2+1.6193X3+4.5424X4+14.48 y=0.46753{{X}_{1}}-0.2668{{X}_{2}}+1.6193{{X}_{3}}+4.5424{{X}_{4}}+14.48 ÿÿy Estimate SE tStat pValue ________ ______ _________ _________ (Intercept) 14.48 5.0127 2.8886 0.0097836 x1 0.46753 1.2824 0.36458 0.71967 x2 -0.2668 3.3352 -0.079995 0.93712 x3 1.6193 9.0581 0.17877 0.86011 x4 4.5424 2.8565 1.5902 0.1292 根据上面的介绍,零假设是系数等于0。我的理解是,系数(例如的系数)将设置为0,而另一个y将被计算为。然后对和进行配对t检验,但是该t检验的p值为6.9e-12,不等于0.1292(系数的p值。X4X4X_{4}ÿ2= 0.46753 …

1
回归系数的多元正态分布?
在阅读有关回归的教科书时,我遇到了以下段落: 线性回归系数()向量的最小二乘估计为ββ\beta β^=(XtX)−1Xtyβ^=(XtX)−1Xty \hat{\beta} = (X^{t}X)^{-1}{X^t}y 当将其视为数据的函数(将预测变量视为常数)时,它是数据的线性组合。使用中心极限定理,可以证明如果样本量较大,的分布将近似为多元正态。yyyXXXββ\beta 我肯定在文本中缺少某些内容,但是我不明白单个值如何具有分布?如何生成多个值以获得文本中提到的分布?ββ\betaββ\beta

2
多元线性回归的最少观察数
我正在做多元线性回归。我有21个观察值和5个变量。我的目的只是找到变量之间的关系 我的数据是否足以进行多元回归? t检验结果显示我的3个变量不显着。我是否需要对重要变量再次进行回归(或者我的第一次回归足以得出结论)?我的相关矩阵如下 var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 …

2
在R中拟合多元线性回归:自相关残差
我正在尝试使用以下方程式估算R中的多元线性回归: regr <- lm(rate ~ constant + askings + questions + 0) 问和问题是按季度构建的季度数据时间序列askings <- ts(...)。 现在的问题是我得到了自相关残差。我知道可以使用gls函数拟合回归,但是我不知道如何识别必须在gls函数中实现的正确的AR或ARMA错误结构。 我现在尝试再次估算, gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) 但是很遗憾,我既不是R专家也不是统计学专家来确定p和q。 如果有人可以给我一个有用的提示,我将很高兴。提前非常感谢您! 乔

5
隐藏教授(回归战舰)的回归模型[关闭]
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加细节并通过编辑此帖子来澄清问题。 2年前关闭。 我正在做一项家庭作业,我的教授希望我们创建一个真正的回归模型,模拟数据样本,他将尝试使用我们在课堂上学到的一些技术来寻找我们真正的回归模型。同样,我们将不得不对他给我们的数据集做同样的事情。 他说,过去的所有尝试去欺骗他的人,他都能产生出非常准确的模型。有一些学生创建了一些疯狂的模型,但是可以说他能够产生一个简单的模型就足够了。 我该如何为他找到一个棘手的模型?我不想做4个二次项,3个观测值和大量方差而变得超级便宜吗?我如何才能生成一个看起来无害的数据集,该数据集下面有一个艰难的小模型? 他只是遵循以下3条规则: 您的数据集必须有一个“ Y”变量和20个“ X”变量,分别标记为“ Y”,“ X1”,...,“ X20”。 您的响应变量必须来自满足以下条件的线性回归模型: 其中和。ÿ ' 我 = β 0 + β 1 X ' 我1 + ... + β p - 1 X ' 我,p - 1 + ε 我ε 我〜Ñ (0 ,σ 2)ÿYY ÿ′一世= β0+ β1个X′我1+ … + …

2
当关联最密切的预测变量是二进制时,如何开始建立回归模型
我有数据集包含365观察三个变量即pm,temp和rain。现在,我想检查是否pm响应其他两个变量的变化。我的变量是: pm10 =响应(取决于) temp =预测变量(独立) rain =预测变量(独立) 以下是我的数据的相关矩阵: > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 问题是,当我研究回归模型的构建时,有人写道,可加方法应从与响应变量最相关的变量开始。在我的数据集中,rain它与pm(与相比temp)高度相关,但是同时它也是一个虚拟变量(rain = 1,norain = 0),所以现在我有了从哪里开始的线索。我为问题附加了两个图像:第一个是数据的散点图,第二个图像是pm10vs. 的散点图rain,我也无法解释pm10vs.的散点图rain。有人可以帮我怎么开始吗?

2
3维的多元线性回归是最佳拟合平面还是最佳拟合线?
我们的专家没有进入多元线性回归的数学甚至几何表示,这让我有些困惑。 一方面,即使在更高的维度上,它仍然被称为多元线性回归。在另一方面,如果我们有例如Ÿ = b 0 + b 1 X 1 + b 2 X 2,我们可以在任何值,插上我们想为X 1和X 2,就不该给我们一个可能的解决方案平面而不是一条线?Y^=b0+b1X1+b2X2Y^=b0+b1X1+b2X2\hat{Y} = b_0 + b_1 X_1 + b_2 X_2X1X1X_1X2X2X_2 总的来说,我们的预测表面不是k个独立变量的维超平面吗?kkkkkk

3
偏态数据回归
尝试根据人口统计和服务计算访问次数。数据非常歪斜。 直方图: qq图(左边是对数): m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) city和service是因子变量。 对于所有变量,我都得到一个较低的p值***,但是我也得到了.05的一个较低的r平方。我该怎么办?另一个模型可以工作吗,例如指数模型或其他模型?

3
检测共线性的不同方法的优点是什么?
我想检测共线性是否是我的OLS回归中的问题。我知道方差膨胀因子和条件指数是两种常用的度量,但是我发现很难找到每种方法的优劣或分数应该是确定的任何东西。 指出执行方法和/或适当分数的突出来源将非常有用。 在“是否有理由偏爱多重共线性的特定度量?”时提出了类似的问题。但是我理想的是可以引用一个参考。

2
贝叶斯logit模型-直观的解释?
我必须承认,我以前从未在本科或研究生班上听说过该词。 Logistic回归为贝叶斯是什么意思?我正在寻找从常规物流到贝叶斯物流的过渡解释,类似于以下内容: 这是线性回归模型的方程:E(y)=β0+β1x1+...+βnxnË(ÿ)=β0+β1个X1个+。。。+βñXñE(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n。 这是逻辑回归模型中的方程式:。当y是绝对值时完成此操作。ln(E(y)1−E(y))=β0+β1x1+...+βnxnln⁡(Ë(ÿ)1个-Ë(ÿ))=β0+β1个X1个+。。。+βñXñ\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n 我们要做的是将更改为。E(y)Ë(ÿ)E(y)ln(E(y)1−E(y))ln⁡(Ë(ÿ)1个-Ë(ÿ))\ln(\frac{E(y)}{1-E(y)}) 那么在贝叶斯逻辑回归中对逻辑回归模型做了什么?我猜想这与方程式无关。 这本书的预览似乎定义了,但我不太了解。这些先前的可能性是什么?是什么?有人可以用另一种方式解释本书的这一部分或贝叶斯逻辑模型吗?αα\alpha 注意:这是我之前问过的,但回答得不是很好。

3
可以(应该)在随机效应模型中使用正则化技术吗?
通过正则化技术,我指的是套索,岭回归,弹性网等。 考虑一个包含人口统计和诊断数据的医疗保健数据预测模型,其中预测住院时间。对于某些人,在基线时间段内有多个LOS观测值(即,一个以上IP事件)相关。 例如,建立一个包含每个人随机效应拦截项的弹性净预测模型是否有意义?

4
如何使用回归确定一个系数并拟合其他系数
我想手动固定某个系数,例如,然后将系数拟合到所有其他预测变量,同时在模型中保留。β1=1.0β1=1.0\beta_1=1.0β1=1.0β1=1.0\beta_1=1.0 如何使用R实现此目的?glmnet如果可能的话,我特别想与LASSO()合作。 或者,如何将这个系数限制在特定范围内,例如?0.5≤β1≤1.00.5≤β1≤1.00.5\le\beta_1\le1.0

4
是否对OLS中的遗漏变量偏差进行了测试?
我知道Ramsey重置测试可能会检测到非线性相关性。但是,如果只丢弃其中一个回归系数(仅是线性相关性),则可能会产生偏差,具体取决于相关性。重置测试显然未检测到这一点。 我没有找到针对这种情况的测试,而是这样声明:“除非包含潜在的省略变量,否则您无法测试OVB”。这可能是一个合理的陈述,不是吗?

2
重要的预测变量在多元逻辑回归中变得不重要
当我在两个单独的(单变量)逻辑回归模型中分析变量时,得到以下信息: Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003 Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046 Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001 Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029 但是,当我将它们输入到单个多元逻辑回归模型中时,我得到: Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171 Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, …

2
我应该为每个社区运行单独的回归,还是社区可以简单地作为聚合模型中的控制变量?
我正在运行带有连续资产索引变量作为DV的OLS模型。我的数据来自三个相似的社区,彼此之间的地理位置非常接近。尽管如此,我认为使用社区作为控制变量很重要。事实证明,社区在1%的水平(-4.52的t评分)上具有重要意义。社区是3个不同社区中的1个的名义/类别变量,编码为1,2,3。 我的问题是,这种高度的意义是否意味着我应该对社区进行个别回归,而不是作为一个整体。否则,使用社区作为控制变量是否可以做到这一点?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.