Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。


5
根据平均绝对误差的箱线图删除异常值以改进回归模型是否作弊
我有一个用四种方法测试的预测模型,如下面的箱线图所示。模型预测的属性在0到8的范围内。 您可能会注意到,所有方法都指示一个上界离群值和三个下界离群值。我想知道从数据中删除这些实例是否合适?还是这是一种欺骗,以改善预测模型?

1
尽管一个变量是其他变量的线性组合,但是为什么这种回归不会由于完美的多重共线性而失败?
今天,我正在研究一个小的数据集,并执行了一个简单的OLS回归,由于完美的多重共线性,我预计会失败。但是,事实并非如此。这意味着我对多重共线性的理解是错误的。 我的问题是:我哪里错了? 我认为我可以证明我的一个变量是其他变量的线性组合。这将导致没有完整等级的回归矩阵,因此不应识别系数。 我生成了一个小的可复制数据集(下面的代码): exporter importer flow dist intraUS 1 Canada Canada 996.8677 6.367287 0 2 Florida Canada 995.8219 9.190562 0 3 Texas Canada 1001.6475 4.359063 0 4 Mexico Canada 1002.4371 7.476649 0 5 Canada Florida 1002.8789 5.389223 0 6 Florida Florida 1007.5589 6.779686 1 7 Texas Florida 996.8938 1.570600 …

1
解释方差是什么意思?
特别是,我想知道为什么会有这个概念多元R(我可以理解为多元回归中观察到的分数与预测分数之间的相关性),然后有一个单独的概念R平方,即平方或R。 我被告知R平方是解释的百分比变化而R不是,但是我不理解相关性和解释的变化之间的区别。

3
二次项或交互项在单独意义上都是重要的,但两者都不在一起
作为作业的一部分,我必须对具有两个预测变量的模型进行拟合。然后,我不得不针对所包含的预测变量之一绘制模型残差的图,并根据该残差进行更改。该图显示了曲线趋势,因此我为该预测变量包括了一个二次项。新模型显示二次项很重要。到目前为止一切都很好。 但是,数据表明交互也很有意义。在原始模型中添加一个交互项也可以“固定”曲线趋势,并且在添加到模型中时也非常重要(没有二次项)。问题是,当将二次项和交互项都添加到模型中时,其中一项不重要。 我应该在模型中包括哪个术语(二次方或相互作用),为什么?

1
为什么Rm中的rlm()回归系数估计与lm()不同?
我在R MASS软件包中使用rlm回归多元线性模型。它适用于许多样本,但对于特定模型,我得到了准零系数: Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit) Residuals: Min 1Q Median 3Q Max -7.981e+01 -6.022e-03 -1.696e-04 8.458e-03 7.706e+01 Coefficients: Value Std. Error t value (Intercept) 0.0002 0.0001 1.8418 X1 0.0004 0.0000 13.4478 X2 -0.0004 …

2
VIF,条件索引和特征值
我目前正在评估数据集中的多重共线性。 以下/上方的VIF和条件指数的阈值表示什么问题? VIF: 我听说VIF 是一个问题。≥ 10≥10\geq 10 除去两个问题变量后,VIF是为每个变量。变量是否需要更多处理,或者这个VIF看起来还好吗?≤ 3.96≤3.96\leq 3.96 条件指数: 我听说条件指数(CI)为30或更大是一个问题。我的最高CI为16.66。这有问题吗? 其他问题: 还有其他需要考虑的事项吗? 还有其他需要记住的事情吗?

1
从多个线性模型直观呈现关系的最佳方法
我有一个带有约6个预测变量的线性模型,我将介绍估计值,F值,p值等。但是,我想知道哪种可视化图最好地代表单个预测变量对响应变量?散点图?条件图?效果图?等等?我将如何解释该情节? 我将在R中进行此操作,因此,如果可以的话,请随时提供示例。 编辑:我主要关心呈现任何给定的预测变量和响应变量之间的关系。



1
回归系数和部分回归系数有什么区别?
我在阿卜迪(2003)中读到 当自变量成对正交时,通过计算此自变量与因变量之间的回归斜率,可以评估它们各自在回归中的作用。在这种情况下(即IV的正交性),部分回归系数等于回归系数。在所有其他情况下,回归系数将与部分回归系数不同。 但是,该文档先前并未解释这两种回归系数之间的区别。 Abdi,H.(2003年)。偏回归系数。在Lewis-Beck M.,Bryman,A.,Futing T.(编)(2003年)《社会科学百科全书:研究方法》中。加利福尼亚州千橡市:SAGE出版物。

3
估计
我有一个如下的理论经济模型, y=a+b1x1+b2x2+b3x3+uy=a+b1x1+b2x2+b3x3+u y = a + b_1x_1 + b_2x_2 + b_3x_3 + u 因此,理论认为存在,和因子来估计。x1x1x_1x2x2x_2x3x3x_3yyy 现在我有了真实的数据,我需要估计,,。问题在于实际数据集仅包含和数据;没有数据。所以我实际上可以拟合的模型是:b1b1b_1b2b2b_2b3b3b_3x1x1x_1x2x2x_2x3x3x_3 y=a+b1x1+b2x2+uy=a+b1x1+b2x2+uy = a + b_1x_1 + b_2x_2 + u 可以估计这个模型吗? 我会失去任何估计吗? 如果我确实估计,b_2,那么b_3x_3项去哪儿?b 2 b 3 x 3b1b1b_1b2b2b_2b3x3b3x3b_3x_3 它由错误项uuu吗? 并且我们想假设x3x3x_3与x1x1x_1和x_2不相关x2x2x_2。

1
总体R平方的无偏估计是多少?
我有兴趣在多元线性回归中获得的无偏估计。R2R2R^2 通过反思,我可以想到的无偏估计可能试图匹配的两个不同值。R2R2R^2 出样品的:R2R2R^2如果从样品获得的回归方程时得到的R平方(即)施加于外部的样本数据的无限量,但是从同一数据生成处理。β^β^\hat{\beta} 人口R2R2R^2:如果获得了一个无限样品并且装配到无穷大样品(即,模型时得到的R平方),或者只是R平方由已知数据生成处理暗示。ββ\beta 我知道调整后的R2R2R^2旨在补偿样品观察到的过拟合。尽管如此,现在还不清楚是否调整ř 2实际上是的无偏估计- [R 2,并且如果它是一个无偏估计,其中上述两个定义的R2R2R^2R2R2R^2R2R2R^2它的目标是估计。R2R2R^2 因此,我的问题是: 我对以上所说的样本的无偏估计是多少 ?R2R2R^2 我所说的高于人口的无偏估计是多少 ?R2R2R^2 有没有提供模拟或其他证明无偏见的参考文献?

3
贝叶斯变量选择-真的有效吗?
我以为我可能会喜欢上一些不错的博客文章和其中的链接论文,以选择一些贝叶斯变量来玩。我用rjags(我是个菜鸟)编写了一个程序,并获取了埃克森美孚的价格数据,以及一些不太可能解释其收益的信息(例如,钯金价格)以及其他应该高度相关的信息(例如SP500) )。 运行lm(),我们看到有强有力的证据证明模型过度参数化,但是绝对应该排除钯: Call: lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + EnergyStks, data = chkr) Residuals: Min 1Q Median 3Q Max -1.663e-03 -4.419e-04 3.099e-05 3.991e-04 1.677e-03 Coefficients: Estimate Std. Error t value Pr(>|t|) SP 0.51913 0.19772 2.626 0.010588 * Palladium 0.01620 0.03744 0.433 …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.