Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 


2
如何在线性回归中对二元/二分法独立预测变量执行残差分析?
我正在下面的R中执行多元线性回归,以预测所管理基金的回报。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) 在这里,只有GRI和MBA是二元/二分法预测因子;其余的预测变量是连续的。 我正在使用此代码生成二进制变量的残差图。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 我的问题: 我知道如何检查残差图是否为连续的预测变量,但是当自变量为二进制时,如何测试线性回归的假设,例如均方差? 残留图:

4
残差对拟合值的对角直线作多元回归
我正在观察数据残差的奇怪模式: [编辑]这是两个变量的部分回归图: [EDIT2]添加了PP图 分布似乎运行良好(请参阅下文),但是我不知道这条直线可能来自何处。有任何想法吗? [UPDATE 31.07] 事实证明您是绝对正确的,我的案例中转发次数确实为0,而这〜15个案例导致了这些奇怪的残留模式。 现在,残差看起来好多了: 我还用黄土线包括了部分回归。


3
一键编码与伪编码的问题
我知道以下事实:具有k个级别的分类变量应使用虚拟编码中的k-1个变量进行编码(与多值分类变量类似)。我想知道针对不同的回归方法,主要是线性回归,惩罚线性回归(Lasso,Ridge,ElasticNet),基于树的(随机森林),单次热编码(即使用k个变量代替)比虚拟编码有多少问题? ,梯度增强机)。 我知道在线性回归中会出现多重共线性问题(即使实际上我使用OHE拟合线性回归也没有任何问题)。 但是,是否需要在所有编码中都使用伪编码?如果使用一热编码,结果将有多大错误? 我的重点是在具有多个(高基数)分类变量的回归模型中进行预测,因此我对置信区间不感兴趣。

2
回归中的B样条VS高阶多项式
我没有特定的示例或任务。我只是使用b样条的新手,我想在回归上下文中更好地了解此函数。 假设我们要评估响应变量与某些预测变量x 1,x 2,...之间的关系。。。,X p。预测变量包括一些数值变量和一些分类变量。yyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p 假设在拟合回归模型后,数值变量之一(例如是有效的。之后的逻辑步骤是评估是否需要更高阶的多项式,例如:x 2 1和x 3 1,以便在不过度拟合的情况下充分说明该关系。x1x1x_1x21x12x_1^2x31x13x_1^3 我的问题是: 在什么时候选择b样条曲线或简单的高阶多项式。例如在R: y ~ poly(x1,3) + x2 + x3 与 y ~ bs(x1,3) + x2 + x3 您如何使用图来告知您在这两者之间的选择,以及从图上还不清楚时会发生什么情况(例如:由于大量数据点) 您将如何评估和x 3之间的双向交互作用项x2x2x_2x3x3x_3 对于不同类型的模型,上述变化如何 您是否会考虑从不使用高阶多项式并始终拟合b样条并惩罚高灵活性?

2
条件均值独立性意味着OLS估计量的无偏性和一致性
考虑以下多元回归模型:Y=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} 这里是列向量; a矩阵; a列向量; Z a n \ times l矩阵;\增量一升\次1个的列向量; 和U,误差项,n \ times1列向量。YYYn×1n×1n\times 1XXXn×(k+1)n×(k+1)n\times (k+1)ββ\beta(k+1)×1(k+1)×1(k+1)\times 1ZZZn×ln×ln\times lδδ\deltal×1l×1l\times 1UUUn×1n×1n\times1 题 我的讲师是《计量经济学概论》教科书,第三版。 詹姆斯·H·斯托克(James H. Stock)和马克·沃森(Mark W.Watson)281,和《计量经济学:荣誉考试复习会》(PDF),第2页。7,向我表达了以下内容。 如果我们假设所谓的条件平均独立性,根据定义,这意味着E(U|X,Z)=E(U|Z),(2)(2)E(U|X,Z)=E(U|Z),E(U|X,Z)=E(U|Z),\tag{2} 并且如果满足最小二乘假设,但条件均值零假设(因此,我们假设)(请参阅1 -3以下),E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z) \neq 0 然后,在这个较弱的假设集合下,中的OLS估计量保持无偏且一致。β^β^\hat{\beta}ββ\beta(1)(1)(1) 我如何证明这一主张?即,1和2以上意味着OLS估计给了我们一个公正的和一致的估计?是否有任何研究文章证明这一主张?ββ\betaββ\beta 评论 最简单的情况是通过考虑线性回归模型给出并证明了OLS估计的如果每个,则是无偏的。Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Y_i=\beta_0+\beta_1X_i+\beta_2Z_i+u_i,\quad i=1,2,\ldots,n,β 1 β 1 È (û 我| X 我,Ž 我)= È (û 我| Ž 我)我β^1β^1\hat{\beta}_1β1β1\beta_1E(ui|Xi,Zi)=E(ui|Zi)E(ui|Xi,Zi)=E(ui|Zi)E(u_i|X_i,Z_i)=E(u_i|Z_i)iii 证明无偏的假设和共同正态分布UiUiU_iZiZiZ_i 定义,然后和因此,可以重写为通过,得出现在,由于和共同为正态分布,因此正态分布的理论请参见。推导多元正态分布的条件分布,表示(实际上,我们不需要假设联合正态性,而只需假设此同一性)对于某乘矢量V=U−E(U|X,Z)V=U−E(U|X,Z)V=U-E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)E(V|X,Z)=0.(*)(*)E(V|X,Z)=0.E(V|X,Z)=0\tag{*}.(1)(1)(1)Y=Xβ+Zδ+E(U|X,Z)+V.(3)(3)Y=Xβ+Zδ+E(U|X,Z)+V.Y=X\beta+Z\delta+E(U|X,Z)+V.\tag{3}(2)(2)(2)Y=Xβ+Zδ+E(U|Z)+V.(4)(4)Y=Xβ+Zδ+E(U|Z)+V.Y=X\beta+Z\delta+E(U|Z)+V.\tag{4}UiUiU_iZiZiZ_i …


2
如何获得具有可靠标准误差的ANOVA表?
我正在使用R中的plm包运行汇总的OLS回归。尽管,我的问题更多是关于基本统计信息,所以我尝试首先将其发布在这里;) 由于我的回归结果会产生异方差残差,因此我想尝试使用异方差稳健的标准误差。作为结果,coeftest(mod, vcov.=vcovHC(mod, type="HC0"))我得到了一个表格,其中包含每个独立变量的估计值,标准误差,t值和p值,这些基本上就是我的“稳健”回归结果。 为了讨论不同变量的重要性,我想绘制每个独立变量解释的方差份额,因此我需要相应的平方和。但是,使用function aov(),我不知道如何告诉R使用可靠的标准错误。 现在我的问题是:如何获得表示稳健标准误差的ANOVA表/平方和?是否可以基于具有正常标准误差的回归,基于ANOVA表进行计算? 编辑: 换句话说,无视我的R发行: 如果使用稳健的标准误差不影响R,那么不同解释变量对解释方差的各自贡献也将保持不变吗?22^2 编辑: 在R中,aov(mod)实际上是否为panelmodel(plm)提供了正确的ANOVA表?

2
多元回归和多重比较
说我适合p个解释变量的多元回归。t检验将允许我检查如果这些中的任意单个是显著()。我可以进行部分F检验,以检查其中的某些子集是否有意义()。H0:β一世= 0H0:β一世=0H_0: \beta_i = 0H0:β一世= βĴ= 。。。= βķ= 0H0:β一世=βĴ=。。。=βķ=0H_0: \beta_i=\beta_j=...=\beta_k=0 我经常看到的是,某人从5个t检验中获得了5个p值(假设他们有5个协变量),而仅保持p值<0.05。这似乎有点不正确,因为确实应该进行多重比较检查吗?说像和是有意义的但不是,和这样的东西真的很公平吗?β1个β1个\beta_1β2β2\beta_2β3β3\beta_3β4β4\beta_4β5β5\beta_5 在相关说明中,假设我对2个独立模型(不同结果)进行了2个回归。是否需要对两个结果之间的重要参数进行多重比较检查? 编辑: 为了与类似的问题区分开,对p值是否还有其他解释:“在对所有其他协变量进行调整时,B_i是(有效的)”?似乎这种解释并不能让我查看每个B_i并将那些小于0.5的B_i删除(这与另一篇文章类似)。 在我看来,一种确定B_i和Y是否存在关系的肯定方法是为每个协变量获取一个相关系数p值,然后执行multcomp(尽管这肯定会丢失信号)。 最后,假设我计算了B1 / Y1,B2 / Y1和B3 / Y1之间的相关性(因此是三个p值)。无关地,我还在T1 / Y2,T2 / Y2,T3 / Y2之间进行了关联。我假设正确的Bonferroni调整对于所有6个测试一起为6(而不是第一组为3,第二组为3-从而获得2个“半”调整后的p值)。

3
多元回归中解释变量之间的线性关系
我正在阅读《使用R:基于示例的方法进行数据分析和图形》的多元回归一章,感到有点困惑,以至于发现它建议检查解释变量之间的线性关系(使用散点图),如果没有,牛逼的任何,转化他们,使他们也变得更加线性相关的。以下是一些摘录: 6.3拟合多元回归模型的策略 (...) 检查涉及所有解释变量的散点图矩阵。(在这一点上,包括因变量是可选的。)首先看一下解释变量相互之间的关系图中是否存在非线性的证据。 (...) 这一点确定了一种模型搜索策略- 搜索模型,其中解释变量之间的回归关系遵循“简单”线性形式。因此,如果某些成对图显示出非线性的证据,请考虑使用变换来给出更接近线性的关系。尽管不一定可以证明采用这种策略可以对回归关系进行充分建模,但出于以下原因,这是开始进行搜索时遵循的良好策略。 (...) 如果解释变量之间的关系近似线性,也许是在变换之后,则可以放心地将预测变量对响应变量的图进行解释。 (...) 可能无法找到一个或多个说明变量的变换,以确保面板中显示的(成对)关系呈现线性。这就会产生问题无论对于诊断地块解释为任何拟合回归方程的系数的解释在拟合方程。参见Cook和Weisberg(1999)。 我不应该担心因变量之间的线性关系(由于存在多重共线性的风险)而不是积极地追求它们吗?具有近似线性相关变量的优点是什么? 作者将在本章稍后部分讨论多重共线性的问题,但此建议似乎与避免多重共线性有关。

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

4
为什么要在差异中使用控制变量?
我对使用以下标准方程式的“差异中的差异”方法有疑问: 这里treat是治疗组和岗位的虚拟变量。 y=a+b1treat+b2post+b3treat⋅post+uy=a+b1treat+b2post+b3treat⋅post+u y= a + b_1\text{treat}+ b_2\text{post} + b_3\text{treat}\cdot\text{post} + u 现在,我的问题很简单:为什么大多数论文仍然使用其他控制变量?我认为,如果平行趋势假设是正确的,那么我们就不必担心额外的控制措施。我只能想到使用控制变量的2个可能原因: 没有它们,趋势将不会平行 因为DnD规范将治疗时治疗组和对照组之间趋势的任何差异归因于干预措施(即,交互作用术语*治疗后)-当我们不控制其他变量时,交互作用系数可能会超过-/低估了 有人可以阐明这个问题吗?我的理由1)或2)完全有意义吗?我对DnD中控制变量的使用不完全了解。

1
是否有Pillai迹线和Hotelling-Lawley迹线的推广?
在多元多元回归(向量回归和回归)的设置中,一般假设的四个主要检验(Wilk's Lambda,Pillai-Bartlett,Hotelling-Lawley和Roy's最大根)都取决于矩阵的特征值。,其中和是“解释”和“总计”变异矩阵。高EHË− 1HE−1H E^{-1}HHHËEE 我注意到Pillai和Hotelling-Lawley统计信息都可以表示为 分别表示。我正在寻找一个应用,其中情况下,对于和的总体类似物定义的该迹线的分布是有意义的。(我的工作中存在模错误。)我很好奇,如果通用的样本统计信息存在某种已知的统一性,或者捕获了四个经典测试中的两个或多个的其他通用性。我意识到不等于或κ = 1 ,0 ħ ë κ = 2 κ κ 0 1ψκ= Tr (高[ κ ħ+ E]− 1),ψκ=Tr(H[κH+E]−1),\psi_{\kappa} = \mbox{Tr}\left(H\left[\kappa H + E\right]^{-1}\right),κ = 1 , 0κ=1,0\kappa = 1, 0HHHËEEκ = 2κ=2\kappa = 2κκ\kappaκκ\kappa0001个11,分子在零下不再看起来像卡方,因此中心F逼近似乎值得怀疑,所以也许这是一个死胡同。 我希望对零下(即回归系数的真矩阵全为零)下和替代下的的分布进行一些研究。我对情况特别感兴趣,但是,如果在一般κ情况下有工作,我当然可以使用。ψκψκ\psi_{\kappa}κ = 2κ=2\kappa = 2κκ\kappa

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.