Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。

3
为什么多项式回归被视为多元线性回归的特例?
如果多项式回归建模非线性关系,那么如何将其视为多元线性回归的特殊情况? Wikipedia指出:“尽管多项式回归将非线性模型拟合到数据中,但作为统计估计问题,它是线性的,这是因为在估计的未知参数中回归函数是线性的从数据中。”E(y|x)E(y|x)\mathbb{E}(y | x) 如果参数是 2 阶项的系数,则多项式回归如何在未知参数中线性化?≥≥\ge

2
多元回归还是偏相关系数?两者之间的关系
我什至不知道这个问题是否有意义,但是多元回归和部分相关之间有什么区别(除了相关性和回归之间的明显区别之外,这不是我的目标)? 我想弄清楚以下几点: 我有两个自变量(,)和一个因变量()。现在,独立变量不再与因变量相关。但是对于给定的当减小时减小。那么,我是否可以通过多元回归或偏相关来分析呢?X 2 ý X 1个 ÿ X 2X1个x1x_1X2x2x_2ÿyyX1个x1x_1 ÿyyX2x2x_2 编辑以希望改善我的问题: 我正在尝试了解多元回归和偏相关之间的区别。所以,当对于给定的减小时降低,是由于的组合效果和上(多重回归),或者它是由于去除的效果(部分相关)?x 1 x 2 x 1 x 2 y x 1ÿyyX1个x1x_1X2x2x_2X1个x1x_1X2x2x_2ÿyyX1个x1x_1

7
选择要包含在多元线性回归模型中的变量
我目前正在使用多元线性回归建立模型。在摆弄我的模型之后,我不确定如何最好地确定要保留哪些变量以及要除去哪些变量。 我的模型从DV的10个预测变量开始。当使用所有10个预测变量时,有4个被认为是重要的。如果仅删除一些明显不正确的预测变量,那么一些最初不重要的预测变量将变得很重要。这使我想到了一个问题:如何确定要在模型中包括哪些预测变量?在我看来,您应该对所有预测变量运行一次模型,删除不重要的预测变量,然后重新运行。但是,如果只删除其中一些预测变量会使其他预测变量变得重要,那么我想知道我是否对所有这些方法都采用了错误的方法。 我认为该主题与我的问题类似,但是我不确定我是否正确解释了讨论内容。也许这更多是一个实验性设计主题,但也许有人可以分享一些经验。

3
线性回归中的显着矛盾:系数的显着t检验与总体F统计量的不显着
我正在4个类别变量(每个有4个级别)和一个数值输出之间拟合多元线性回归模型。我的数据集有43个观测值。 回归为每个斜率系数提供了检验的以下:。因此,第4个预测变量的系数在置信度下很重要。pppttt.15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02α=.05α=.05\alpha = .05 另一方面,从我所有斜率系数都为零的零假设的整体检验中,回归给出了值。对于我的数据集,此值为。pppFFFppp.11.11.11 我的问题:我应该如何解释这些结果?其中ppp我应该使用值,为什么?在α = 0.05的置信度下,第4个变量的系数是否与000显着不同?α=.05α=.05\alpha = .05 我已经看到了相关的问题,FFF和ttt的回归统计,但有相反的情况:高ttt -test ppp -值和低FFF -test ppp -值。老实说,我不太了解为什么除了t检验外还需要FFF检验,以了解线性回归系数是否显着不同于零。ttt

5
如何得出多元线性回归的最小二乘估计?
在简单线性回归的情况下,您可以得出最小二乘估计量这样您就不必知道即可估算β 1 = Σ (X 我 - ˉ X)(Ý 我 - ˉ ÿ)y=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 假设我有,我怎么得到而不估计\帽子\ beta_2?还是不可能?β 1 β 2y=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
当不满足假设时,回归模型有多不正确?
在拟合回归模型时,如果不满足输出的假设,将会发生什么,特别是: 如果残差不均等会怎样?如果残差在残差与拟合图中显示出增加或减少的模式。 如果残差不是正态分布并且未通过Shapiro-Wilk检验,会发生什么?Shapiro-Wilk正态性检验是一个非常严格的检验,有时,即使Normal-QQ图看起来有些合理,数据也无法通过检验。 如果一个或多个预测变量不是正态分布,在正态QQ图上看起来不正确,或者数据未通过Shapiro-Wilk检验,该怎么办? 我知道没有硬的黑白划分,0.94是正确的,而0.95是错误的,在这个问题上,我想知道: 未能通过正态性意味着对于根据R-Squared值而言非常合适的模型。它变得不那么可靠,还是完全没有用? 偏差在多大程度上可以接受,或者完全可以接受? 当对数据应用转换以满足正态性标准时,如果数据更正常(Shapiro-Wilk测试中的P值较高,正常QQ图上的外观更好),或者该模型无用(等效值或比原始版本差),直到数据通过正常性测试?


6
为什么我们需要多元回归(而不是一堆单变量回归)?
我刚刚浏览了这本精彩的书:Johnson和Wichern的应用多元统计分析。具有讽刺意味的是,我仍然无法理解使用多变量(回归)模型而不是单独的单变量(回归)模型的动机。我经历了stats.statexchange帖子1和2,它们解释了(a)多元回归和多元回归之间的差异和(b)多元回归结果的解释,但是我无法根据所有信息调整使用多元统计模型上网了解他们。 我的问题是: 为什么我们需要多元回归?为了得出推论,同时考虑结果而不是单独考虑结果的好处是什么。 何时使用多元模型以及何时使用多个单变量模型(针对多个结果)。 举一个在UCLA网站上给出的例子,它具有三个结果:控制源,自我概念和动机。关于1.和2.,当我们进行三个单变量多元回归与一个多元多元回归时,我们可以比较分析吗?如何证明彼此的正当性? 我还没有碰到很多利用多元统计模型的学术论文。这是因为存在多元正态性假设,模型拟合/解释的复杂性还是任何其他特定原因?

3
执行变量选择时如何处理多重共线性?
我有一个包含9个连续自变量的数据集。我正在尝试从这些变量中进行选择,以使模型适合单个百分比(因变量)变量Score。不幸的是,我知道几个变量之间将存在严重的共线性。 我尝试使用stepAIC()R中的函数进行变量选择,但是奇怪的是,该方法似乎对方程中列出变量的顺序很敏感... 这是我的R代码(因为它是百分比数据,所以我对得分使用了logit转换): library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = stepAIC(data.lm, direction="both") summary(step) 由于某种原因,我发现方程式开头列出的变量最终被stepAIC()函数选择,结果可以通过列出来操纵,例如,Var9首先(跟随波浪号)。 在这里拟合模型的一种更有效(且争议较小)的方法是什么?我使用线性回归并没有真正陷入僵局:我唯一想做的就是能够了解9个变量中的哪一个真正驱动了变量的Score变化。优选地,这将是考虑这9个变量的共线性的强大潜力的某种方法。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
如何分辨线性和非线性回归模型之间的区别?
我正在阅读有关非线性回归SAS Non Linear的以下链接。通过阅读第一部分“非线性回归与线性回归”,我的理解是下面的方程实际上是线性回归,对吗?如果可以,为什么? y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c 我是否也了解非线性回归中的多重共线性不是问题?我知道多重共线性可能是线性回归中的一个问题,因此,如果上述模型实际上是线性回归,那么肯定会存在多重共线性吗?

2
转换变量以在R中进行多元回归
我正在尝试在中执行多元回归R。但是,我的因变量具有以下曲线: 这是一个散点图矩阵,其中包含我所有的变量(WAR是因变量): 我知道我需要对此变量(可能还有自变量?)执行转换,但是我不确定所需的确切转换。有人可以指出我正确的方向吗?我很高兴提供有关自变量和因变量之间关系的任何其他信息。 通过回归分析得出的诊断图形如下: 编辑 使用Yeo-Johnson转换对因变量和自变量进行转换后,诊断图如下所示: 如果我将GLM与日志链接一起使用,则诊断图形为:

4
可变重要性排名有哪些用处?
在变量重要性排名方面(在各种多元模型的背景下),我在某种程度上变得虚妄。 通常在我的工作过程中,我被要求要么协助另一个团队产生可变的重要性等级,要么从我自己的工作产生可变的重要性等级。针对这些要求,我提出以下问题 您想要这个可变重要性排名的原因是什么?您希望从中学到什么?您想使用哪种决策? 我收到的答案几乎总是属于两类之一 我想知道模型中不同变量对预测响应的重要性。 我想通过删除低重要性变量将其用于特征选择。 第一个响应是重言式的(我想要一个可变的重要性排名,因为我想要一个可变的重要性排名)。我必须假设这些排名在使用多元模型的输出时满足了心理需求。我很难理解这一点,因为分别对变量“重要性”进行排名似乎隐式地拒绝了所讨论模型的多维性质。 第二种反应本质上简化为非正式版本的向后选择,CrossValidated的其他部分充分记录了其统计上的错误。 我也为重要性排名的定义性质感到困惑。对于排名应该衡量的基本概念似乎并没有达成共识,这给了他们非常特别的味道。分配重要性分数或等级的方法有很多,它们通常都有缺点和警告: 它们可能高度依赖算法,例如在随机森林和gbms中的重要性排名中。 它们可能具有极高的方差,会随着对基础数据的扰动而急剧变化。 他们可能会遭受输入预测变量中相关性的严重困扰。 因此,综上所述,我的问题是,变量重要性排名在统计学上有哪些有效用途,或者,对于这种愿望的徒劳性,什么是令人信服的论点(对统计学家或外行而言)?我对一般的理论论证和案例研究都感兴趣,无论哪种方法更有效。

3
如何为这种奇形分布建模(几乎是反向J型)
下面显示的我的因变量不适合我所知的任何股票分布。线性回归会以某种奇怪的方式生成与预测的Y相关的某种非正态,右偏残差(第二个图)。对转换或以其他方式获得最有效结果和最佳预测准确性的任何建议?如果可能,我希望避免将笨拙的分类分为5个值(例如0,lo%,med%,hi%,1)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.