通过数据分析练习学习统计概念


18

我发现简单的数据分析练习通常可以帮助说明和阐明统计概念。您使用哪些数据分析练习来教授统计概念?

Answers:


9

因为我不得不经常在非教学环境中解释变量选择方法,但对于非统计学家需要研究帮助的情况,我喜欢这个极其简单的示例,它说明了为什么单变量选择不一定是一个好主意。

如果您有此数据集:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

不久之后,您就会意识到X1和X2都对y完全无用(当它们相同时,y肯定是“ 1”-我在这里忽略了样本大小问题,只需假设这四个观察结果即可)。成为整个宇宙)。但是,这两个变量的组合是完全有用的。因此,人们更容易理解为什么(例如)仅检查每个变量为回归变量的模型的p值不是一个好主意。

以我的经验,这确实可以传达信息。


5

多元回归系数与预期符号谬误

我通过数据分析练习对统计概念的最喜欢的插图之一是将多元回归解构为多元双变量回归。

目标

  • 为了阐明存在多个预测变量时回归系数的含义。
  • 为了说明为什么在预测变量相关时基于多元变量与Y的双变量关系“期望”多元回归系数以具有特定符号是不正确的。

概念

多元回归模型中的回归系数表示a)给定预测变量(x1)与模型中所有其他预测变量(x2 ... xN)不相关的部分之间的关​​系;2)响应变量(Y)与模型中所有其他预测变量(x2 ... xN)不相关的部分。当预测变量之间存在相关性时,与预测变量系数相关的符号表示这些残差之间的关系。

行使

  1. 为两个预测变量(x1,x2)和响应(y)生成一些随机数据。
  2. 对x2进行y回归并存储残差。
  3. 将x1回归到x2并存储残差。
  4. 将步骤2(r1)的残差回归到步骤3(r2)的残差。

r2的第4步的系数将是x1和x2的多元回归模型的x1系数。您可以通过为y和x2分配x1来对x2做同样的事情。

这是此练习的一些R代码。

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

以下是相关的输出和结果。

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00*** 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.