线性回归中的假设条件是什么?


15

在线性回归中,我们做出以下假设

  • 每个预测变量值的响应平均值 E(Yi)是预测变量的线性函数。(x1i,x2i,)
  • 误差εi是独立的。
  • 在预测变量的每个值集(x_ {1i},x_ {2i},…)处的误差ε_i正态分布。εi(x1i,x2i,)
  • 每个预测变量值 (x_ {1i},x_ {2i},...)的误差ε_i具有相等的方差(表示为σ2)。εi(x1i,x2i,)σ2
  • 解决线性回归的方法之一是通过正态方程,我们可以写成

    θ=(XTX)1XTY

    从数学的角度来看,上述等式仅需要XTX是可逆的。那么,为什么我们需要这些假设呢?我问了几个同事,他们提到这是要获得良好的结果,而正规方程是实现该目标的算法。但是在那种情况下,这些假设有何帮助?坚持使用它们如何有助于建立更好的模型?


    2
    需要使用正态分布来使用常用公式计算系数置信区间。CI计算的其他公式(我认为是怀特)允许非正态分布。
    keiv.fly

    您不一定总是需要这些假设才能使模型起作用。在神经网络中,您内部具有线性回归,就像您提供的公式一样,它们使均方根值最小化,但最有可能的假设都不成立。没有正态分布,没有相等的方差,没有线性函数,甚至误差也可以是相关的。
    keiv.fly


    1
    @Alexis作为iid的自变量绝对不是一个假设(并且作为iid的因变量也不是一个假设-想象一下,如果我们假设响应为iid,那么除了估计均值之外,做任何事情都是没有意义的)。“避免遗漏的变量”并不是真正的附加假设,尽管最好避免省略变量-列出的第一个假设确实可以解决这个问题。
    戴森

    1
    @Dason我认为我的链接提供了一个非常有力的例子,即“无遗漏的变量”是有效解释的必要条件。我也认为iid(取决于预测变量,是必要的)是必要的,随机游走提供了一个很好的例子,说明非iid估计可能会失败(曾经仅求平均值)。
    亚历克西斯

    Answers:


    19

    您是正确的-您无需满足这些假设即可使最小二乘方线适合这些点。您需要这些假设来解释结果。例如,假设输入和之间没有关系,那么获得系数至少与我们从回归中看到的一样大的概率是多少?X1Yβ1



    3

    您不需要那些假设就可以拟合线性模型。但是,您的参数估计值可能有偏差或没有最小方差。违反假设将使您在解释回归结果时更加困难,例如,构建置信区间。


    1

    好的,到目前为止的答案是这样的:如果我们违反了假设,那么可能会发生不好的事情。我认为有趣的方向是:当满足我们所需的所有假设(实际上与上面的假设有点不同)时,为什么以及如何确定线性回归是最佳模型?

    p(yi|xi)E[Yi|Xi=xi]xi


    0

    两个主要假设是

    1. 意见独立
    2. 均值与方差无关

    参见朱利安·法拉威(Julian Faraway)书中的讨论。

    如果都正确,那么在您列出的其他假设中,OLS令人惊讶地可以抵御违规行为。

    By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
    Licensed under cc by-sa 3.0 with attribution required.