我读到这些是使用多元回归模型的条件:
- 模型的残差几乎是正常的,
- 残差的变异性几乎恒定
- 残差是独立的,并且
- 每个变量都与结果线性相关。
1和2有何不同?
您可以在这里看到一个:
因此,上图表明,相距2个标准差的残差与Y帽相距10个。这意味着残差遵循正态分布。您不能从中推断出2吗?残差的变异性几乎恒定吗?
我读到这些是使用多元回归模型的条件:
1和2有何不同?
您可以在这里看到一个:
因此,上图表明,相距2个标准差的残差与Y帽相距10个。这意味着残差遵循正态分布。您不能从中推断出2吗?残差的变异性几乎恒定吗?
Answers:
当您尝试获取置信区间和/或p值时,正常条件起作用。
不是高斯马尔可夫状态。
该图试图以蓝色(人口回归线为纯青色线)说明总体中点的分布,并以大的黄色点叠加在样本数据集上(其估计的回归线绘制为虚线黄线)。显然,这仅适用于概念消耗,因为每个值都会有无穷大点-因此,这是回归概念的图形化图示离散化,即均值周围的连续值分布(对应于预测值)变量的每个给定值处的“独立”变量的值)或解释变量。
如果我们在模拟的“人口”数据上运行诊断性R图,则会得到...
残差的方差沿X的所有值恒定。
典型的情节是:
从概念上讲,引入多个回归变量或解释变量不会改变这个想法。我发现该程序包的动手教程对于swirl()
理解多元回归实际上是使因变量相互回归的过程非常有用,可以使模型中残留的,无法解释的变化继续下去。或更简单地说,是简单线性回归的矢量形式:
通用技术是选择一个回归变量,然后将所有其他变量替换为其相对于该变量的回归残差。
异方差对OLS估计量有严重影响。尽管OLS估算器保持不变,但估算的SE是错误的。因此,不能依赖置信区间和假设检验。此外,OLS估算器不再是蓝色。
在此图中,方差随回归变量(解释变量)的值而增加,而不是保持不变。在这种情况下,残差是正态分布的,但是该正态分布的方差随解释变量而变化(增加)。
请注意,在第一个图中(纯深蓝色),在同方差下,“真实”(种群)回归线相对于种群回归线没有变化,但是从直观上看,估计将更加不确定。
数据集上的诊断图为...
对应于“重尾”分布,这是有道理的,因为我们要将所有“并排”的垂直高斯图伸缩成一个单一的图,该图将保持其钟形,但尾巴很长。
@Glen_b“ ...完整地涵盖了两者之间的区别,也将考虑是同方的,但不是正常的。”
残差高度偏斜,并且方差随解释变量的值而增加。
这些将是诊断图...
对应于明显的右偏斜度。
为了闭合循环,我们还将在具有非高斯误差分布的同方模型中看到偏斜度:
诊断图为...
这不是OP的错,但是我开始厌倦了阅读这样的错误信息。
我读到这些是使用多元回归模型的条件:
the residuals of the model are nearly normal, the variability of the residuals is nearly constant the residuals are independent, and each variable is linearly related to the outcome.
“多元回归模型”只是一个标签,它声明一个变量可以表示为其他变量的函数。
真正的误差项和模型的残差都几乎不需要特别大的东西-如果残差看起来很正常,则对随后的统计推断很有用。
误差项的变异性(variance)不必几乎是恒定的-如果不是,则我们有一个具有异方差性的模型,如今该模型很容易处理。
残差在任何情况下都不是独立的,因为每个残差都是整个样本的函数。在真正的误差项 -如果他们不是我们与自相关性,这虽然比异更难,最多可与一个程度来处理的模型不一定是独立的。
每个变量不必与结果线性相关。实际上,“线性”回归与“非线性”回归之间的区别与变量之间的关系无关,而与未知系数如何进入关系无关。
可以说的是,如果正确地说明了前三个保持式和第四个保持式,那么我们将获得“古典正态线性回归模型”,它只是多元回归模型的一个(尽管历史上是第一个)变体。
没有一组唯一的回归假设,但是有多种变体。这些假设中的某些假设比其他假设更严格(即更窄)。同样,在大多数情况下,您不需要,并且在很多情况下,不能真正假设分布是正常的。
您所引用的假设比大多数假设都严格,但是用不必要的宽松措辞来表述。例如,几乎是什么?同样,不是我们施加假设的残差,而是错误。残差是无法观察到的误差估计。这告诉我您引用的来源很差。把它扔出去。
这个问题的简要答案是,如果您考虑任何分布(例如学生t分布)以解决错误(我将在答案中使用正确的术语),那么您可以看到错误如何具有“几乎恒定”的变化而不是来自正态分布,以及如何具有“近乎恒定”的方差不需要正态分布。换句话说,不,您不能在没有其他要求的情况下设计出一个假设。
因此,当我们以一个或两个方程式将所有假设捆绑在一起时,似乎它们都相互依赖,这是不正确的。接下来,我将演示这一点。
我试图在讨论中增加一个新的维度,并使之更具笼统性。如果太基础,请原谅。
回归模型是表达统计关系的两个基本要素的正式方法:
通过假设:
资料来源:应用线性统计模型,KNNL
是参数
the residuals of the model are nearly normal, the variability of the residuals is nearly constant the residuals are independent, and each variable is linearly related to the outcome.
1和2有何不同?
提出问题
您所说的第一个和第二个假设是同一正态性假设的两个部分,均值为零且方差恒定。我认为应该提出的问题是,这两个假设对正常误差回归模型的含义是什么,而不是这两个假设之间的差异。我之所以这样说,是因为您似乎在将苹果与桔子进行比较,因为您正试图在散布点分布的假设与变异性的假设之间找到差异。可变性是分布的属性。因此,我将尝试回答有关这两个假设的更相关问题。
在正态性的假设下,最大似然估计器(MLE)与最小二乘估计器相同,并且MLE具有作为UMVUE的特性,这意味着它们在所有估计器中的方差最小。