对于初学者来说,回归分析很困难,因为不同的起始假设暗示了不同的结果。较弱的开始假设可以证明某些结果是正确的,但是当您添加更强的假设时,您可以获得更强的结果。不熟悉结果的完整数学推导的人经常会误解结果的必要假设,或者过分地虚化模型而无法获得所需的结果,或者由于认为结果是必需的而提出了一些不必要的假设。
尽管可以添加更强的假设来获得更多结果,但是回归分析本身涉及响应向量的条件分布。如果模型超出此范围,那么它将进入多元分析的领域,而并非严格(仅)是回归模型。由于通常在回归中引用分布结果而不总是总是小心地指出它们是条件分布(给定设计矩阵中的解释变量),这一事实使问题进一步复杂化。在模型超出条件分布的情况下(通过假设解释性矢量的边际分布),用户应谨慎指定这种差异。不幸的是,人们并不总是对此保持谨慎。
同方线性回归模型:通常使用的最早起点是假设模型形式和前两个误差矩,而根本不假设任何正态性:
Y=xβ+εE(ε|x)=0V(ε|x)∝I.
这种设置足以让您获得系数的OLS估计器,误差方差的无偏估计器,残差以及所有这些随机量的矩(以设计矩阵中的解释变量为条件)。它不允许您获得这些量的全部条件分布,但如果大并且对的极限行为进行了一些附加假设,则确实允许吸引渐近分布。为了更进一步,通常假设误差矢量具有特定的分布形式。nx
正态误差:同方线性回归模型的大多数处理方法都假设误差向量呈正态分布,并结合力矩假设得出:
ε|x∼N(0,σ2I).
此附加假设足以确保系数的OLS估计量为模型的MLE,这也意味着系数估计量和残差呈正态分布,并且误差方差的估计量具有按比例的卡方分布(所有取决于设计矩阵中的解释变量)。它还确保了响应向量有条件地正态分布。这给出了以分析中的解释变量为条件的分布结果,从而可以构建置信区间和假设检验。如果分析人员想对响应的边际分布做出发现,他们需要走得更远,并为模型中的解释变量假设一个分布。
联合正态解释变量:高纯线性回归模型的某些处理方法比标准处理方法更进一步,并且不以固定的解释变量为条件。(可以说这是从回归建模过渡到多元分析的过渡。)这种最常见的模型假设解释性矢量是IID联合正态随机矢量。令为第个解释向量(设计矩阵的第行),我们有:X(i)ii
X(1),...,X(n)∼IID N(μX,ΣX).
此附加假设足以确保响应向量在边际上呈正态分布。这是一个很强的假设,通常不会在大多数问题中强加。如前所述,这将模型带入了回归建模的范围之外,并进入了多元分析。