我了解到,在线性回归中,误差假定为正态分布,并取决于y的预测值。然后,我们将残差视为错误的一种替代。
通常建议生成如下输出:。但是,我不明白获取每个数据点的残差并将其混和到一个图中的意义是什么。
我知道我们不太可能有足够的数据点来正确评估在每个y预测值处是否都具有正常残差。
但是,是否不是我们的正常残差是否整体上是一个单独的残差,以及与每个y预测值处的正常残差的模型假设没有明确关系的问题?我们不能在每个y预测值处都有正常残差,而总残差却很不正常吗?
我了解到,在线性回归中,误差假定为正态分布,并取决于y的预测值。然后,我们将残差视为错误的一种替代。
通常建议生成如下输出:。但是,我不明白获取每个数据点的残差并将其混和到一个图中的意义是什么。
我知道我们不太可能有足够的数据点来正确评估在每个y预测值处是否都具有正常残差。
但是,是否不是我们的正常残差是否整体上是一个单独的残差,以及与每个y预测值处的正常残差的模型假设没有明确关系的问题?我们不能在每个y预测值处都有正常残差,而总残差却很不正常吗?
Answers:
我们不能在每个y预测值处都有正常残差,而总残差却很不正常吗?
否-至少不是在误差的方差恒定的标准假设下。
您可以将整体残差的分布视为正态分布的混合(每个级别对应一个)。通过假设,所有这些正态分布均具有相同的均值(0)和相同的方差。因此,这种正态混合的分布本身就是简单的正态分布。
因此,从中我们可以形成一点三段论。如果给定预测变量X的值的各个分布是正态的(并且它们的方差相等),则总残差的分布是正态的。因此,如果我们观察到总残差的分布显然不是正态的,则意味着给定X的分布在具有相等方差的情况下不是正态的。这违反了标准假设。
有人说当误差是同调的且序列不相关时,y的普通最小二乘(OLS)在线性无偏估计量中是最佳的。关于同余残差,残差的方差是相同的,而与我们在x轴上测量残差大小的变化无关。例如,假设我们的测量误差随着y值的增加而成比例地增加。然后,我们可以在进行回归之前获取这些y值的对数。如果这样做,则与不采用对数的比例误差模型进行拟合相比,拟合的质量会提高。通常,为了获得同质性,我们可能必须获取y或x轴数据,对数,平方根或平方根的倒数,或者应用指数。替代方法是使用加权函数,(y−模型)2比最小化更好。
说了这么多,经常发生的是使残差更均等,使残差更正态分布,但是同等性质通常更为重要。后者取决于我们为什么执行回归。例如,如果数据的平方根比对数更正态分布,但是误差是成比例的类型,则对数的t检验对于检测总体或度量之间的差异将很有用,但可以找到期望值值,我们应该使用数据的平方根,因为只有数据的平方根是对称分布,其均值,众数和中位数均应相等。
此外,经常会发生这样的情况:我们不希望得到一个给出y轴值的最小误差预测值的答案,而这些回归可能会严重偏差。例如,有时我们可能希望回归以减少x中的误差。或者有时我们希望揭示y和x之间的关系,因此这不是常规的回归问题。然后,我们可能将Theil(即中位斜率,回归)用作x和y最小误差回归之间的最简单折衷。或者,如果我们知道x和y重复测量的方差是多少,则可以使用Deming回归。当我们有离群值时,Theil回归会更好,这对普通回归结果来说是可怕的事情。而且,对于中位斜率回归,残差是否为正态分布无关紧要。
顺便说一句,残差的正态性不一定会给我们任何有用的线性回归信息。例如,假设我们正在对两个独立的测量值进行重复测量。由于我们具有独立性,因此期望的相关性为零,并且回归线斜率可以是任何无斜率的随机数。我们进行重复测量以建立位置估计值,即平均值(或中位数(具有一个峰值的Cauchy或Beta分布)或总体上的总体期望值),并据此计算x的方差和方差在y中,然后可以将其用于Deming回归或其他任何操作。此外,假设如果原始总体是正常的,那么叠加就是相同的均值是正常的,这导致我们没有有用的线性回归。为了更进一步,假设然后我改变初始参数,并使用不同的蒙特卡洛x和y值函数生成位置建立新的测量值,并在第一次运行时整理该数据。则每个x值的y方向残差都是正常的,但是在x方向上,直方图将有两个峰,这与OLS假设不一致,并且我们的斜率和截距将有偏差,因为一个在x轴上没有相等的间隔数据。但是,整理数据的回归现在具有确定的斜率和截距,而以前则没有。此外,由于我们仅通过重复采样实际测试两个点,因此无法测试线性。实际上,出于相同的原因,相关系数将不是可靠的度量,
相反,有时还假定误差具有回归变量的正态分布。不需要用于所述OLS方法的有效性这种假设,尽管某些附加的有限样本性质可在当它(尤其是在假设检验的区域)的情况下成立,见这里。那么,什么时候OLS可以正确回归?例如,如果我们在每天的同一时间收盘时对股票价格进行测量,那么就没有t轴(认为x轴)方差。但是,最后一笔交易(结算)的时间将是随机分布的,而用于发现变量之间的RELATIONSHIP的回归将必须合并两个方差。在这种情况下,y中的OLS只会估计y值中的最小误差,这对于推断结算的交易价格将是一个糟糕的选择,因为还需要预测该结算的时间本身。此外,正态分布的误差可能不如Gamma定价模型。
那有什么关系 好吧,有些股票每分钟交易几次,而另一些则不是每天甚至每周都不交易,这可能会产生很大的数值差异。因此,这取决于我们需要什么信息。如果我们想问一下明天收盘时市场表现如何,这是OLS的“类型”问题,但是答案可能是非线性的非正态残差,并且需要拟合函数的形状系数与导数拟合(和/或更高的矩)相符,以建立用于外推的正确曲率。(例如,可以使用三次样条来拟合导数和函数,因此即使很少探讨,衍生协议的概念也不应令人惊讶。)如果我们想知道我们是否会赚钱对于特定股票,则我们不使用OLS,因为问题是二元的。