假设我们有一个线性回归模型,其因变量。我们发现它的。现在,我们进行另一个回归,但是这次是在,类似地找到它的。有人告诉我,我无法将两个进行比较,以查看哪种模型更合适。这是为什么?给我的原因是,我们将比较不同数量(不同因变量)的可变性。我不确定这是否是充分的理由。R 2 y log (y )R 2 log (y ) R 2
还有办法使它正式化吗?
任何帮助,将不胜感激。
假设我们有一个线性回归模型,其因变量。我们发现它的。现在,我们进行另一个回归,但是这次是在,类似地找到它的。有人告诉我,我无法将两个进行比较,以查看哪种模型更合适。这是为什么?给我的原因是,我们将比较不同数量(不同因变量)的可变性。我不确定这是否是充分的理由。R 2 y log (y )R 2 log (y ) R 2
还有办法使它正式化吗?
任何帮助,将不胜感激。
Answers:
这是一个很好的问题,因为“不同数量”似乎并不能解释太多。
有两个重要的原因要谨慎使用来比较这些模型:它太粗糙了(它并没有真正评估拟合优度),并且至少对于其中一个模型是不合适的。此答复解决了第二个问题。
将模型残差的方差与响应的方差进行比较。方差是拟合的均方差。这样,我们可以将 R 2理解为比较响应 y的两个模型。
“基本”模型是
其中是一个参数(理论平均响应)和δ 我是独立随机的“错误”,每个具有零均值和一个共同的方差τ 2。
线性回归模型引入向量作为解释变量:
数和矢量β是参数(截距和“斜率”)。的ε 我再次是独立的随机误差,每个具有零均值和方差共同σ 2。
在方差的减小的估计, τ 2 - σ 2,相比于原始方差 τ 2。
当采用对数并使用最小二乘法拟合模型时,隐式地在比较形式的关系
到形式之一
这些就像模型和(2 )一样,但是具有日志响应。但是,它们不等同于前两个模型。例如,对(2 a )的两边求幂将得到
误差项现在乘法底层关系ÿ 我 = EXP (γ 0 + X 我 γ )。因此,响应的方差为
方差取决于。 这不是模型,其设方差都等于一个常数σ 2。
通常,这些模型集中只有一个可以合理地描述数据。 施加所述第二组和(2 一个)当所述第一组(1 )和(2 )是一个很好的模式,或第一时第二个是良好的,相当于具有非线性,异方差数据集,因此工作应该与线性回归拟合得很差。当出现上述两种情况中的任何一种时,我们都可以期望更好的模型表现出更大的R 2。但是,如果都不是怎么办?我们还能期待更大吗帮助我们确定更好的模型吗?
从某种意义上说,这不是一个好问题,因为如果两种模型都不适合,我们应该找到第三个模型。但是,摆在我们面前的问题涉及在帮助我们做出这一决定方面的效用。此外,许多人首先想到的形状之间的关系的X和Y ^ --is它是线性的,是对数的,是别的东西-而不必担心回归错误的特性ε 我或η 我。因此,让我们考虑一种情况,在这种情况下,我们的模型可以建立正确的关系,但是错误结构的错误,反之亦然。
这样的模型(通常会出现)是拟合指数关系的最小二乘法,
现在的对数是一个线性的函数X,如在(2 一个),但误差项是添加剂,如在。 在这种情况下,R 2可能会误导我们选择x和y之间关系错误的模型。
这是模型。有300个观察为X 我(1-矢量之间同样分布1.0和。左面板显示原始(x ,y )数据,而右面板显示(x ,log (y ))转换后的数据。红色虚线表示真实的基础关系,而蓝色实线表示最小二乘拟合。两个面板中的数据和真实关系相同:只有模型及其拟合不同。
右侧对数响应的拟合显然很好:它与真实关系几乎重合,并且都是线性的。左侧原始响应的拟合度显然更差:它是线性的,而真正的关系是指数的。不幸的是,与0.56相比,它的:0.70值明显更大。这就是为什么我们不应该信任R 2来将我们引向更好的模型的原因。因此,即使R 2为“高”,我们也不会对拟合感到满意(在许多应用中,确实将0.70的值视为高)。
顺便说一句,评估这些模型的更好方法包括拟合优度检验(这将在右侧指示对数模型的优越性)和残差平稳性的诊断图(这将突出显示这两个模型的问题)。这样的评估自然会导致对的加权最小二乘拟合或直接对模型(3 )本身进行加权,这必须使用最大似然法或非线性最小二乘法进行拟合。