Answers:
在查看残差的QQplots之前,您应该通过针对模型中的预测变量(以及可能还针对您没有使用的其他变量)绘制残差来评估拟合质量。非线性应在该图中显示。如果变量的影响确实是线性的,则您期望残差对的图是“水平的”,没有可见的结构:
*
* *
* *
*
*
--------------------------------------*------------------------------x
*
*
*
* *
*
也就是说,以点resid = 0为中心的点的随机水平“斑点”。
如果效果是非线性的,则您希望在该图中看到一些曲率。(并且,请忽略QQ曲线,直到使用上面的图解决了非线性问题为止!)
您还应该考虑可能的交互作用(通常通过产品术语建模),也就是说,一个变量的影响取决于另一个变量的级别(如果所有三个变量同时具有较高的值,则可能显示出一些特别困难的交互作用)病人?如果是,则可能需要互动)。
如果您使用某种非线性模型,则在尝试进行交互和转换之后(尝试过log(Cost)
吗?),您是否尝试过一些Box-cox转换?由于您具有多元回归,所以我认为这loess
不是您需要的,因此您应该寻找gam
(广义的加性模型,SAS应该包含在R中,位于包中mgcv
)。
除非数据确实沿直线分布,否则LOESS总是比回归更好。LOESS是一种局部线性近似,旨在传递接近数据的数据。这些方法基本上是探索性的。尽管将线性模型外推到拟合极限是危险的,但在LOESS情况下,外推是鲁re的。
如果您的模型给您带来了负成本,则表明线性回归不适用于您拥有的变量,这是一个很好的信号。您说您尝试过转换。您是否将成本记录与预测变量进行比较?
从本质上讲,成本和您提到的变量之间不可能存在简单的关系。有时,线性回归的目的只是为了证明存在某种相关性,并且可能选择一组明智的预测因子。
Bravo用于进行残差分析。使您领先于典型的分析师。(但是,您对模型的描述不足以不描述错误结构。)您应该考虑X的转换以及查看Y的转换。我意识到SAS在样条曲线拟合建模方面落后于R,但我知道最新版本提供了这种功能。考虑为X项添加受限三次样条拟合。作为参考,Frank Harrell的文章“回归建模策略”很难被击败。对于这种方法,它具有可靠的统计依据。它是一种参数化方法,可以发现数据中可能会遗漏的结构。