何时使用非参数回归?


9

我在SAS中使用PROC GLM来拟合以下形式的回归方程

ÿ=b0+b1个X1个+b2X2+b3X3+b4Ť

产生的残差的QQ图表示偏离正常值。任何变换都无法使残差正常。ÿ

此时,我可以安全地切换到非参数方法,例如PROC LOESS。

我已经使用过PROC LOESS,并且看起来比PROC GLM更好。但是我对非参数回归没有太多的了解。我不知道何时选择非参数回归而不是参数回归。

有人可以帮我弄这个吗?

我将继续添加另一个问题。以下是模型中我的变量的描述。 有时我得到负的预测成本。这根本不符合逻辑。我该如何解决这个问题?

ÿ=医疗费用X1个=注射次数X2=手术数量X3=物理疗法的数量Ť=时间

2
您当然可以通过对日志进行建模来避免预测负成本:log(Y)=b0+b1X1+b2X2+b3X3+b4Ť
Dirk Horsten 2015年

Answers:


10

在查看残差的QQplots之前,您应该通过针对模型中的预测变量(以及可能还针对您没有使用的其他变量)绘制残差来评估拟合质量。非线性应在该图中显示。如果变量的影响确实是线性的,则您期望残差对的图是“水平的”,没有可见的结构:XX

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

也就是说,以点resid = 0为中心的点的随机水平“斑点”。

如果效果是非线性的,则您希望在该图中看到一些曲率。(并且,请忽略QQ曲线,直到使用上面的图解决了非线性问题为止!)

您还应该考虑可能的交互作用(通常通过产品术语建模),也就是说,一个变量的影响取决于另一个变量的级别(如果所有三个变量同时具有较高的值,则可能显示出一些特别困难的交互作用)病人?如果是,则可能需要互动)。

如果您使用某种非线性模型,则在尝试进行交互和转换之后(尝试过log(Cost)吗?),您是否尝试过一些Box-cox转换?由于您具有多元回归,所以我认为这loess不是您需要的,因此您应该寻找gam(广义的加性模型,SAS应该包含在R中,位于包中mgcv)。


1
感谢您提供宝贵的信息。我确实尝试了线性回归的log(cost),但并没有太大帮助。我将添加交互效果并观察会发生什么。我还将再次尝试转换。我将向所有人发布我的发展和发现。
2012年

6

除非数据确实沿直线分布,否则LOESS总是比回归更好。LOESS是一种局部线性近似,旨在传递接近数据的数据。这些方法基本上是探索性的。尽管将线性模型外推到拟合极限是危险的,但在LOESS情况下,外推是鲁re的。

如果您的模型给您带来了负成本,则表明线性回归不适用于您拥有的变量,这是一个很好的信号。您说您尝试过转换。您是否将成本记录与预测变量进行比较?

从本质上讲,成本和您提到的变量之间不可能存在简单的关系。有时,线性回归的目的只是为了证明存在某种相关性,并且可能选择一组明智的预测因子。


1
当您提到负成本表​​明线性回归可能不合适时,这非常有意义。我将继续分析并添加一些交互。谢谢。
2012年

3

Bravo用于进行残差分析。使您领先于典型的分析师。(但是,您对模型的描述不足以不描述错误结构。)您应该考虑X的转换以及查看Y的转换。我意识到SAS在样条曲线拟合建模方面落后于R,但我知道最新版本提供了这种功能。考虑为X项添加受限三次样条拟合。作为参考,Frank Harrell的文章“回归建模策略”很难被击败。对于这种方法,它具有可靠的统计依据。它是一种参数化方法,可以发现数据中可能会遗漏的结构。


感谢您对DWin的感谢。我刚刚毕业,这是我作为分析师的第一份工作。巧合的是,这种分析对公司也是新的。因此,我只是想提出一个并非完全废话的分析。我会采纳您的建议,并尝试对两者进行转换ÿX变量。我还将参考一下。我刚刚在网上找到了pdf版本。感谢您的输入。
2012年

对数转换和输出直观地线性依赖存在问题。如果您建模ØGÿ=b0+b1个ØGX1个+b2ØGX2 哪里 X1个 在右臂注射 X2是在左臂进行注射,对于在同
一条

您的评论似乎与我的回答相切(也与问题有关,因为从未提到过按手臂划分注射区),希望您不要认为样条函数不等同于对数转换。Y的对数转换会创建一个模型,当转换回成本规模时,该模型在预测变量中是可乘的。这是一个相当大的变化,并且您没有充分地向提问者描述其问题。
DWin

2

我认为kjetil给了您一些很好的建议。我要补充一点,非正态残差并不意味着您必须从线性或非线性回归过渡到非参数回归。通过进行非参数回归,您可以放弃功能形式的结构。您可以首先找到OLS回归的强大回归替代方法。然后,如果需要下一步,则使用广义线性模型和广义加性模型。在我看来,黄土应该是您最后的选择。我认为我同意kjetil的观点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.