统计模型中非线性的标准和决策是什么?


10

我希望以下一般性问题有意义。请记住,出于特定问题的目的,我对引入非线性的理论(主题领域)原因不感兴趣。因此,我将提出完整的问题如下:

除了理论(学科领域)以外,出于某种原因将非线性引入统计模型的逻辑框架标准和可能的决策过程)是什么? 与往常一样,也欢迎相关资源和参考。

Answers:


7

模型构建过程涉及模型构建者做出许多决策。决策之一涉及在不同类别的模型中进行选择。有许多类型的模型可以考虑;例如,ARIMA模型,ARDL模型,错误状态空间多源模型,LSTAR模型,Min-Max模型,仅举几例。当然,某些模型类比其他模型更广泛,并且发现某些模型是其他模型的子类并不常见。

考虑到问题的性质,我们可以主要集中在两类模型上。线性模型非线性模型

考虑到以上情况,我将从统计学和方法论角度开始讨论OP的问题,即何时采用非线性模型是有用的,以及是否有这样做的逻辑框架。

首先要注意的是,线性模型是非线性模型的一小类。换句话说,线性模型是非线性模型的特殊情况。该声明有一些例外,但是就目前的目的而言,通过接受它来简化事情不会损失太多。

通常,模型构建者将选择一类模型,然后继续采用某种方法从该特定类中选择模型。一个简单的例子是,当人们决定将一个时间序列建模为ARIMA过程,然后遵循Box-Jenkins方法从ARIMA模型类别中选择一个模型时。以这种方式进行工作以及与模型族相关的方法是实际必要的问题。

决定构建非线性模型的结果是,与从较小的一组线性模型中进行选择相比,模型选择问题变得更大(必须考虑更多模型并且要面对更多决策),因此存在一个实际问题。实际问题。此外,甚至可能没有完全开发的方法(已知,公认,理解,易于传达)来从某些非线性模型族中进行选择。再者,建立非线性模型的另一个缺点是线性模型更易于使用,并且其概率性质更为人所知(Teräsvirta,Tjøstheim和Granger(2010))。

就是说,OP要求提供统计依据来指导决策,而不是实践或领域理论依据,所以我必须继续。

在甚至考虑如何选择要使用的非线性模型之前,必须先决定是使用线性模型还是使用非线性模型。决定!如何做出选择?

通过对Granger和Terasvirta(1993)的呼吁,我采用以下论点,该论点针对以下两个问题有两个主要观点。

问:建立非线性模型什么时候有用?简而言之,当已经考虑了线性模型类别并且认为不足以表征所检查的关系时,构建非线性模型可能会有用。从非线性到非线性的意义上,这种非线性建模过程(决策过程)可以说从简单到普遍。

问:是否有可用于建立非线性模型的统计依据?如果人们决定根据线性测试的结果建立一个非线性模型,我会说是的。如果线性测试表明该关系中没有明显的非线性,则不建议建立非线性模型;测试应该先于构建的决定。

我将直接参考Granger和Terasvirta(1993)充实这些观点:

在建立非线性模型之前,建议先确定线性模型是否确实可以充分表征所分析的[经济]关系。如果是这种情况,那么与使用非线性模型相比,将有更多的统计理论可用于构建合理的模型。此外,如果模型是线性的,那么获得一个多时期的最优预测将更加容易。尽管变量之间的真实关系是线性的,但至少在时间序列较短时,研究人员可能会成功估算出非线性模型。因此,不必要地使模型构建复杂化的危险是真实的,但可以通过线性测试来降低。

在最近的著作《Teräsvirta,Tjøstheim和Granger(2010)》中,给出了同样的建议,我现在引用:

从实践的角度来看,因此在尝试估计更复杂的非线性模型之前测试线性是有用的。在许多情况下,从统计的角度来看,甚至有必要进行测试。许多流行的非线性模型没有在线性下确定。如果生成数据的真实模型是线性的,而一个非线性模型对这个线性模型感兴趣,则非线性模型的参数无法一致地估计。因此,线性测试必须先于任何非线性建模和估计。

让我以一个例子结束。

在对业务周期进行建模的上下文中,使用统计依据来证明建立非线性模型的合理示例如下。由于线性单变量或向量自回归模型无法生成不对称的循环时间序列,因此值得考虑的是可以处理数据不对称性的非线性建模方法。这个关于数据可逆性的例子的扩展版本可以在Tong(1993)中找到

如果我过多地关注时间序列模型,则表示歉意。但是,我敢肯定,有些想法也适用于其他设置。


2
格雷姆,您的答案非常好,而其他答案也非常好,您的答案最接近我想要的答案(如果需要,可以使用迷你版本)。+1并被接受。非常感谢您为准备答案所做的努力。我敢肯定,我将对它以及参考文献进行多次审查。我认为Harrell博士关于回归策略的书也包含了我理想中应该拥有的框架的某些部分。顺便说一句,我对主题统计框架的想法是受到丽莎·哈洛(Lisa Harlow)的出色著作《多元思维的本质》的启发,我很高兴阅读。
Aleksandr Blekh

12

首要的问题是确定期望线性的问题类型,否则在样本量允许的情况下允许非线性关系。生物学,社会科学和其他领域中的大多数过程都是非线性的。我期望线性关系的唯一情况是:

  1. 牛顿力学
  2. 的预测从在更早的时间测量ÿYY

后一个示例包括一个因变量也在基线(时间零)处测量的情况。Y

我很少看到大型数据集中的线性关系。

在回归模型中包含非线性的决定并不是来自全局统计原理,而是来自世界运作方式。一个例外是,当选择了次优的统计框架时,必须引入非线性或相互作用项,以弥补选择框架的错误。有时可能需要交互项来抵消建模不足(例如,通过假设线性)的主要影响。可能需要更多的主要效果来弥补由于对其他主要效果的建模不足而导致的信息损失。

研究人员有时会在强迫其他线性变量不适应其他变量时,为是否要包含某个变量而感到痛苦。以我的经验,线性假设是所有最重要的假设中最违反的假设之一。


2
+1哈雷尔博士,谢谢您的宝贵答复。我明白你的观点。但是,我也对情况感到好奇(这实际上是我的问题的本质),当研究人员或数据科学家由于统计理论各种问题(包括统计,数据,方法论等)而不得不引入其他非线性成分时。),而不是学科领域理论。非常感谢您对此的见解。
Aleksandr Blekh

5
线性取决于数据的数量(或更多)取决于流程。在足够窄的范围内检查时,大多数领域中的大多数过程都是线性的(这就是微积分用途如此广泛的原因),而在足够宽的范围内则是非线性的(包括机械过程)。虽然这是正确的建议,几乎所有可能出现非线性,当样本量足够大可用,也许框架的问题将是如何决定何时方面更加务实的方式有用采用线性模型。
whuber

2
@whuber:谢谢您的评论。很有用。现在,我从两个角度更好地了解(非线性)线性:理论(主题领域)和以数据为中心。我仍然对由于统计假设问题(例如,EDA后)或类似方面而引入其他非线性的统计和/或方法论观点感到好奇。因此,除了您建议的问题框架外,我还对决策框架感兴趣,了解何时采用非线性模型非常有用。
Aleksandr Blekh

1
“在足够狭窄的范围内检查时,大多数领域中的大多数过程都是线性的(这就是微积分如此有用的原因),而在足够宽的范围内则是非线性的”,而对于那些学习微积分课程的人来说,这是极其明显的。让我大开眼界。谢谢@whuber +1。

3
@Aleksandr Blekh您是否正在寻找统计检验或残差图,这些检验或残差图将为您提供统计理由(与基础理论相反),以证明您使用非线性模型是合理的?

4

yi=α+βxi+εi
yi=α+βxi+γxi2+εi
γ是非常重要的,非线性模型可能是这种情况。直觉当然是泰勒展开式。如果您具有线性函数,则仅一阶导数必须为非零。对于非线性函数,高阶导数将为非零。

γ β

yi=α+βmax(0,xi)+γmin(0,xi)+εi
γβ

有时,我的数据中有一些特殊的值或范围;或我的解释变量直方图有扭结和拐点。因此,我尝试了围绕这些特殊点或区域的线性样条曲线。最简单的线性样条曲线将是: a- 这将为在点之前和之后引入不同的斜率。对于不同区域中的同一变量,可以有多个斜率。如果我的线性样条曲线很重要,那么我要么玩结点并使用它,要么考虑非线性模型。x a + = 最大值x a x x = a

xa=min(x,a)
xa+=max(x,a)
xx=a

这不是系统的方法,但这只是我一直要做的事情之一。


1
+1有趣的见解。感谢您的分享-很高兴知道。我最想拥有(甚至准备)的是具有基本基础推理的类似(大型和小型)方法的一致框架/工作流程。您是否认为创建这样的框架将是1)可行的,2)对其他人有价值的?
Aleksandr Blekh'1

1
@AleksandrBlekh,我认为不可能创建通用框架。时间序列中最通用的一个是Box-Jenkins。
阿克萨卡尔州

4
模型选择的统计测试将扭曲估计,尤其是标准误差。
Frank Harrell

1
@ssdecontrol,泰勒展开式参数也使我警惕不要使用多项式的低阶项。例如,如果候选规范为,那么您必须对模型的形状有强烈的意见。yi=β2xi2+εi
Aksakal'1

2
@ssdecontrol:有关泰勒级数启发式的更多信息,请参见Venables(1998),“线性模型的训诫”,华盛顿特区S-Plus用户大会
Scortchi-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.