我希望以下一般性问题有意义。请记住,出于特定问题的目的,我对引入非线性的理论(主题领域)原因不感兴趣。因此,我将提出完整的问题如下:
除了理论(学科领域)以外,出于某种原因将非线性引入统计模型的逻辑框架(标准和可能的决策过程)是什么? 与往常一样,也欢迎相关资源和参考。
我希望以下一般性问题有意义。请记住,出于特定问题的目的,我对引入非线性的理论(主题领域)原因不感兴趣。因此,我将提出完整的问题如下:
除了理论(学科领域)以外,出于某种原因将非线性引入统计模型的逻辑框架(标准和可能的决策过程)是什么? 与往常一样,也欢迎相关资源和参考。
Answers:
模型构建过程涉及模型构建者做出许多决策。决策之一涉及在不同类别的模型中进行选择。有许多类型的模型可以考虑;例如,ARIMA模型,ARDL模型,错误状态空间多源模型,LSTAR模型,Min-Max模型,仅举几例。当然,某些模型类比其他模型更广泛,并且发现某些模型类是其他模型的子类并不常见。
考虑到问题的性质,我们可以主要集中在两类模型上。线性模型和非线性模型。
考虑到以上情况,我将从统计学和方法论角度开始讨论OP的问题,即何时采用非线性模型是有用的,以及是否有这样做的逻辑框架。
首先要注意的是,线性模型是非线性模型的一小类。换句话说,线性模型是非线性模型的特殊情况。该声明有一些例外,但是就目前的目的而言,通过接受它来简化事情不会损失太多。
通常,模型构建者将选择一类模型,然后继续采用某种方法从该特定类中选择模型。一个简单的例子是,当人们决定将一个时间序列建模为ARIMA过程,然后遵循Box-Jenkins方法从ARIMA模型类别中选择一个模型时。以这种方式进行工作以及与模型族相关的方法是实际必要的问题。
决定构建非线性模型的结果是,与从较小的一组线性模型中进行选择相比,模型选择问题变得更大(必须考虑更多模型并且要面对更多决策),因此存在一个实际问题。实际问题。此外,甚至可能没有完全开发的方法(已知,公认,理解,易于传达)来从某些非线性模型族中进行选择。再者,建立非线性模型的另一个缺点是线性模型更易于使用,并且其概率性质更为人所知(Teräsvirta,Tjøstheim和Granger(2010))。
就是说,OP要求提供统计依据来指导决策,而不是实践或领域理论依据,所以我必须继续。
在甚至考虑如何选择要使用的非线性模型之前,必须先决定是使用线性模型还是使用非线性模型。决定!如何做出选择?
通过对Granger和Terasvirta(1993)的呼吁,我采用以下论点,该论点针对以下两个问题有两个主要观点。
问:建立非线性模型什么时候有用?简而言之,当已经考虑了线性模型类别并且认为不足以表征所检查的关系时,构建非线性模型可能会有用。从非线性到非线性的意义上,这种非线性建模过程(决策过程)可以说从简单到普遍。
问:是否有可用于建立非线性模型的统计依据?如果人们决定根据线性测试的结果建立一个非线性模型,我会说是的。如果线性测试表明该关系中没有明显的非线性,则不建议建立非线性模型;测试应该先于构建的决定。
我将直接参考Granger和Terasvirta(1993)充实这些观点:
在建立非线性模型之前,建议先确定线性模型是否确实可以充分表征所分析的[经济]关系。如果是这种情况,那么与使用非线性模型相比,将有更多的统计理论可用于构建合理的模型。此外,如果模型是线性的,那么获得一个多时期的最优预测将更加容易。尽管变量之间的真实关系是线性的,但至少在时间序列较短时,研究人员可能会成功估算出非线性模型。因此,不必要地使模型构建复杂化的危险是真实的,但可以通过线性测试来降低。
在最近的著作《Teräsvirta,Tjøstheim和Granger(2010)》中,给出了同样的建议,我现在引用:
从实践的角度来看,因此在尝试估计更复杂的非线性模型之前测试线性是有用的。在许多情况下,从统计的角度来看,甚至有必要进行测试。许多流行的非线性模型没有在线性下确定。如果生成数据的真实模型是线性的,而一个非线性模型对这个线性模型感兴趣,则非线性模型的参数无法一致地估计。因此,线性测试必须先于任何非线性建模和估计。
让我以一个例子结束。
在对业务周期进行建模的上下文中,使用统计依据来证明建立非线性模型的合理示例如下。由于线性单变量或向量自回归模型无法生成不对称的循环时间序列,因此值得考虑的是可以处理数据不对称性的非线性建模方法。这个关于数据可逆性的例子的扩展版本可以在Tong(1993)中找到。
如果我过多地关注时间序列模型,则表示歉意。但是,我敢肯定,有些想法也适用于其他设置。
首要的问题是确定期望线性的问题类型,否则在样本量允许的情况下允许非线性关系。生物学,社会科学和其他领域中的大多数过程都是非线性的。我期望线性关系的唯一情况是:
后一个示例包括一个因变量也在基线(时间零)处测量的情况。
我很少看到大型数据集中的线性关系。
在回归模型中包含非线性的决定并不是来自全局统计原理,而是来自世界运作方式。一个例外是,当选择了次优的统计框架时,必须引入非线性或相互作用项,以弥补选择框架的错误。有时可能需要交互项来抵消建模不足(例如,通过假设线性)的主要影响。可能需要更多的主要效果来弥补由于对其他主要效果的建模不足而导致的信息损失。
研究人员有时会在强迫其他线性变量不适应其他变量时,为是否要包含某个变量而感到痛苦。以我的经验,线性假设是所有最重要的假设中最违反的假设之一。
γ ≠ β
有时,我的数据中有一些特殊的值或范围;或我的解释变量直方图有扭结和拐点。因此,我尝试了围绕这些特殊点或区域的线性样条曲线。最简单的线性样条曲线将是: a- 这将为在点之前和之后引入不同的斜率。对于不同区域中的同一变量,可以有多个斜率。如果我的线性样条曲线很重要,那么我要么玩结点并使用它,要么考虑非线性模型。x a + = 最大值(x ,a )x x = a
这不是系统的方法,但这只是我一直要做的事情之一。