从线性,指数和对数函数中确定最佳拟合曲线拟合函数


18

内容:

在有关数学堆栈交换的问题(我可以构建一个程序)上,某人有一组点,并希望为其拟合曲线(线性,指数或对数)。通常的方法是从选择其中一种(指定模型)开始,然后进行统计计算。X-ÿ

但是真正需要的是从线性,指数或对数中找到“最佳”曲线。

表面上,一个人可以尝试所有三个,然后根据最佳相关系数选择三个中的最佳拟合曲线。

但是不知何故,我觉得这还不够洁。通常公认的方法是先选择模型,然后选择这三个模型之一(或其他链接函数),然后从数据中计算系数。事实上,事后采摘是樱桃采摘。但是对我而言,无论您是从数据确定函数还是系数,这仍然是同一回事,您的过程正在发现最好的东西(例如,发现哪个函数也是另一个系数)。

问题:

  • 根据拟合统计量的比较,从线性,指数和对数模型中选择最佳拟合模型是否合适?
  • 如果是这样,最合适的方法是什么?
  • 如果回归有助于在函数中找到参数(系数),为什么不能有一个离散的参数来选择三个最佳曲线系列中的哪一个呢?

1
为了方便起见,我添加了模型选择标签:通过它进行链接将产生大量直接相关的线程。其他值得关注的标签包括aic。您最终应该发现,此问题的数学陈述缺少两个基本要素:关于这些点如何以及为什么可能偏离理论曲线的描述,以及指示无法获得正确曲线的代价的指示。缺少那些要素,有许多不同的方法可以产生不同的答案,这表明“最佳”定义不明确。
ub

1
您可以预留一定百分比的数据以对模型进行验证,然后选择最适合该组验证数据的模型。因此,从本质上讲,您将有三个不同的集合将数据分为1.训练单个模型的数据2.验证允许您选择最佳模型的每个模型的数据,以及3.未被触及的实际最终验证数据。
kleineg

1
@kleineg听起来像是正确的方向。模型的选择(例如,在lin / exp / log之间)就像一个模型的超参数,在某些方面,它只是常规参数的另一个阶段,可以通过单独的训练/验证/测试阶段进入模型。
米奇

相关文章:{一种过度拟合的微妙方法](johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit)-在多个模型函数之间进行选择(例如,exp,linear,log)另一个参数。您可以将其视为超参数(需要验证步骤)或复杂组合函数中的常规参数(在测试步骤中对其进行测试)。
米奇

Answers:


9
  • 您可能需要检查名为Eureqa的免费软件。它的特定目标是使查找功能形式和给定功能关系的参数的过程自动化。
  • 如果要比较具有不同数量参数的模型,则通常需要使用拟合度来惩罚具有更多参数的模型。有大量文献证明拟合度量最适合用于模型比较,并且当模型不嵌套时问题变得更加复杂。我很想听听其他人在您的情况下认为最适合的模型比较索引(另一方面,最近在我的博客上讨论了在比较曲线拟合模型的情况下模型比较索引)。
  • 根据我的经验,使用非线性回归模型的原因超出了给定数据的纯粹统计拟合范围:
    1. 非线性模型在数据范围之外做出更合理的预测
    2. 非线性模型需要较少的参数才能实现等效拟合
    3. 非线性回归模型通常用于存在大量先验研究和理论指导模型选择的领域。

5

这是一个在非常不同的领域都有效的问题。

最好的模型是可以预测参数估计期间未使用的数据点的模型。理想情况下,可以使用数据集的子集来计算模型参数,然后评估另一数据集的拟合性能。如果您对详细信息感兴趣,请使用“交叉验证”进行搜索。

因此,第一个问题的答案是“否”。您不能简单地采用最佳拟合模型。您正在将N次方的多项式拟合到N个数据点的图像。这将是一个完美的拟合,因为所有模型都将精确传递所有数据点。但是,该模型不会推广到新数据。

据我所知,最合适的方法是使用度量标准来计算模型可以推广到其他数据集的数量,这些度量标准同时惩罚残差的幅度和模型中参数的数量。我知道AIC和BIC是其中一些指标。


3

由于很多人会例行探索各种曲线对数据的拟合程度,因此我不知道您的预订来自何处。当然,存在一个事实,即二次方将始终至少与线性,三次方以及至少二次方一样,因此有多种方法可以测试添加此类非线性项的统计意义,从而得出避免不必要的复杂性。但是测试关系的许多不同形式的基本实践只是好的实践。实际上,人们可能会从一种非常灵活的黄土回归开始,看看哪种拟合曲线最合理。


3
二次拟合是否更好,将取决于您如何实现合适的拟合。特别是,如果您使用拟合度来惩罚具有更多参数的模型(例如AIC),则例如,二次拟合与线性拟合的拟合可能会更差。
Jeromy Anglim

9
@rolando,也许我误会了,但是坦率地说,这种(不合格的)建议恰恰是作为统计学家我们花费大量时间与之抗争的事情。特别是,如果OP对除简单曲线拟合之外的任何事物(例如预测或推断)感兴趣,那么了解“只要尝试任何可以想到的”统计方法的含义就非常重要。
主教

2
我很难将这些评论与Anscombe,Tukey,Mosteller,Tufte和Cleveland的传统相吻合,后者强调在建立模型,建立系数或生成其他统计信息。
rolando2

8
关于它们的方法存在很多争议。总结这些问题的一种过分简化的方法是,如果您想了解模式并进行新的发现,需要以后进行验证,则进行探索性分析是适当的。如果您想进行推断(使用P值,置信区间等从特定样本到一般总体的原因),则不必太多。
弗兰克·哈雷尔

4
这是我在CV上看到的最具生产力的评论线程,尤其是交易所b / t rolando2(3 ^)和@FrankHarrell。我还发现这两种方法都非常有吸引力。我自己的解决方案是事先计划要测试的内容,并且仅为了进行确定的结论而适合/测试模型,还要彻底探索数据(不认为结果一定成立),以便发现可能正确的内容和计划下一个研究。(我是否应该进行另一项研究并检查某些内容,这是否有趣/重要?)关键是您对这些分析结果的看法
gung-恢复莫妮卡

3

您确实需要在得出数据的科学/理论与数据告诉您之间找到平衡。就像其他人所说的那样,如果让自己适应任何可能的变换(任何程度的多项式等),那么最终将导致过度拟合并得到无用的东西。

一种让自己相信这一点的方法是通过仿真。选择一种模型(线性,指数,对数),并生成遵循该模型的数据(可以选择参数)。如果您的y值的条件方差相对于x变量的范围较小,则可以通过简单绘图清楚地了解选择了哪个模型以及“真相”是什么。但是,如果选择的参数集使得从图中看不出来(可能是感兴趣的解析解决方案的情况),则应分析这三种方式中的每一种,并找出哪种方式最适合。我希望您会发现“最佳”拟合通常不是“真实”拟合。

另一方面,有时我们希望数据能尽可能多地告诉我们,而我们可能没有科学/理论来完全确定关系的性质。Box and Cox的原始论文(JRSS B,第26卷,第2期,1964年)讨论了在y变量上的几个变换之间进行比较的方法,它们给定的变换集具有线性和对数作为特殊情况(但不是指数) ,但是本文的理论中没有任何内容将您限制在他们的变换族中,可以扩展相同的方法,以包括您感兴趣的3个模型之间的比较。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.