谁发明了决策树?


24

我试图追踪谁发明了决策树数据结构和算法。

在维基百科上有关决策树学习的条目中,有一种说法是“ ID3和CART是在大约同一时间(1970年至1980年之间)独立发明的”。稍后在以下位置介绍ID3:

  • 昆兰,JR 1986年。决策树的归纳。马赫 学习。1,1(1986年3月),81-106

所以我不确定这个说法是否正确。

我发现使用Google的书籍是对1959年的《统计决策系列》和1958年的工作论文集的引用。上下文不清楚,他们似乎没有提出算法。但是,他们没有定义数据结构并将其视为众所周知的结构。

使用Google Scholar,我发现了可以追溯到1853年的引文,但这些引文是解析错误,而不是从那时起的实际引文。


9
CART的主要参考资料是,Classification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)但是那当然不是最早的参考资料。威斯康星大学的卢伟贤(Loe-Yin Yin)撰写了有关决策树的历史。这是一篇论文一些 关于历史的幻灯片
G5W

2
很好的参考!他说,第一棵回归树是1963年在Morgan,JN和JA的Sonquist发表的(1963)。调查数据分析中的问题和建议。美国统计协会杂志,58:415–434。该文件位于pdfs.semanticscholar.org/9577/…,第17页介绍了一棵树。似乎数据结构更早,甚至比1958
更早。– DaL

@ G5W,为什么不把它变成答案?
gung-恢复莫妮卡

7
对我来说,这个问题似乎很明显。我投票决定不公开。
gung-恢复莫妮卡

大铅。我尝试谷歌搜索他,但我不确定谁是正确的人。你能提供参考吗?
DaL

Answers:


18

好问题。@ G5W在引用罗伟贤的论文时走在正确的轨道上。Loh的论文讨论了决策树的统计前因,并正确地将其轨迹追溯到Fisher于1936年发表的判别分析-本质上是将多个组归类为因变量-然后通过AID,THAID,CHAID和CART模型。

简短的回答是,我能够找到的第一篇文章提出了一种“决策树”方法,该文章可以追溯到1959年,英国研究人员威廉·贝尔森(William Belson)在题为《生物分类原理的匹配和预测》JRSS,C系列,《应用统计》,第8卷,第2期,1959年6月,第65-75页),其摘要描述了他的方法是匹配总体样本并为此制定标准的方法之一:

Belson博士在本文中介绍了一种用于匹配总体样本的技术。这取决于经验开发的预测变量的组合,以提供最佳的可用预测或匹配组合。基本原理与多重相关方法固有的原理完全不同。

“漫长的”答案是,其他甚至更早的思想流在这里似乎都有意义。例如,精算死亡率表中采用的简单的年龄性别队列突破为思考可以追溯到几个世纪的决策提供了框架。也可以说,可以追溯到巴比伦的工作都采用了二次方程,这些二次方程在变量中是非线性的(在参数中不是非线性的,http://www-history.mcs.st-and.ac.uk/HistTopics/Quadratic_etc_equations。 html)具有相关性,至少在它们预示了逻辑增长的参数模型的范围内(我认识到这是一个延伸评论,请继续阅读以获得更充分的动机)。另外,哲学家们早已认识到并理论化了分层排列的定性信息的存在,例如,亚里士多德的《类别》一书。在这里,层次结构的概念和假设至关重要。大卫·希尔伯特(David Hilbert)无限,希尔伯特( Hilbert)的发展中,其他相关的后来发现也超越了3D欧几里得空间的边界。空间,组合学,与4-D Minkowski空间,距离和时间有关的物理学发现,爱因斯坦的狭义相对论理论背后的统计力学以及与马尔可夫链,跃迁和过程模型有关的概率论创新。这里的要点是,任何理论与其应用之间都可能存在重大滞后-在这种情况下,关于定性信息的理论与与它们的经验评估,预测,分类和建模有关的发展之间存在滞后。

最好的猜测是,这些发展可能与统计学家日趋复杂的历史有关(主要是在20世纪c年代),这是在开发利用规模模型而不是连续模型(例如,名义信息或更简单地是分类信息)的计数模型时进行的。 (泊松),交叉分类的权变表,无分布的非参数统计,多维缩放(例如,JG Carroll等),具有定性因变量的模型,例如两组逻辑回归以及对应分析(主要在荷兰和法国)在70年代和80年代)。

有大量的文献讨论和比较了两组逻辑回归和两组判别分析,并且对于完全名义上的特征,发现它们提供了等效的解决方案(例如,Dillon和Goldstein的Multivariate Analysis,1984)。

JS Cramer关于逻辑回归的历史的文章(逻辑回归的历史http://papers.tinbergen.nl/02119.pdf)将其描述为源自单变量,逻辑函数或经典S形曲线的发展:

物流一词的生存和该设备的广泛应用已由少数学者的个人历史和个人行动决定性地决定...

Logistic曲线的确定性模型起源于1825年,当时Be​​njamin Gompertz(https://en.wikipedia.org/wiki/Benjamin_Gompertz)发表了一篇论文,该论文开发了第一个真正的非线性Logistic模型(参数非线性,而不仅仅是变量非线性)巴比伦人)-Gompertz模型和曲线。

我建议,导致决策树发明的这条链中的另一个重要环节是哥伦比亚社会学家Paul Lazarsfeld在潜在结构模型方面的工作。他的工作始于30年代,第二次世界大战期间一直在他对新生OSS(后来的CIA,如John Naisbett的著作Megatrends所讨论的CIA)的德国报纸进行内容分析,并最终于1950年出版。Andersen 以此方式进行了描述(潜在结构分析:调查,Erling B. Andersen,《斯堪的纳维亚统计杂志》,第9卷,第1期,1982年,第1-12页):

保罗·拉扎斯菲尔德(Paul Lazarsfeld)于1950年在第二次世界大战期间对美国士兵的民族中心主义进行了研究,为经典的潜在结构分析理论奠定了基础。拉扎斯菲尔德主要对发展潜在结构模型的概念基础感兴趣...然而,拉扎斯菲尔德开发的统计方法相当原始...哥伦比亚大学拉扎斯菲尔德的同事进行了早期尝试来获得有效的估算方法和测试程序,TW安德森(TW Anderson),他在论文中(Psychometrika,1954年3月,第19卷,第1期,第1-10页,关于潜在结构分析中参数的估计),开发了一种有效的潜在类模型参数估计方法...为了介绍(潜在类模型)框架,我们将简要概述基本概念...并使用Goodman后来开发的符号系统(1974a)...数据以多重列联表的形式给出...

在此有一个有用的区别,因为这可能与基于偶发表的模型(模型中的所有变量都按名义缩放)和最新的潜在类模型(更多)之间从AID到CHAID(后来的CART)的进展有关。精确地,基于规模和分布的“混合”的有限混合模型,例如Kamakura和Russell,1989,市场细分和弹性结构的概率选择模型)如何创建模型的残差。对于较旧的列联表模型,完全交叉分类的表中固有的单元格计数构成了“复制”的基础,因此构成了在划分为类的模型残差中的异质性。另一方面,更新的混合模型依赖于对单个对象的重复测量,作为划分残差中异质性的基础。这个回应不是建议潜在类模型和决策树之间的直接联系。与AID和CHAID的相关性可以在评估模型所使用的统计数据中进行总结,AID使用连续的F分布,而CHAID使用卡方分布,适用于分类信息。在我看来,LCM并不是在对列联表进行分析和建模时,它是导致决策树发展的难题或叙述中的重要组成部分,以及许多其他已提到的创新。

CHAID是后来的发展,最初是在1980年南非Gordon Kass博士论文中提出的,这在CHAID上的Wiki文章(https://en.wikipedia.org/wiki/CHAID)中概述。当然,几年后的80年代,Breiman等人出版了CART,现在是著名的《分类和回归树》

AID,CHAID和CART都将树状,分层排列的结构视为现实的最佳表示。他们只是使用不同的算法和方法来解决这个问题。对我而言,这种渐进式创新链中的下一步是层次结构理论的出现。如该Wiki文章中所定义,层次结构“是一种组织系统,其中组织的元素未排序(非层次结构),或者具有以多种不同方式进行排名的潜力”(https://en.wikipedia .org / wiki /层次结构,或者对于层次结构有更深入,更哲学的观点,请参见Kontopoulos,《社会结构的逻辑》)。从经验的角度来看,在对结构的理解中,网络结构的分析和建模最能代表这一历史发展(例如,弗里曼的著作《社会网络分析的发展》)。尽管许多网络分析人员将尝试对结果网络进行分层安排,但这更多地是根深蒂固和无意识的假设的表达,而不是关于复杂世界中多路复用网络结构的经验现实的陈述。

这种反应表明,导致决策树发展的进化弧线在过程的每个步骤或阶段都会产生新的问题或对现有“最先进”方法的不满,从而需要新的解决方案和新模型。在这种情况下,不满意之处在于对两组建模(逻辑回归)的局限性,以及认识到需要将该框架扩展到两组以上的局限性。对基本正态分布的无代表性假设(判别分析或AID)的不满意,以及与在使用非参数,无分布的假设和模型(例如CHAID和CART)中发现的相对“自由”的比较。

如所建议的,决策树的起源几乎可以肯定有悠久的历史,可以追溯到几个世纪之前,并且在地理位置上是分散的。人类历史,科学,哲学和思想的多重流向可以追溯到叙述叙事的过程,这些叙事导致了当今现存的许多决策树的发展。我将是第一个承认我对这段历史的简要概述的重大局限性的人。

/ **附录** /

  1. 2014年《新科学家》杂志上的这篇文章的标题为“ 为什么我们喜欢将知识组织成树?https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-knowledge-into-trees/),这是对数据可视化大师Manuel Lima的书The Book of树木追溯了千年以来树木作为知识的可视化和助记符的古老用途。似乎没有什么疑问,但是诸如AID,CHAID和CART之类的方法所固有的世俗和经验模型以及图形代表了这种最初的宗教分类传统的持续发展。

  2. 在此视频(由CART软件的实​​施者Salford Systems在线发布),向Leo Breiman致敬中,Breiman谈到了导致CART方法论发展的思想发展。一切始于一面贴有不同二战战舰轮廓的墙壁。

https://www.salford-systems.com/videos/conferences/cart-founding-fathers/a-tribute-to-leo-breiman?utm_source=linkedin&utm_medium=social&utm_content=3599323

  1. 在阅读Denis Konig于1936年提出的有限和无穷图论的介绍时,Tutte指出(该书第13页),该书被广泛认为是为以前被视为儿童娱乐和困惑之源的领域提供了严格的数学基础。柯尼希(Konig)的书中的第4页(从第62页开始)致力于图论中的树木。Tutte对Konig对树的定义的解释是“其中“无环”图是没有电路的图,树是有限连接的无环图……换句话说,在树中,只有一条路径从一个给我一个顶点……”(对我来说(我既不是图论理论家,也不是数学家),这表明图论及其在Poincare的《Situs或Veblen' 分析》中的前身。 关于组合拓扑的讲座可能提供了早期的智力和数学先驱,后来成为统计学家的话题。

  2. 第一个智慧树被广泛归因于柏拉图主义哲学家斑岩谁,约270 CE写了一篇介绍逻辑是用来隐喻树来描述和组织知识...... http://www.historyofinformation.com/expanded.php? id = 3857

  3. 刚刚在Wiki的创世纪之书中发现了更早的关于知识树的参考,在Wiki文章中对此进行了讨论... https://en.wikipedia.org/wiki/Tree_of_life_(biblical)。根据这个参考,创世纪可能可以追溯到公元前1400年... https://www.biblica.com/bible/bible-faqs/when-was-the-bible-write/ 无论如何,《创世纪》问世了很多世纪之前斑岩。


1
那是一个美妙的“这段历史的简图”。我以为扎根应该超过50年,但我不认为它们会深入亚里士多德和巴比伦人。您很好地展示了方法如何更接近决策树。我仍然想念一个更确切的出现点。我希望能找到对其中一本旧书的引用,您在其中看到一个图表并说:“嗯,那是一棵决策树” ;-)
DaL

1
我不喜欢问题和某些答案中使用的术语。CART是分类树和回归树是有原因的。如上所述的决策树可能涉及也可能不涉及统计分析,并且通常基于启发式而非数据。最初的问题应该是关于分类树的。
弗兰克·哈雷尔

16

CART的主要参考资料是:

分类和回归树
Leo Breiman,Jerome Friedman,Charles J.Stone,RA Olshen(1984)

但这当然不是有关该主题的最早工作。

昆兰本人在1986年的论文《决策树归纳法》中指出,亨特的概念学习系统(CLS)是ID3的前身。他在1963年与CLS约会,但他引用了

EB Hunt,J.Marin,PJ Stone,
归纳实验
学术出版社,纽约,1966年

威斯康星大学的卢伟贤(Loe-Yin Yin)撰写了有关决策树的历史。有一篇论文

分类树和回归树五十年卢伟贤国际统计评论(2014),82,3,329–348 doi:10.1111 / insr.12016

他就该主题发表的演讲中也有一张幻灯片

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.