塔莱布(Taleb)的书《黑天鹅》(The Black Swan)在几年前问世时是《纽约时报》的畅销书。这本书现在是第二版。在JSM(年度统计会议)上与统计学家会面后,Taleb在某种程度上减轻了对统计学的批评。但是本书的重点是统计数据不是很有用,因为它依赖于正态分布和非常罕见的事件:“黑天鹅”不具有正态分布。
您认为这是有效的批评吗?Taleb是否缺少统计建模的一些重要方面?至少可以在估计发生概率的意义上预测稀有事件吗?
塔莱布(Taleb)的书《黑天鹅》(The Black Swan)在几年前问世时是《纽约时报》的畅销书。这本书现在是第二版。在JSM(年度统计会议)上与统计学家会面后,Taleb在某种程度上减轻了对统计学的批评。但是本书的重点是统计数据不是很有用,因为它依赖于正态分布和非常罕见的事件:“黑天鹅”不具有正态分布。
您认为这是有效的批评吗?Taleb是否缺少统计建模的一些重要方面?至少可以在估计发生概率的意义上预测稀有事件吗?
Answers:
我几年前读过《黑天鹅》。Black Swan的想法很好,而且对荒谬谬误的攻击(把东西看成是骰子游戏,具有已知的概率)是好的,但统计数据却被错误地歪曲了,中心问题是错误的主张,即如果变量存在,所有统计数据都会崩溃不是正态分布的。这方面让我非常恼火,无法给塔勒布写以下信:
亲爱的塔莱布博士
我最近读了《黑天鹅》。像您一样,我也是Karl Popper的粉丝,而且我发现自己同意其中的很多内容。我认为您对荒谬谬论的解释基本上是正确的,并且引起了人们对一个现实和普遍问题的关注。但是,我认为第三部分的大部分内容会严重挫败您的整体论点,甚至可能使本书的其余部分失去信誉。真可惜,因为我认为有关“黑天鹅”和“未知未知数”的论点是基于其优点,而不依赖于第三部分中的某些错误。
我想指出的主要问题是-您对应用统计领域的表述不正确-并寻求您的答复,特别是如果我有被误解的问题。根据我的判断,第14、15和16章在很大程度上取决于一个稻草人的论点,歪曲了统计学和计量经济学。您所描述的计量经济学领域并不是我学习应用统计学,计量经济学和精算风险理论时所教的(在澳大利亚国立大学,但使用的是看起来很标准的文章)。您提出的问题(例如高斯分布的局限性)即使在大学阶段也能得到很好的理解和教导。
例如,您花了一些时间来说明收入分配如何不服从正态分布,并将其作为一般统计实践的论据来提出。没有胜任的统计学家会声称这样做,而且解决此问题的方法也已确立。例如,仅使用最基本的“第一年计量经济学”水平的技术,通过对变量进行对数转换就可以使您的数值示例更具说服力。实际上,这种转换会使您所说的大部分内容无效,因为原始变量的方差确实会随着其均值的增加而增加。
我敢肯定,有些不称职的计量经济学家会像您所说的那样使用未转换的响应变量进行OLS回归等,但这只会使他们变得不称职,并使用公认的不合适的技术。即使在大学本科课程上,他们也肯定会失败,因为大学课程花费大量时间寻找更合适的变量建模方法,例如收入,以反映实际观察到的(非高斯)分布。
广义线性模型族是一组技术,其开发目的是为了解决您提出的问题。许多指数分布族(例如Gamma,指数和泊松分布)都是不对称的,并且随着分布中心的增加,方差会增加,从而解决了使用高斯分布时所指出的问题。如果仍然太局限,则可以完全删除先前存在的“形状”,并简单地指定分布的均值与其方差之间的关系(例如,允许方差与均方的平方成比例地增加),使用“拟似然”方法进行估算。
当然,您可能会争辩说,这种形式的建模仍然过于简单化,并且存在一种智力陷阱,使我们无法思考未来将像过去一样。您可能是正确的,我认为您的书的优势在于使像我这样的人考虑到这一点。但是您需要与第14-16章中使用的参数不同的参数。例如,您对高斯分布的方差无论其均值是恒定的(这会导致可伸缩性出现问题)都是恒定的事实都是无效的。因此,您要强调一个事实,即现实生活中的分布往往是不对称的,而不是钟形曲线。
基本上,您对一种最基本的统计方法进行了过度简化(对具有高斯分布的原始变量进行过简单建模),并详细地(正确地)表明了这种过度简化的方法的缺点。然后,您可以使用它来缩小整个字段的范围。这要么是逻辑上的严重失误,要么是宣传技巧。不幸的是,因为它偏离了您的整体论点,我认为其中的大部分(如我所说)是有效和有说服力的。
我很想听听您的回应。我怀疑我是第一个提出这个问题的人。
此致
聚乙烯
我没有读过这本书,但是正如我所说,批评对我来说似乎是不合理的。如果极端事件很重要,则统计信息将在工具箱中提供适当的工具,例如极端价值理论,而好的统计学家将知道如何使用它们(或至少找到如何使用它们,并将充分从事于以下目的:进行分析)。批评似乎是“统计数字不好,因为有些统计数字不好,只知道正态分布”。
我认为说“书的重点是统计不是很有用”是不准确的。阅读本书后,他似乎要说的是定量金融或任何假设正态分布的证券交易之类的东西从根本上是有缺陷的(实际上,在书中,他称那些声称使用这些模型进行预测的人,“ charlatans”)。根据塔勒布(Taleb)的观点,虽然正态分布在建模有形/物理事物(例如身高,体重,寿命等)的价值方面做得很好,但是像市场这样的系统通常是由人类的情感驱动的,因此容易受到正态分布无法准确预测的大幅波动。
我对统计数据不太了解,在阅读此处的答案之前,我从未听说过极值理论之类的东西。无论如何,《黑天鹅》和《愚昧无知》似乎有相似的前提,即“正态分布并不总是可以的”。我不记得他对整个统计领域的诽谤。
我确实读过《黑天鹅》,我很喜欢,而且我是统计学家。我完全没有发现它的“统计批评”是无法忍受的。逐点:
对于那些不喜欢这个答案或不喜欢这本书的人,可以在新的https://fernandonogueiracosta.files.wordpress.com/2014/07/taleb-nassim-silent-risk中查看Taleb的技术论点。 PDF “沉默的风险”,这是技术。
我还没有读过《黑天鹅》,但是如果他对统计学的批评确实如您所说的那样简单,那就太荒谬了。显然,某些统计信息依赖于正态分布,但很多情况并非如此。
可以对罕见事件进行建模吗?当然可以。真正的问题是如何对它们进行建模。根据我们对罕见事件及其先例的了解程度,该问题在不同领域将有不同的答案。
在今天的《纽约时报》杂志上,内特·西尔弗(Nate Silver)发表了一篇有趣的文章,内容涉及过去十年左右天气预报的改进情况。这包括对罕见事件(例如飓风)进行更好的建模。
这本书值得一读吗?
我也没有读过这本书,但是他的观点不可能像说正态分布的尾巴更胖那样简单。这将是对其他答案的评论,但我在该网站上没有获得足够的赞誉。
从维基百科:
他说,统计从根本上说是不完整的,因为它无法预测罕见事件的风险……”
这个问题也非常类似于社区对第四象限的看法?
我强烈建议Dennis Lindley对这本书进行审查。它包含许多毁灭性的论点,反对书中对思想的拙劣阐述:
http://onlinelibrary.wiley.com/doi/10.1111/j.1740-9713.2008.00281.x/abstract
黑天鹅是另一个例子,其中“畅销书”不能保证高质量的内容。
我不认为Taleb实际上会说依赖于高斯分布的统计技术没有用。他在书中的观点是,它们对于许多(但不是全部)物理或生物过程和建模非常有用。他提出了一些好点和坏点(《黑天鹅》和《连环漫画》是“万物都是力量法则!”的祸根,今天仍然困扰着我们),但请务必记住,这本书是文学和哲学著作的集合专为外行人准备的论文。
话虽如此,我认为塔勒布喜欢使人恶化。您可以在他与迈伦·斯科尔斯(Myron Scholes)的战斗中看到这一点。在这种情况下,它可能对本科生水平的统计教育很有用,有时甚至是对研究生水平的统计教育,在假定高斯分布的情况下也很有用。我想在他从事金融业的那几年里,他遇到了很多具有Black-Scholes和其他技术知识的量化分析师,但他们没有考虑诸如分布之类的基本假设。我怀疑塔莱布(Taleb)未能接受适当的教育而在教育机构king之以鼻。
不读这本书,我会感到高斯的钟声失败了,因为它们从来没有给出“概率密度”的明确定义。除此之外,他们从不给出洛伦兹曲线的完整点集,这些点同时包括分布变量的总数和感知前者的总体总数。如果使用“密度”,则必须说明什么变量。例如,如果您说的是千克/升,则是指与体积相关的重量密度。高斯理论在教科书中没有给出这一步骤。难怪年轻人对统计数字的理解不正确。