针对非技术性但深度统计文章的建议

24

这个问题的灵感来自于已故的Leo-Breiman著名的文章《统计模型：两种文化》（开放获取）。作者将他认为是两种截然不同的数据分析方法进行了比较，涉及经典统计和机器学习中的关键思想。但是，无论读者是在博士级别上从事统计学研究还是仅参加入门课程，对广大读者来说，这篇文章都是可以理解的。而且，这篇文章令人振奋。也就是说，它很容易引起讨论（正如同一期发表的一系列生动评论所证明的那样）。

我很好奇，发现更多具有这些品质的文章。也就是说，以下文章：

触及统计/数据分析中的基本概念
在研究重点和正式统计培训方面存在差异，因此可以被广大受众理解
通过洞察力或争议激发讨论

references

— 理查德·边界
source

2

到目前为止，答案非常有趣！让他们继续来。当然，我不会接受任何的答案按meta.stats.stackexchange.com/questions/409/...

— 理查德边界

2

没有通往统计数字的皇家之路。

— Aksakal

15

Shmueli，加利特。“解释还是预测？” 统计科学（2010）：289-310。

我相信它符合您的三个要点。

它讨论了解释性模型与预测性模型（这些术语应不言自明），并指出它们之间的差异通常无法识别。

它提出一个观点，即根据建模的目标（解释性与预测性），可以使用不同的模型构建策略，并且可以选择不同的模型作为“最佳”模型。

这是一篇比较全面的论文，读起来很愉快。Rob J. Hyndman的博客文章中总结了对它的讨论。此主题中有关于交叉验证的相关讨论（有很多支持）。关于同一主题的另一个（未回答）问题是this。

— 3转
source

12

Lehmann，ErichL。“检验假设的Fisher，Neyman-Pearson理论：一两个理论？”。美国统计协会杂志88.424（1993）：1242-1249。

这不是很多人知道的，但是当这个行业的巨头仍然在我们中间时，他们彼此之间并没有融洽相处。关于假设检验基础的辩论，无论是归纳式还是演绎式，一方面是费舍尔（Fisher）一方面是内曼·皮尔森（Neyman-Pearson）之间的侮辱。这个问题在他们的一生中从未解决过。

在所有方法都解决了很长时间之后，雷曼试图弥合差距，并且我认为，莱曼表现出色，因为他表明这些方法是互补的，而不是相互排斥的。这就是如今学生所学的东西。您需要了解有关假设检验的一些基本知识，但是您可以按照本文的顺序进行操作，而不会出现任何问题。

— 约翰·克
source

1

感谢您的引用。我曾经问过一个关于F和NP方法之间所谓的冲突的问题：stats.stackexchange.com/questions/112769，尽管得到了很多关注和支持，但我对现有的任何答案仍然不相信（并且没有接受任何）。我打算回到那个线程去做一些阅读/提供赏金之类的东西，但是却没有时间。如果您熟悉雷曼的论文，我鼓励您在那里回答。

— 变形虫说莫妮卡（Monica）恢复

@amoeba我一遍又一遍地阅读了莱曼的论文，可读性很强，但是我认为我没有像您这样彻底地研究过此问题。因此，只要有时间，最好翻阅一下，看看他的观点。您会发现关于Behrens-Fisher问题的讨论特别有启发性。

— JohnK

感谢分享。也许我所听到的只是单方面的，但是我所听到的关于罗恩·费舍尔爵士的一切都是，至少可以说，他是一个令人不愉快的人。他对吸烟与肺癌之间的联系也有疑问。

— Phil

罗纳德（Ronald）的克里斯滕森（Christensen）是文章的“较轻”替代品。“测试Fisher，Neyman，Pearson和Bayes。” 美国统计学家59.2（2005）：121-126。我发现它很愉快。

— 理查德·哈迪

9

Wilk，MB和Gnanadesikan，R. 1968年。数据分析的概率图方法。 Biometrika 55：1-17。Jstor链接（如果可以访问）

在撰写本文时，这篇论文已有将近50年的历史，但仍然感到新鲜和创新。作者使用大量有趣且实质性的示例，结合并扩展了各种思想，以使用QQ（分位数-分位数）和PP（概率-概率）图的框架来绘制和比较分布。这里的分布广义上是指在其分析中产生的任何数据集或数字集（残差，对比度等）。

这些图的特定版本可以追溯到几十年前，最明显的是正常概率图或正常分数图。在这些术语中，这是分位数-分位数图，即从正态（高斯）分布的相同大小的样本中观察到的分位数与预期分位数或理论分位数的曲线。但是作者们谦虚而又自信地表明，同样的想法可以很容易地扩展-实际上在现代计算中可以扩展-用于检查其他种类的分位数并自动绘制结果。

当时在贝尔电话实验室工作的作者都使用了最先进的计算设备，甚至许多大学和研究机构也花了十年左右的时间来追赶。即使到现在，本文中的想法仍应得到广泛的应用。这是一种罕见的介绍性文字或课程，其中包含除常规QQ情节以外的任何这些想法。当引入分布图时，直方图和箱形图（通常非常有用，但是每个都很笨拙并且在几种方面受到限制）仍然是主要的主食。

在个人层面上，尽管本文的主要思想在我的职业生涯中是很熟悉的，但我还是喜欢每隔两年左右重新阅读一遍。一个很好的理由是，作者以严肃的例子产生简单而有力的想法，以取得良好的效果，从而感到高兴。另一个很好的理由是，简洁撰写的论文没有引起轰动的痕迹，暗示了主要思想的延伸。我已经不止一次地重新发现了在侧边提示和进一步评论中明确涵盖的主要思想的转折。

这不仅是对统计图形特别感兴趣的人的论文，尽管我认为应该包括对各种统计感兴趣的每个人。它促进了思考分布的方法，这些方法实际上有助于开发任何人的统计技能和见解。

— 尼克·考克斯
source

2

这是一个不错的选择。我已经读过好几次了-当我在您的答案中看到作者的名字时，我就知道这是哪篇论文，马上我想再次阅读。我想我在这里某处有它的副本...

— Glen_b -Reinstate Monica

6

约翰·PA·约阿尼迪斯（Ioannidis），“为什么大多数已发表的研究结果都是错误的。” 公共科学图书馆（2005）

约翰·PA·约阿尼迪斯（Ioannidis），“如何使更多已发表的研究成为现实”。PLoS Medicine（2014年）

必须为每个想要避免在研究中错误使用和解释统计数据的危险的研究人员/统计人员/分析人员阅读。2005年的文章是公共科学图书馆历史上访问量最大的文章，并且引发了许多争议和讨论。

— 林赛·L
source

6

Tukey，JW（1960）结论与决策 技术比较 2（4）：423-433

本文基于Tukey在餐后的演讲，并且有一条评论“随后进行了相当多的讨论”，因此它至少与您的点数的三分之一匹配。

当我完成工程学博士学位时，我首先阅读了这篇论文，并赞赏它对数据分析实用性的探索。

— 托尼·拉德森
source

链接无效。这有效

— kjetil b halvorsen

5

Efron和Morris，1977年，斯坦因统计学中的悖论。

埃夫隆（Efron）和莫里斯（Morris）在1970年代撰写了一系列有关詹姆斯·斯坦（James-Stein）估计量的技术论文，将斯坦因的“悖论”归因于经验贝叶斯背景。1977年的论文是在《科学美国人》上发表的流行论文。

这是一本好书。

— 变形虫说恢复莫妮卡
source

3

好吧，尽管经济学家对罗伊模型有更大的兴趣（但我可能错了），但其1951年的原始论文《关于收入分配的一些想法》是关于自我选择问题的有见地且非技术性的讨论。本文为诺贝尔奖获得者詹姆斯·赫克曼（James Heckman）开发的选择模型提供了启发。尽管年代久远，但我认为它与您的三个要点相符。

— 罗德里戈·雷梅迪奥
source