过去15年的统计领域有哪些突破?


56

我仍然记得Friedman-Hastie-Tibshirani撰写的《统计年鉴》中关于提振的文章,以及其他作者(包括Freund和Schapire)对相同问题的评论。那时,显然Boosting在许多方面都被视为突破:计算上可行,一种集成方法,具有出色而神秘的性能。大约在同一时间,SVM逐渐成熟,它提供了以坚实的理论为基础并具有大量变体和应用程序的框架

那是在奇妙的90年代。在过去的15年中,在我看来,很多统计工作都是清理和细化工作,但很少有真正新的观点。

所以我会问两个问题:

  1. 我错过了一些革命性的论文吗?
  2. 如果没有,您认为有没有新方法可以改变统计推断的观点?

规则:

  1. 每个帖子一个答案;
  2. 欢迎参考或链接。

PS:我有几个候选人有望取得突破。我稍后再发布。


5
有关类似问题,请参阅stats.stackexchange.com/q/1883/159(已封闭为主观和争论性内容)。
Rob Hyndman

1
我正要调出相同的主题。闻起来像复制品。
Dirk Eddelbuettel

1
当然,这是主观的,但是对于CW来说还行吗?
Christopher Aden

1
那是更长的时间尺度。我不认为这是重复的。至于辩论,则取决于参与者。我并不想在这里颁发奖杯,只是为了跟上我和其他人可能错过的开创性论文。由于没有正确的答案,我全力以赴。我发现有趣的是,到目前为止,所有答案都来自贝叶斯创新。
2011年

2
这似乎是可以推销的职位。我认为这可以保持开放。
gung-恢复莫妮卡

Answers:


43

答案很简单,我必须写所有这些乱七八糟的东西才能使简历发布:R


14

我不确定您是否会称其为“突破”,但是概率论的出版 Edwin Jaynes和Larry Bretthorst 的科学逻辑也许是值得注意的。他们在这里做的一些事情是:

1)显示某些迭代“季节调整”方案与贝叶斯“讨厌参数”积分之间的等价关系。

2)解决了所谓的“边际化悖论”,有人认为这是“贝叶斯主义的死亡”,而有人认为是“不当先验的死亡”。

3)概率描述的是关于命题是真还是假的知识状态,而不是描述世界物理特性

本书的前三章可在此处免费获得。


2
不幸的是,贾恩斯对边缘化悖论的解决是有缺陷的。参见凯文·范·霍恩(Kevin Van Horn)关于贾恩斯(Jaynes)对边缘化悖论的处理注释,可在此处获得
青色2012年

1
@cyan-请注意,尽管他的解决方案在某些方面存在缺陷,但他的基本原理解决了这一问题。适当先验的一般规则及其收敛的限制意味着mp不会出现。该缺陷很可能是由于该书在第二部分的大部分内容中未完成。我喜欢[here](arxiv.org/abs/math/0310006)分辨率优于ksvh版本。更短更通用。
概率


13

LARS得到我的投票。它结合了线性回归和变量选择。计算它的算法通常会为您提供线性模型的集合,其中第个仅对回归变量具有非零系数,因此您可以轻松查看不同复杂度的模型。kii


您曾经使用过LARS吗?我之所以问是因为我从未听说过它,而且听起来真的很有趣。原始文章有点长(93页),所以在深入研究之前,我想先获得一些意见。
Tomek Tarczynski 2011年

@Tomek Tarczynski:我用了少量。我使用了Matlab中的一个程序包(我确信R中有一个或多个程序包)。它还提供了一个稀疏的PCA,我对此更感兴趣。我承认我只是略读了这篇论文。;)
shabbychef 2011年

11

在决策理论中引入了“固有差异”损失函数和其他“无参数化”损失函数。它具有许多其他“不错”的属性,但我认为最好的属性如下:

如果的最佳估计使用固有差异损失函数是,然后中任一项对一函数的最佳估计,说是简单地。θ ë θ θ θ ëθθeθg(θ)g(θe)

我觉得这很酷!(例如,对数奇数的最佳估计是log(p /(1-p)),方差的最佳估计是标准偏差的平方,等等)

抓住?内在的差异可能很难解决!(它涉及min()函数,似然比和积分!)

“捕渔获”?您可以“重新安排”问题,以便更轻松地计算!

“反计数器捕获”?弄清楚如何“重新安排”问题可能很困难!

以下是一些我知道使用此损失函数的参考。尽管我非常喜欢这些论文/幻灯片的“内在估算”部分,但我对本文所述的“参考先行”方法有所保留。

贝叶斯假设检验:一种参考方法

内在估计

比较正常均值:解决老问题的新方法

综合客观贝叶斯估计和假设检验



9

加上我自己的5美分,我认为过去15年中最重要的突破是压缩传感。LARS,LASSO和许多其他算法都属于此领域,因为压缩感知解释了它们起作用的原因并将其扩展到其他领域。


1
我看过压缩感知,作为一个非统计学家,我一直在问自己:“这不只是逆向随机投影吗?”。我知道“正义”这个词很容易丢掉,但是感觉就像人们在忽略随机投影(大约2000年)和压缩感知(大约2004年)之间的明显联系。
韦恩

9

与统计本身没有什么关系,但从中受益匪浅:计算机的强大功能不断增强,使得更大的数据集和更复杂的统计分析更加容易获得,尤其是在应用领域。


8

贝叶斯推断的期望传播算法,尤其是在高斯过程分类中,可以说是一个重大突破,因为它提供了一种有效的解析近似方法,其效果几乎与基于计算的昂贵采样方法一样(不同于通常的拉普拉斯近似方法)。在EP路线图上查看Thomas Minka和其他人的工作


EP看起来确实很酷(尽管它仍然会伤到我的头)。它仍然缺乏通用的收敛保证吗?
共轭



2

尽管比统计数据更笼统,但我认为可再现研究(RR)的方法已经取得了重要进展。例如R knittrSweave软件包和“ R Markdown”笔记本,LyX和LaTeX的改进为数据共享,协作,验证/验证乃至统计的进一步发展做出了重要贡献。统计,医学和流行病学杂志上的参考论文很少允许在这些可再现的研究方法/技术出现之前容易地再现结果。现在,一些期刊需要可重复的研究,许多统计学家正在使用RR并在网上发布代码,其结果和数据源。这也有助于培养数据科学学科,并使统计学习更容易获得。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.