统计中的“大问题”是什么?


77

数学有其著名的“ 千年问题”(从历史上讲是希尔伯特的23题),这些问题有助于塑造这个领域的方向。

但是,我不知道黎曼假设和P对NP的统计量是多少。

那么,统计中最重要的开放性问题是什么?

编辑添加: 作为我所寻找答案的一般精神(如果不是很具体)的一个示例,我在David Donoho的“ 21世纪数学挑战”会议上找到了灵感来自“希尔伯特23”的演讲:高维度数据分析:维度的诅咒和祝福

因此,一个潜在的答案可能涉及大数据及其重要性,高维数据所面临的统计挑战的类型,以及需要开发的方法或需要回答的问题才能帮助解决问题。


5
感谢您发布此信息。这是一个重要的(并且可能会激发灵感的)讨论。
ub

Answers:


48

一个问题应该涉及统计方法论的关键问题,或者因为统计完全是关于应用的,所以它应该涉及如何将统计与对社会重要的问题一起使用。

此特征建议在考虑大问题时应包括以下内容:

  • 如何最好地进行药物试验。当前,经典的假设检验需要许多正式的研究阶段。在后来的(确认)阶段,经济和道德问题日益突出。我们可以做得更好吗?例如,我们是否必须将成千上万的患者放入对照组,并保持他们到研究结束,还是可以找到更好的方法来确定真正有效的治疗方法并将其提供给试验成员(和其他)更快?

  • 应对科学出版偏见。负面结果的发布要简单得多,因为它们只是没有达到神奇的p值。科学的所有分支都需要找到更好的方法来揭示具有科学意义的结果而不仅仅是具有统计意义的结果。(多重比较问题和应对高维数据是此问题的子类别。)

  • 探讨统计方法的局限性及其与机器学习和机器认知接口。计算技术的必然发展将使我们终生都能使用真正的AI。我们如何编程人工大脑?统计思维和统计学习在创造这些进步方面将发挥什么作用?统计人员如何帮助思考人工认知,人工学习,探索其局限性并取得进步?

  • 开发更好的方法来分析地理空间数据。通常声称大多数或绝大多数数据库都包含位置引用。很快,许多人和设备将通过GPS和手机技术实时定位。用于分析和利用空间数据的统计方法实际上才刚刚起步(并且似乎被归类为非统计人员通常使用的GIS和空间软件)。


1
人们尝试解决这些问题的方式是什么?
raegtin

3
@grautur:这是四个出色的问题(还有更多,因为您的回答适用于该主题中的每个答案)。他们都应该得到详尽的答案,但是显然这里没有空间了,请一次回答一个问题!
ub

3
关于第一个项目符号(药物试验):甚至对医学实验不感兴趣的人也应该阅读《纽约时报》的文章《临床试验基本规则上的新药搅拌辩论》nytimes.com/2010/09/19/health/research/ ……)。具有统计知识的读者将立即看到有关实验设计和使用p值进行决策的未阐明含义。本文所描述的生死难题在某种程度上有一个统计解决方案。
ub

26

迈克尔·乔丹(Michael Jordan)有一篇简短的文章,叫做《贝叶斯统计中的开放问题是什么?,他在其中对许多统计学家进行了调查,以征询他们对统计学中未解决问题的看法。我将在此处进行一些总结(也就是复制和粘贴),但是最好只阅读原始文档。

非参数和半参数

  • 贝叶斯非参数对哪些问题有用,值得麻烦吗?
  • 戴维·邓森(David Dunson):“非参数贝叶斯模型涉及无限多个参数,为了方便起见,通常会选择先验,将超参数设置为看似合理的值,而没有适当的客观或主观理由。”
  • “一些人注意到,频繁性非参数的吸引人的应用之一是半参数推理,其中模型的非参数成分是一个令人讨厌的参数。这些人认为,充实(惯常)理论是非常必要的。贝叶斯半参数。”

先验

  • “启发仍然是未解决问题的主要根源。”
  • “阿德·范·德·瓦尔特(Aad van der Vaart)将客观的贝叶斯转向脑袋,并指出缺乏一种理论,即“人们希望先验先验通过后验的情况”,而不是“仅提供贝叶斯平滑方法”。

贝叶斯/频率关系

  • “许多受访者表示希望进一步加强贝叶斯/频率关系。这在高维模型和数据的背景下最常见,在这种情况下,不仅难以确定主观的先验先验方法,而且可以方便地先验先验。 (高度)误导。”
  • “一些受访者希望采用非渐近理论,这种理论可能更充分地揭示贝叶斯方法的假定优势;例如,戴维·邓森(David Dunson):“通常,通过在有限样本中明显比贝叶斯方法做得差得多的程序来获得频繁最优率。”

计算与统计

  • Alan Gelfand:“如果MCMC对于人们想解决的问题不再可行,那么INLA,变式方法,ABC方法的作用是什么?”
  • “有几位受访者要求将计算科学和统计科学进行更彻底的整合,并指出在任何给定情况下一个人可以达到的推论是模型,先验,数据和计算资源的共同作用,并希望为了更明确地管理这些数量之间的折衷,实际上,罗伯·卡斯(Rob Kass)提出了“推论可溶性”概念的可能性,其中一些问题被认为是超出希望的(例如,回归中的模型选择,其中“对于有少量数据的非平凡噪声,当模型中存在或不存在先验变量的变量很多时,可能无法获得有用的回归系数置信区间”)以及还有其他希望存在的问题(“某些功能具有有用的置信区间”)。
  • “几位受访者在为某种模糊性表示歉意的同时,感到大量数据并不一定意味着需要大量计算;相反,大数据中存在的推理强度应该以某种方式转移到算法中并使其成为可能。以更少的计算步骤来完成,以获得令人满意的(近似)推论解。”

模型选择和假设检验

  • β1个
  • 需要在模型选择的决策理论基础上做更多工作。
  • David Spiegelhalter:“如何最好地使对先验/数据冲突的检查成为贝叶斯分析的组成部分?”
  • Andrew Gelman:“对于模型检查,一个关键的开放性问题是开发用于理解和比较模型的图形工具。图形不仅用于原始数据,而且复杂的贝叶斯模型为更好,更有效的探索性数据分析提供了机会。”

13

我不确定它们的大小,但是有一个Wikipedia页面可以解决统计中尚未解决的问题。他们的清单包括:

推理与测试

  • 系统错误
  • Graybill–Deal估计量的可采性
  • 在荟萃分析中结合相关的p值
  • 贝伦斯-费希尔问题
  • 多重比较
  • 贝叶斯统计中的未解决问题

实验设计

  • 拉丁方的问题

更具哲学性的问题

  • 物种问题抽样
  • 世界末日论点
  • 交流悖论


4

Mathoverflow对于概率论中的大问题也有类似的问题。

从该页面看来,最大的问题与自我避免随机游走和渗滤有关。


1
我认为统计学与概率论是分开的领域。
raegtin

3
@raegtin-我不认为概率论与统计是分开的,而是理论。“统计”是概率论在推理问题(即实践)上的应用。
概率


3

我的回答将是频繁主义者和贝叶斯统计学之间的斗争。当人们问您“相信”哪个时,这不好!特别是对于一门科学学科。


2
科学家“相信”某事没有错,尤其是因为贝叶斯概率代表了对某些命题真理的信念或知识的程度。
迪克兰有袋动物

2
...只有当科学家无法区分信念和事实时,问题才会出现。贝叶斯或常客统计学具有优越性,这是不科学的,因为没有客观的测试可以决定答案(AFAIK),因此选择主要是主观的和/或“课程马”。
迪克兰有袋动物

@propofol-我同意“相信”一词不适用于统计学,它带有错误的含义。信息是我认为更合适的词(即“您拥有什么信息?”)。它不会改变贝叶斯分析的数学或最优定理,但会在实际使用方式方面赋予它们适当的含义。例如,物理理论或因果机制的知识是信息,而不是信念。
概率
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.