每个统计学家应该知道哪些理论?


30

我从一个非常基本的,最低要求的角度考虑这个问题。行业(而非学术)统计人员应定期了解,理解和利用的主要理论是什么?

我想到的一个大数字大数定律。将统计理论应用到数据分析中最重要的是什么?

Answers:


41

坦率地说,我不认为大数定律在工业中起着巨大的作用。理解通用过程的渐近合理性,例如最大似然估计和检验(尤其是无所不包的GLM和logistic回归),引导程序,但这是分布问题,而不是遇到不良样本问题的可能性。

除了已经提到的主题(GLM,推理,引导程序)之外,最常见的统计模型是线性回归,因此必须对线性模型有透彻的了解。您可能永远不会在行业中运行ANOVA,但是如果您不了解ANOVA,就不应称其为统计学家。

有不同种类的产业。在制药业,没有随机试验和逻辑回归就无法谋生。在调查统计数据中,没有Horvitz-Thompson估计量和不答复调整项就无法谋生。在与计算机科学相关的统计中,没有统计学习和数据挖掘就无法谋生。在公共政策智囊团(以及越来越多的教育统计数据)中,如果没有因果关系和治疗效果评估器(越来越多地涉及随机试验),您就无法谋生。在市场研究中,您需要将经济学背景与心理计量学理论相结合(并且在典型的统计部门产品中您都不会学到这两种方法)。工业统计数据采用自己独特的六个西格玛范式,但与主流统计数据之间却遥不可及。在实验材料的设计中可以找到更强的结合力。华尔街的材料将一直是金融计量经济学,一直到随机演算。这些是非常不同的技能,与“学术性”相比,“行业”一词的定义甚至更差。我认为没有人可以声称同时了解以上两个或三个以上内容。

但是,“行业”(无论对您而言意味着什么)普遍要求的最高技能是时间管理,项目管理以及与统计上不太精通的客户的沟通。因此,如果您想为进入行业做好准备,请在商学院就这些主题上课。

更新:原始帖子撰写于2012年2月;这些天(2014年3月),您可能应该称自己为“数据科学家”,而不是“统计学家”,以找到行业中的热门工作……并更好地学习一些Hadoop,以进行自我宣传。


1
好答案。感谢您强调行业中统计学家之间的一些重大差异。这有助于激发我的问题,因为我相信许多人对统计学家的看法/做法有不同的看法。我想我正在尝试从基本的了解中找出所有这些相交的地方。另外,我非常感谢您关于业务主题及其必要性的最后一段。很好,但我仍然想看看是否有人可以在接受之前加入对话。
bnjmn 2012年

我对这些“特殊的六西格码范例”,“与主流统计数据之间的远程联系”感到不解,您说“工业统计数据”在其中运作。在我看来,这完全是正统的,撇开所有这些子领域之间发现的术语差异。
Scortchi-恢复莫妮卡

4
坦白说,@ Scortchi,我无法克服这些术语差异。我也知道正常近似值已接近在尾部无用,所以6西格玛概率可以是关闭的的100或1000倍109
StasK

足够公平:我要说一下测量系统分析(评估者之间的协议,量规可重复性和可重复性研究),统计过程控制,可靠性分析(也称为生存分析)和实验设计((分数)因子设计,响应面方法) )是工业统计数据的特征。
Scortchi-恢复莫妮卡

12

我认为对与偏差方差折衷有关的问题有很好的理解。大多数统计学家最终都会在某个点上分析一个足够小的数据集,以使估计量的方差或模型的参数足够高,以至于偏差是次要考虑因素。


11

指出超级明显的一个:

中心极限定理

因为它允许从业者在难以获得确切许多情况下近似值。照着同样的思路,一般来说,任何成功的从业人员都应该熟悉ppp

自举


8

我不会说这与诸如大数定律或中心极限定理之类的东西非常相似,但是由于对因果关系进行推论通常是中心的,因此人们应该熟悉理解Judea Pearl关于使用结构图建模因果关系的工作用。它提供了一种方法,以了解为何实验和观察研究在因果推理方面存在差异,并提供了处理观察数据的方法。为了获得良好的概览,他的书在这里


2
还有鲁宾的反事实框架。也有结构方程模型和计量经济学工具变量技术...《无害计量经济学》中描述的一些方法是非统计学家撰写的最佳统计书籍。
StasK 2014年

7

对要解决的实质性问题的深刻理解与任何特定的统计方法一样重要。该行业的优秀科学家比没有此类知识的统计学家更有可能为他们的问题找到合理的解决方案。有实质知识的统计学家可以提供帮助。


6

Delta方法,如何计算奇异统计量的方差并找到它们的渐近相对效率,建议变量的变化,并通过“估计正确的事物”来说明效率的提高。与此相关的是,詹森(Jensen)对理解GLM的不等式和在上述转换中出现的奇怪类型的偏见。而且,既然提到了偏差和方差,那么偏差方差折衷和MSE的概念就可以作为预测准确性的客观指标。


6

我认为,统计推断对从业人员最重要。推论包括两个部分:1)估计&2)假设检验。假设检验很重要。由于在估计中大多数情况下是唯一的过程,因此遵循最大似然估计,并且它是大多数统计数据包可用的(因此不会造成混淆)。

从业人员常见的问题是有关差异或因果分析的重要测试。重要的假设检验可在此链接中找到。

关于因果关系的解释,需要了解线性模型,GLM或一般的统计模型。我认为数据分析的未来包括贝叶斯推断。


0

随便的推断是必须的。以及如何解决它的根本问题,您不能及时回去,也不能给别人治疗。阅读有关鲁宾的文章,费舍尔(Fisher)是现代统计学的学生的创始人。)....要学习如何解决该问题,适当的随机化以及大数定律如何正确地对事物进行随机化,假设检验,可能的结果(反对异质假设)并且非常适合缺失),匹配(对于缺失来说是很好的选择,但潜在结果更好,因为它更笼统,我的意思是为什么当您只能学习一个复杂的东西时,要学习很多复杂的东西),Bootstrap,当然是贝叶斯统计(贝叶斯回归) ,朴素的贝叶斯回归,贝叶斯因子)和非罗马式替代。

通常在实践中,请遵循以下一般步骤,

关于先前的评论,您通常应该首先从ANOVA(随机效应或固定效应,并将连续类型转换为垃圾箱)开始,然后使用回归(如果进行转换和更改,有时可能与ANOVA一样好,但决不能击败它)要查看哪些特定治疗有效,(使用多重t检验并使用像Holm methid这样的校正方法)使用回归。

在必须预测事物的情况下,请使用Bayasian回归。

超过5%的失踪会使用潜在结果

数据分析的另一个分支是有监督的机器学习,必须提到

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.