经验丰富的开发人员从何处开始统计


47

在2015年上半年,我参加了机器学习课程(由GREAT课程的Andrew Ng 撰写)。并学习了机器学习的基础知识(线性回归,逻辑回归,SVM,神经网络...)

我也是开发人员已有10年了,因此学习一种新的编程语言将不是问题。

最近,我开始学习R以实现机器学习算法。

但是我已经意识到,如果我想继续学习,我将需要更正式的统计学知识,目前我对它不是一个正规的知识,但是由于其局限性,例如,我无法正确确定几个线性模型中的哪个会更好(通常我倾向于使用R平方,但显然这不是一个好主意)。

因此,对我来说,很明显我需要学习统计学的基础知识(我是在uni上学习的,但是却忘记了大部分),我应该在哪里学习,请注意,我实际上并不需要一门全面的课程一个月之内就可以让我了解足够的知识,这样我就可以渴望并了解更多:)。

到目前为止,我已经阅读了有关“ 无泪统计 ”的信息,还有其他建议吗?


2
统计资料:Casella,G.和RL Berger(2002):Duxbury统计推断。对于计量经济学:Hayashi,F.(2000):计量经济学,普林斯顿大学出版社。对于另一种观点:stats.stackexchange.com/questions/91863/…–
GuilhermeSalomé

我添加了references标签。您可能希望浏览该主题的命中首页。
Glen_b

3
我不认为这应该关闭。我确实看到了使其成为CW的论点。
gung-恢复莫妮卡

2
从我的角度来看,如果您以前不熟悉概率论而开始学习统计知识,知识将有偏见。
Metariat

2
我想增加一个警告词。我相信您已经在某种程度上理解了这一点,但是我只想说一句话。我是医学博士/博士学位的学生。随着医学博士学位,我计划练习内科。对于我的博士,我正在研究生物统计学。我想让您知道,您一个月内无法掌握统计学,就不会一个月内掌握医学。我绝不是要阻止您学习统计数据。恰恰相反,我希望您能理解它。但是,只要了解一下,就比想成为一名开发人员要参与得多。
文森特·劳弗,2015年

Answers:


26

我会建议您一个基本的路线图:

奖金:

Metacademy是此类路线图的绝佳站点,我个人将其作为网上最好的Data Science资源之一。

Gitxiv是另一个漂亮的站点,它将有关数据科学的Arxiv研究论文与相关的开源实现/库联系起来。


2
OP已上过Ng的课程,这就是促使他首​​先提出问题的原因。
阿克萨卡尔邦2015年

4
@Aksakal我注意到了。但是,将其作为路线图的一部分。并没有真正的改变,所以我认为包括它会帮助其他正在阅读本文的人。
Dawny33

12

您是否已经查看过Think StatsThink Bayes,它们都是面向程序员的(免费)统计书,并带有大量Python代码。

另外,如果您对学习R感兴趣,那么CRAN可能会提供许多(免费)pdf文档,例如,使用R的概率与统计简介。还有一个使用RCoursera课程,这是很多人真正喜欢的(他们相信这本教科书,您可能还想看看,并在DataCamp上进行实验,我相信)。

另外,如果您想复习一些Stats主题,可以随时在Khan Academy上观看几个视频。


我喜欢Think Stats和Think Bayes,但他们故意避免使用许多正式的统计理论,而是希望通过代码完成工作。非常适合于直观地了解该主题,但如果您的目标是理解基础理论,则效果不佳。
Marius 2015年

@马里乌斯:我知道你的意思。但是,我当时在想,因为他已经是一名程序员,并且还因为他似乎希望“小巧,简单,快捷”,这可能是他所寻找的更多东西。
史蒂夫·S

8

如果您曾经能够解决此列表中的问题,即使很遥远,那么您也应该尝试“适当地” 研究应用的统计信息。我给你一个简单的两步算法。

首先,掌握概率论。有很多好书。我最喜欢的是费勒的经典著作。它被称为“简介”,但不要被标题所迷惑,它的深度如您所愿,但是如果您只想略读其表面,它的编写也非常简单。

第二步是统计。再说一遍,有很多很棒的书。我会给你一个我用过的,古吉拉特语“基本计量经济学”,第四版的不错的介绍性文字。计量经济学是应用于经济学的统计数据。作为参考,一个人人都认为数据科学家将是未来10年最性感的工作的人是伯克利的经济学家Hal Varian。许多机器学习知识都是基于基本统计数据,回归等的。本书涵盖了所有内容,您无需全部阅读,而是以可以按自己的顺序选择章节的方式编写的。

当您阅读这些课文时,Ng的课迅速填补之后,您会发现有多少空白留给您惊讶,您会感到惊讶。

作为一名从业人员,在这两个步骤之后,您不需要太多的理论。您可以继续学习ML技术,特别是阅读该领域的书籍。重要的是不要在开始时就太过了解概率和统计数据。首先让您的代码适合ML,然后逐步填补空白。


4

每个人都推荐Casella&Berger,它几乎在研究生统计计划中普遍使用。这不是一本糟糕的参考书,但是我不确定除了扫描前4-5章之外我还要做更多的事情。我认为在研究“统计”即数据分析之前,您不需要有关如何构建Neyman-Pearson类型测试的理论。

相反,我将专注于学习方法。我的研究生课程使用“ 应用线性统计方法”进行常客测验,这是一个相当不错的综合参考书,但从自我教学的角度来看,它可能不是最容易上手的书。麻省理工学院或Coursera开设的一门或两门课程可能是开始学习的更好方法,因为与阅读本书相比,与其他示例相比,您将获得更广泛的概述和更多示例。

对于贝叶斯,我最常使用的书是《做贝叶斯数据分析》,该书随附了小狗图片(显然,这使该书优于其他贝叶斯入门教科书)。我从未亲自使用过该书,但我翻阅了这本书,它看起来还不错-比Gelman的书好得多,在贝叶斯统计中的两课之后,我发现这本书有些令人费解-解释很糟糕。


1
C&B的前5章实际上根本不是统计数据,更像是背景统计数据。统计的概念在第6章的开头介绍!更重要的是,学习方法可能不会帮助这个特定的人。这将帮助他应用统计数据,而不是理解统计数据,这正是他所需要的。如果他接受了高级数学训练,则可能会在某种程度上略过它,但是他的回答表明他目前无法理解ML的基础……这强烈表明他的数学是有限的(至少对我而言)。C&B可能不是一个不错的起点。
文森特·劳弗,2015年

1
它们可能不是统计数据,但是概率分布的背景对于进行任何类型的建模都是必不可少的-例如,您需要了解bernoulli分布及其属性,然后才能理解逻辑回归。我偶尔仍会引用C&B,但我认为除了在使用该书的课程之外,我还没有使用过第6章以外的任何内容。
srvanderplas 2015年

1
我完全同意您的说法,但它与题外话有关,而不是要点-这是我首先添加题外话的错误。无论如何,要点是,正如其他几个人所建议的那样,OP实际需要做的是更好地理解理论数学和统计学。职位上没有任何地方表明他在进行更多统计测试时需要任何帮助。他可以做到的。他希望更深入地了解它们。为此,C&B胜过学习更多面向应用程序的准备工作。
文森特·劳弗,2015年

3

这并不是一个完整的答案,只是一个建议。如果您想了解有关统计的更多信息(基础知识),则可以阅读:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

对于统计人员来说,这是一本非常标准的书,并且有很多有趣的结果。您无需遍历所有定理的证明,但您可能需要做一些练习,以使结果更加安全。

如果您想了解有关计量经济学(数据模型)的更多信息,可以看一下:

Hayashi, F. (2000): Econometrics, Princeton University Press

实际上有人问过类似的问题,并且得到了一个很好的答案:在“ Casella&Berger”之后该怎么办

此外,如果您真的打算阅读这些书,那么此计量经济学课程的大纲可为您提供阅读和阅读内容(CB和Hayashi)以及阅读时间的良好指导和步伐。


感谢您的建议,但是您提到的第一本书大约有660页...我读过一些大书,但是有没有什么小巧,简单而又快速的内容,因此我可以对它进行基本的了解?
Juan Antonio Gomez Moriano

3
Casella和Berger将为您提供大量的统计理论,但您几乎不会了解数据分析。
Glen_b

1
@JuanAntonioGomezMoriano你追了多小?我一直是“ 如何以统计学为起点” 的粉丝。
icc97

(-1)对于某些偏爱使用数学或理论方法进行统计的人来说,这听起来是完美的选择,这与OP的要求大相径庭。
联欢晚会

1
他确实说过,他需要有关统计的更多“正式”知识和基础知识。
GuilhermeSalomé15年

2

我建议从最初的问题问世以来出版一本新书:《统计再思考:R和Stan中带示例的贝叶斯课程》,CRC Press的Richard McElreath。

它写得很好,并使用贝叶斯方法。它是非常互动的,您需要解决这些问题,否则您可能会半途而废。

它从最基本的开始,到多层次的模型结束,它针对的是相当高级的科学家,他们掌握一些统计知识,但对他们所学的统计学却不满意。因此,我无法确切地说这是一本初学者的书,但它确实非常简单,而且他的弧线和风格都很棒。

标题的“ Stan”部分是通用的贝叶斯采样工具。本质上,它是一种编程语言,可以自动编译为C ++,然后再编译为可执行文件。(与替代方法不同,贝叶斯推断是通用的,因此您可以使用通用工具。)


1

我想我会把这个答案留给后代,即使为时已晚对您有用。拉里·瓦瑟曼(Larry Wasserman)的“ 所有统计信息”All Of Statistics)是一门针对没有机器学习,其他计算机科学学科或数学的人的课程,这些人没有经过任何正式的统计学培训,即,几乎完全符合您当前的情况。由于缺乏正式的统计数据,我和几个朋友组成了一个自学小组,以便在毕业时学习。我认为我真的从中受益。

Wasserman提出的额外主题超出了典型的“概率和统计推断”课程材料,例如图形模型和引导程序,与从事机器学习的人员特别相关。我应该说,与诸如Casella&Berger之类的书相比,这本书可能非常简洁,因此,如果您想要某些部分的更多细节或动机(尤其是证明),则可能需要用其他阅读材料进行补充。就是说,我还发现这本书写得很清楚,存在很多练习问题,并且是快速参考。

一个月不是很多时间。但是,如果您设定非常进取的步伐,我想您肯定可以在一个学期中从本书中学到很多东西:例如,我们在夏季进行了自学小组。如果您最感兴趣的是线性建模,那就尤其如此,这将受到Ch。13-14。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.