参考要求:工作数据科学家的古典统计


10

我是一位工作数据科学家,在回归,其他机器学习类型算法和编程(数据分析和通用软件开发)方面都有扎实的经验。我一生的大部分时间都集中在构建预测精度模型(在各种业务约束下工作),以及构建数据管道以支持我自己(和其他人)的工作。

我没有接受过统计学方面的正规培训,我的大学教育重点是纯数学。因此,错过了学习许多经典主题的机会,尤其是各种流行的假设检验和推论技巧。

这些主题是否有适合我背景和经验水平的人参考?我可以处理(并欣赏)数学上的严格性,也可以欣赏算法的观点。我倾向于喜欢为读者提供指导性练习的参考书,既有(又有)数学和(或)编程方面的重点。


2
作为另一位来自数学领域的Matt,他在统计方面有丰富的知识,可以与我联系!您对任何特定领域/应用感兴趣吗?经典统计需要注意的一件事是使用了什么假设。
GeoMatt22 2016年

Answers:


3

拉里·瓦瑟曼(Larry Wasserman)的《所有统计》是一本不错的书,可以带动一下数学统计。这是我自己使用的第一本关于数学统计的书。它包括诸如假设检验和最大似然估计之类的经典著作,但它也涵盖了许多新近开发但同样重要的主题,例如自举。Wasserman总是在统计方面占一席之地,而在机器学习方面则占一席之地,我认为所有当代数据分析师都应该这样做。如果您只熟悉这两个领域中的一个领域,那么您将丢失很多。此外,这本书还有很多很好的练习。

如果您有实际分析的背景,并且想要原始的,未切割的东西(我指的是对概率和统计学的量度理论处理),请尝试Mark J. Schervish的统计学理论。Schervish是DeGroot和Schervish的一半,后者的技术性较差的书《概率与统计》可能是当今最受欢迎的数学统计书。《统计理论》是一本非常有用的活泼书籍,它通常只适合应该自己完成所有工作的研究生使用。老实说,我觉得这本书很难(尽管不如邵俊的《数学统计》那么难)),并最终感觉到要掌握它需要付出巨大的努力,这并不能很好地利用我作为应用数据分析师的时间。但是我仍然学到了很多东西,并且对什么是测度理论以及如何用它来解决在较幼稚的传统概率论方法中出现的毛茸茸的理论难题有了很好的理解。我也开始更好地理解可交换性和独立性的异同。


2

除了Kodiologist的很好建议(+1),我还建议您看一下观察研究的主题。我认为,尽管在许多情况下所分析的数据具有观察性质,但数据科学家之间的领域却并不为人所知。我认为这是因为大部分书目(特别是在生物统计学中)都假定至少已经有一些准实验设计。保罗·罗森鲍姆(Paul Rosenbaum)的书《 观察性研究》《观察性研究设计》是一些最常用的参考书。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.