关于数据科学背后的科学和数学的书籍是什么?感觉像是很多“数据科学”书籍都是编程教程,没有涉及数据生成过程和统计推断之类的事情。我已经可以编写代码了,我的弱项是我正在做的事情背后的数学/统计/理论。
如果我准备在书本上烧掉1000美元(那么大约10本书...叹气),那我可以买什么?
示例:Agresti的分类数据分析,纵向数据的线性混合模型等...等等...
关于数据科学背后的科学和数学的书籍是什么?感觉像是很多“数据科学”书籍都是编程教程,没有涉及数据生成过程和统计推断之类的事情。我已经可以编写代码了,我的弱项是我正在做的事情背后的数学/统计/理论。
如果我准备在书本上烧掉1000美元(那么大约10本书...叹气),那我可以买什么?
示例:Agresti的分类数据分析,纵向数据的线性混合模型等...等等...
Answers:
如果我只能向您推荐一个,那就是:Hastie,Tibshirani和Friedman撰写的《统计学习和预测的要素》。它提供了数据科学中许多常用技术背后的数学/统计信息。
对于贝叶斯技术,由Gelman,Carlin,Stern,Dunson,Vehtari和Rubin进行的贝叶斯数据分析非常出色。
Casella和Berger撰写的《统计推断》是一本很好的研究生级教科书,介绍了统计学的理论基础。这本书确实需要对数学有很高的理解度(概率论是基于测度理论的,理解起来并不容易)。
关于数据生成过程,我没有建议书。我可以说的是,对所用技术的假设有很好的理解,并确保以不违反这些假设的方式收集或生成数据,这对进行良好的分析大有帮助。
其他答案推荐了一整套关于数据科学背后的数学的书。但是正如您所提到的,它不仅包括数据收集和数据推断在内的数学和活动都有自己的规则和理论,即使还不如数学背景那么严格(目前)。
对于这些部分,我建议本书《美丽的数据:优雅的数据解决方案背后的故事》,其中包含二十个案例研究类的章节,这些章节由真正从事现实世界数据分析问题的人们撰写。它不包含任何数学运算,而是探索诸如收集数据,找到在分析中使用数据的实用方法,很好地缩放和选择最佳解决方案的领域。
另一本非常有趣的书是《用数据思考:如何将信息转变为见解》,这也不是技术性的(编程指南),而是涵盖了如何在决策和现实问题中真正利用数据科学力量的重要主题。
我喜欢阿米尔·阿里·阿卡巴里(Amir Ali Akbari)的建议,我将补充一些建议,重点关注大多数专注于数学和/或编程的机器学习和数据分析书中未充分涵盖的主题和技能。
数据清理:
贝叶斯数据分析(替代费舍尔式零假设意义检验):
面对不确定性,不完整,矛盾,模棱两可,不精确,无知等情况的推断:
实验:
模拟:
专家启发,概率估计: