在Casella&Berger之后要学什么?


22

我是一名纯数学研究生,几乎没有应用数学背景。从去年秋天开始,我开始在Casella&Berger的书上上课,并且在书中完成了数百(230+)页的运动问题。现在我在第10章。

但是,由于我没有统计学专业或计划成为统计学家,所以我认为我将无法定期投入时间继续学习数据分析。到目前为止,我的经验告诉我,作为一名统计学家,需要承担很多繁琐的计算工作,涉及各种分布(Weibull,Cauchy,,F ...)。我发现虽然基本思想很简单,但由于技术原因,实现(例如假设检验中的LRT)仍然很困难。ŤF

我的理解正确吗?有没有一种方法可以学习概率和统计信息,不仅可以涵盖更高级的材料,还可以在我需要现实生活中的数据分析时提供帮助吗?我是否需要像以前那样每周花费个小时?

尽管我认为学习数学没有走上任何皇家之路,但我常常不禁要问-大多数时候,我们不知道真实数据的分布是什么,所以我们专注于各种分布族的目的是什么? ?如果样本量较小,并且中心极限定理不适用,那么在分布未知的情况下,除了样本平均值和方差之外,我们还应如何正确分析数据?

我的学期将在一个月内结束,在我开始专注于博士学位研究后,我不希望自己的知识消失。所以我决定问。我正在学习R,并且我有一定的编程背景,但是我的水平与代码猴子差不多。

Answers:


24

我认为我将不能给固定时间的投资以继续学习数据分析

我认为Casella&Berger并不是一个以数据分析方式学习数据的地方。这里是学习一些统计理论工具的地方。

到目前为止,我的经验告诉我要成为一名统计学家,需要进行大量繁琐的计算,涉及各种分布(Weibull,Cauchy,t,F ...)。

作为统计员,我已经花费了很多时间来进行数据分析。它很少(几乎从来没有)涉及到我进行乏味的计算。它有时涉及一些简单的代数,但是通常可以解决常见的问题,并且我不需要在每次复制上花费任何精力。

计算机进行所有繁琐的计算。

如果我不准备承担一个合理的标准案例(例如,不准备使用GLM),那么我通常也没有足够的信息来承担任何其他分布,因此计算中的问题LRT通常没有实际意义(我可以在需要时执行它们,它们要么已经被解决,要么很少出现,这是一个有趣的转移)。

我倾向于做很多模拟。我还经常尝试以某种形式在参数假设的旁边或代替参数假设使用重采样。

我是否需要像以前一样每周花费20个小时以上?

这取决于您想做什么,以及要多长时间才能做好。

数据分析是一种技能,需要实践和大量的知识基础。您已经掌握了一些所需的知识。

如果您想在各种各样的事情上成为一名优秀的从业者,这将需要很多时间-但在我看来,这比代数有趣得多,比如做Casella和Berger练习。

我建立的一些技能说回归问题对时间序列很有帮助,但是需要很多新技能。因此,学习解释残差图和QQ图很方便,但是它们并没有告诉我我需要担心多少,而不必担心PACF图中的小变化,也不会像使用一步一步预测那样为我提供工具错误。

因此,例如,我不需要花费精力去研究如何对典型的γ或weibull模型进行合理的ML ,因为它们已经足够解决了已经被方便地解决的问题的标准。

如果您要进行研究,则需要在诸如Casella&Berger这样的地方掌握的更多技能(但是即使具备这些技能,您也应该阅读多于一本书)。


一些建议的事情:

即使您什么也不做,您绝对应该建立一些回归技能。

有很多相当不错的书,但也许Draper&Smith 应用回归分析以及Fox和Weisberg An R的应用回归同伴;我还建议您考虑遵循Harrell的回归建模策略

(您可以用任意数量的好书代替Draper和Smith,找到一两本适合您的书。)

第二本书有许多在线附加章节,非常值得一读(以及它自己的R包)

-

第二个不错的选择是Venables&Ripley的S的《现代应用统计》

这是相当广泛的想法的基础。

事实证明,您需要某些主题的一些基础材料(我不知道您的背景)。

然后,您需要开始考虑想要/需要统计的哪些领域-贝叶斯统计,时间序列,多元分析等


6

我的建议来自相反的观点(Stats博士研究生),是研究回归教科书。对于具有扎实的理论背景但没有任何应用经验的人来说,这似乎是一个自然的起点。我知道我们系以外的许多研究生都开始参加回归课程。

Sanford Weisberg的“ 应用线性回归”就是一个很好的例子。我相信它是第四个版本。您可能会找到相对便宜的旧版本。

http://users.stat.umn.edu/~sandy/alr4ed/

关于这本教科书的一件好事,特别是考虑到您相对缺乏R的知识,可以通过上面的链接获得R入门。它提供了足够的指导来重新创建书中完成的所有内容。这样,您实际上可以学习回归(除了GLM的一些基础知识),而不会缺乏R编程的束​​缚(您可能会沿途学习许多R基础知识)。

如果您想全面了解R,最好阅读Fox和Weisberg的《应用回归的R伴侣》,但这听起来像是您宁愿学习统计学而不是编程(如果可以将这两件事分开考虑)。

至于您的时间投入问题,我真的认为您不会觉得这本教科书或材料过于困难。与Casella-Berger不同,证明或派生方式不多。通常非常简单。

顺便说一句,似乎在线上(或某个时候)都有解决方案,所以您可以尝试问题,检查解决方案并以某种速度在本书中找到解决方法。


4

我正在尝试以一种about回的方式让自己更多地成为统计学家,但我主要是一位心理学家,他碰巧对定量和方法学感兴趣。为了正确地进行心理测量工作,我一直在研究先进的方法(对于心理学家而言),这些方法是我梦dream以求的,无法手动进行计算(我不知道怎么做)。在过去十年中,R包程序员的所有不懈努力使这些方法变得如此易于使用和便捷,令我感到惊讶。我一直在用新方法进行现实生活分析,而每种方法在不到20个小时的时间内就学会了使用这些方法……在准备发布新方法时,我可能会花很多时间在新方法上使用它会产生结果,但是当然不必像我一样做兼职学习。争取时间,尽其所能;如果您不需要的话,这不是一个全有或全无的追求。

我当然不是只专注于任何主题,更不用说发行系列了。我怀疑任何诚实至善的统计学家都不会这么狭study地学习。在过去的一周中,有几次我每天花一个小时来研究理论分布。事实证明,在实际数据应用程序中它很有用。据我所知,这个想法并不是要严格地对发行版进行分类。它是识别类似于理论的分布形状,并使用它们来帮助确定适当的分析和理解基本动态。我最近对“ 根据理论,拟合度或其他方法选择分布更好吗? ”的答案也有类似的想法。

你还没说什么,你要什么我以为是你假设的最坏情况进行分析,但有办法的任何分析的灵敏度研究抽样误差。如果CLT不适用,您仍然可以问一些统计问题,如果您知道如何做。非参数方法通常对分布做出非常有限的假设,因此,事先了解总体分布形状不一定是主要问题。

一般而言,知识并不能真正迅速或完全消失,但是如果您不使用它,您将很难自由回忆。您将拥有更长的识别优势,如果您需要学习几年前学习过的主题,这可能仍然会派上用场...但是如果您想保持流利的学习水平,请继续使用它,并继续学习!R绝对是投资您的业余时间的好地方。它也应该对您的纯数学有所帮助:请参阅我最近对“ 与PowerPoint一起使用的最佳开源数据可视化软件 ”中的另一个答案。


3

我在2019年偶然发现了这个。我的2美分。

我是一位统计学教授,倾向于进行各种数据分析(这就是为什么我选择统计学!)。为了掌握一些实践知识,我推荐James,Witten,Hastie和Tibshirani“统计学习入门”。他们甚至有基于此的MOOC。本书使用了许多“真实数据”示例,并且也是基于R的。


除了“统计学习要素”之外,您还有什么建议吗?我想我现在已经对这本书(基础部分)很熟悉。
家蚕

2

回答以后遇到这个问题的其他人...


现实生活数据分析

学习数据库(SQL),dplyr / pandas,Unix工具(sed,grep),抓取,脚本编写,数据清理和软件测试。各种专业发行版在工业中几乎没有价值。

像Angrist&Pischke,Faraway或Weisberg这样的应用回归书将是一种更实用的理论。

大多数情况下,我们不知道现实生活数据的分布是什么,所以我们专注于各种分布族的目的是什么?

因此,人们对非参数统计感兴趣。但是同时没有假设的非参数过于宽松。为了回答您的问题,可以将专业家庭视为您可能遇到的简单问题的答案。例如,我认为高斯是“平滑”的点估计。泊松回答了另一个简单的问题。当人们建立数学模型时,这些特殊的点可能是有用的支点。(但是,学者们通常会以错误的方式来寻求大师的分配。)

OP:希望您的博士学位研究愉快!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.