统计面试题


Answers:


40

不确定工作是什么,但是我认为“向新手解释x”可能会很好-

a)因为他们可能会在工作中需要这样做

b)我认为这是对理解的一个很好的检验。


8
(+1):我无法数出我以为自己已经了解了一些东西的次数,但是后来我没能用简单的话向别人解释。例如:p-value;)
steffen 2010年

6
“如果您不能向六岁的孩子解释它,那么您可能自己也听不懂”-阿尔伯特·爱因斯坦。也许不是那么极端,但是您明白了... :)
JM不是统计学家

1
我喜欢“解释p值”,无论是否包含“向新手”部分。
shabbychef 2010年

这就是为什么交叉验证很棒。很多“外行”的问题和答案。
尼尔·麦圭根

无论您是否正在面试,这都是非常好的建议!
JMS

21

我工作的标准Q遵循以下原则:

查看您声称使用过的统计数据包(最好是我们也使用的统计数据包)的多元逻辑回归的输出。XXX是本金的自变量。您如何了解一位具有主题知识但没有经过正式统计培训的同事来解释结果?(如果需要,提示分别解释点估计值,CI,p值)。


15
在更多的学术背景下,人们可能还会问:“看看您(共同)撰写的本文中的模型输出。告诉我这意味着什么。令人难以置信的答案是致命的,因为没有不熟悉的借口,但却令人沮丧。
conjugateprior 2010年

4
@conjugateprior不正确。只要有至少一位合著者不在场,那便是不合著者所在的地区。该技术的主要用途是在会议演示中。
马克·L·斯通

18

您可能还需要思考一下访谈是否是衡量兴趣结构的最佳媒介。如果要评估概率或统计数据的先验知识,则最好还是更多地依赖笔试。您可以提出更多问题,从而提高测量的可靠性。在管理和评分上都更加标准化。一旦开发了该工具,它可能会使用更少的资源进行管理。

然后,您可以将面试作为一种更集中的工具,以查看口头和人际交往技巧等因素。


1
这是个好的观点。过去,我发现很难判断给定的候选人是否会工作,除非您过去曾与他们合作过。
shabbychef 2010年

15

我被问了两个问题:

1)您使用多元回归拟合来检查另一个部门的工人感兴趣的特定变量的影响。该变量返回的意义不大,但是您的同事说这是不可能的,因为已知它会产生影响。你会说/做什么?

2)您有1000个变量和100个观察值。您想找到特定响应的重要变量。你会怎么做?


您也可以发布答案吗?对于1),我认为可能存在一些导致问题的因变量。对于2)我可能会去做χ²(卡方)统计检验
Rishi Dua 2014年

2
两者都有很多合理的响应,这是我的快速思考:1)回归模型来自样本,该样本具有随机变化,因此该模型只是估计,可能会导致1类或2类错误。预测变量之间也可能存在严重的共线性。对于2),这是大P与小N的问题。有许多技术可以处理这种情况,例如减小尺寸和套索。
2014年

2)对变量进行单变量拟合,并确定对减少变量集最重要的变量
亚当

11

这是一个大数据集。您如何处理异常值?缺失值怎么样?转型如何?

他们可以处理现实世界的数据吗?


尊敬的匿名用户,请不要使用edit进行评论(Neil不适合您)。

10

该网站上的许多问题/答案都可以为您提出好问题的想法。我将列出一些我认为不错的链接。我回答的帖子人数过多,因为我对这些帖子了解得更多,而不是因为它们不一定是最好的!我会为每个链接提供简短的评论,以便您决定是否要关注该链接。

SVD背后的直觉是什么? “您能向我们的一位客户解释SVD的工作原理吗?”

用通俗易懂的术语表示的最大似然估计(MLE) “您可以用非技术语言解释最大似然估计的想法吗?”

塔勒布和黑天鹅 “告诉我,黑天鹅是什么,为什么如此相关?什么时候相关?”

当样本“是”总体 时的统计推断“当样本是整体时,您能说什么统计推断?”

拟合优度以及选择线性回归或Poisson的模型 “我们有一个回归问题,其中的响应是一个计数变量。在这种情况下,您会选择哪种,普通最小二乘或Poisson回归(或其他一些)?请解释您的选择,这些模型之间的主要区别是什么?”

有限方差和无限方差有何区别? “您能否用一种尽可能简单的语言来解释一个随机变量具有无限期望或无限方差意味着什么?这种区别的实际重要性是什么?例。”

什么是逐步回归的现代易用替代方法? “当有许多可能的预测变量时,您将如何建立一个复杂的回归模型?描述不同的可能策略,并说明每种策略的问题”

Logistic回归中如何处理完美分离? “逻辑回归中的分离问题是什么,它的原因,症状是什么?如果确实存在问题,您可以怎么解决?”

为什么相关矩阵需要是正半定的,它是或不是正半定是什么意思?
什么是一个非正定协方差矩阵告诉我关于我的数据? “解释为什么协方差矩阵必须是正(半)定的,这意味着什么。如何使用该事实?”

中位数的多维版本是什么? “您可以提出某种方法将中位数概括为多元数据吗?”

用分类变量解释logit回归中的交互作用术语, 以及 识别交互作用的最佳实践是什么?两个消极的主效应,却产生了积极的互动效应?包括交互而不是在一个模型的主要作用如何解释主效应时的互动效果并不显著? “解释一下回归模型中的交互作用是什么。具体地说,如果交互作用是显着的而不是主要影响是什么意思?普通线性回归和逻辑回归之间的交互作用解释是否有差异?”

对数据使用平方根变换的原因可能是什么?适当的数据转换 “何时,如何以及为什么在回归(或ANOVA)模型中转换响应变量?还有其他选择吗?

我可以信任非正态分布DV的ANOVA结果吗? “您将如何使用非正态残差处理ANOVA?

当许多重要的事情都是一次性的事情时,为什么统计有用呢?

如何有效地建模伯努利随机变量的总和?

何时使用广义估计方程与混合效应模型?

当我在逻辑回归设置中使用平方损失时,这里发生了什么?“为什么我们使用最大似然法进行逻辑回归?为什么不算最小二乘呢?”


9

曾经有人问我如何解释中心极限定理与社会科学中一门对统计学几乎没有知识的新生的相关性。


4
中心极限定理的相关性是使人们认为一切都是正常的,而实际上什么都不是。因此得出许多错误的结论。
马克·L·斯通



6

我经常问“您如何定义/解释什么是预测?”

回答此类非常笼统的问题有助于我了解人们是否与特定的预测案例有关。没有正确的答案,但在面试中综合回答并非总是那么容易:)


5

对于观测数据上下文:

考虑将此回归模型应用于该实质性问题。它的因果关系可以解释吗?[进一步探讨]您需要学习什么才能改变看法?


4

您将如何计算班加罗尔的檀香木树数量?


1
是指作为一种费米问题
Thies Heidecke

2
好问题。我在课堂上(公园的树木)使用了这个版本。他们有了采样的想法,但往往会错过对操作定义的需求:何时开始将其称为树?
zbicyclist 2011年

4

在“ 因果关系”下

通常将客户/用户参与度用作预测模型的功能。例如,点击此按钮的人比不点击的人更有可能订阅。周一购物的人比周二购物的人更有可能再次购物。

如果我们将其极端化:单击“购买”的用户比未单击购买的用户更有可能购买产品。

但这显然不能解释为什么有些用户订阅而有些用户不订阅。

您将如何使用能够解释为什么订阅的客户功能与与订阅高度相关但完成任务所必需的功能进行平衡?


3

这是一套TinkerToy玩具。告诉我欧几里得距离如何在三个维度上起作用。现在,向我展示多元回归的工作原理。

他们能否解释统计数据在物理世界中的工作原理?


1
NN

1
如果您想散布具有100个观测值的两个变量,则只需要2个维度,而不是100个:),依此类推
Neil McGuigan

3

我们正在运营一个客户服务中心。我们每个月接到一百万个电话。我们如何将其减少到一万个?


5
删除您的手机的99%!
shabbychef 2011年

5
停止支付电话费。
格伦

3
收取通话费用。(美国有900个号码...)
gWaldo 2011年

7
这个问题大约是80–20条规则。这是业务中的普遍经验法则。例如,“您80%的销售额来自20%的客户”。微软指出,通过修复报告最多的20%错误,可以消除80%的错误和崩溃。因此,这意味着要设置一个FAQ来确定解决这20%的问题
Rishi Dua 2014年

3

我们提出的许多问题与已经描述的问题相似。但是有些我还没有读过,用到的是:您可能会被要求在白板上草拟一个程序来做类似的事情:模拟掷骰子或其他概率问题,或计算一系列素数(例如,所有小于1,000,000的质数)-您可以使用所需的任何语言来执行此操作,但是大多数人选择R,有些人选择Python(我相信),但是我想您可以选择Stata,SAS,SPSS ,Matlab等。您可能会被问到一些问题,以探讨您对所选编程语言的了解的深度-例如,为什么在R中使用Apply而不是for循环。

可能还会要求您设计一个实验或其他研究来研究某些东西(通常是实际的东西),有时这与我们所做的工作有关,但通常与我们所做的工作无关。(您不应该了解我们所做的工作,但是即使您知道某些领域的知识,您也应该能够掌握未曾听说过的问题的要点并明智地进行思考。那是错的-没关系,您不应该具备领域知识)。可能会要求您考虑诸如电源之类的问题。


2

在进行定量变量的方差分析时,有时会发现变量的频率非常高(> 5),然后我们使用Fisher精确检验来找到变量的独立性。


这可能包含在克里斯的回答中。
JM不是统计学家2010年

4
对这一问题的正确答案是否包括知道关于固定边际是否有意义以及对该问题有知情的意见存在争议?
Ben Bolker 2010年

1

去年洋基队的平均带薪上座率是55,000。您随机询问纽约市的一群人上赛季是否参加了洋基队的比赛,如果参加了,则记录他们的出勤率。您询问参加游戏的人参加的游戏的平均带薪出席率是多少?

我会给你提示我的答案(未提供提示):长度偏向采样。我为此赢得了本垒打,但这还不足以赢得比赛,哈哈。注意:我提到了许多有关如何进行抽样的警告,而访调员告诉我不要理会所有这些警告。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.