统计算法开发人员候选人有哪些好的面试问题?


15

我正在就统计/机器学习/数据挖掘上下文中的算法开发人员/研究人员的位置采访人们。

我正在寻找问题,以明确确定候选人对基础理论的熟悉程度,理解程度和灵活度,例如期望和方差的基​​本属性,一些常见分布等。

我当前需要解决的问题是:“有一个未知量,我们想估计。为此,我们有估计器,在给定,它们都是无偏且独立的,并且每个都有一个已知的方差,每个方差都不同。找到最优估计量,该方差是无偏的且方差最小。”XY1,Y2,,YnXσi2Y=f(Y1,,Yn)

我希望任何认真的候选人都可以轻松地处理它(给了一些时间进行计算),但是令我惊讶的是,据称来自相关领域的候选人竟然没有取得最小的进步。因此,我认为这是一个很好的,有区别的问题。这个问题的唯一问题是它仅仅是一个。

还有什么其他问题可以使用呢?另外,在哪里可以找到此类问题的集合?


7
对于许多机器学习的人(包括优秀的人)来说,这个问题超出了他们的舒适范围。这是一个明显的统计学家问题。
马克·克莱森

4
这个问题在主题上是合法的。但是,它有很多观点,有几个投票,一个有几个投票的答案,而且是CW。它可以保持打开状态,IMO。
gung-恢复莫妮卡

2
可能出现的疑问用措辞混乱。例如,使用加上大写字母会使看起来是随机的。但是,由于您提到的是最小方差,因此您似乎希望是非随机的(在这种情况下,为什么估计量的方差没有对的书面依赖?)XXXX
Batman

4
谨慎起见,Google对内部人力资源流程进行了大量研究,发现访问员分数与随后的工作表现根本不相关!我在这里对文学的印象是(1)难题类型的问题绝对是最糟糕的,只会使访调员感到聪明(即0的预测能力);(2)履历表,基于经验的问题可能具有预测价值。过去的表现会预测未来的表现,您可能希望重点关注问题以确定过去的表现,但是面试的信息量远不如面试官想象的那样。
马修·冈恩

3
通过使权重之和达到统一,可以确保无偏。但是,即使将解决方案限制在估算器的线性组合上,也几乎总是会存在基于相同数据的多个估算器高度相关的情况。(如果它们确实是独立的,则将它们应用于不相交的,独立的数据子集。)但是,估计数的线性组合将不是最优的,这一点也不明显。
ub

Answers:


12

您希望统计开发人员做什么?

美国陆军说:“训练你会战斗,因为你会像训练有素一样战斗”。测试他们一整天要做什么。确实,您希望他们为公司“创造价值”或“赚钱”。

老板101

想想“给我钱”。

  • 金钱在称为雇员的树上生长。您输入了“毛钱”(他们的工资),他们付了您“四分之一”(他们的价值)。
  • 如果您不能将他们的工作与他们为公司赚钱的方式联系起来,那么您和他们都没有正确地完成工作。

注意:如果您的符号操作问题没有完全连接到“金钱”,那么您可能会问错问题。

每个员工要成为一名员工,必须做以下三件事:

  • 真正能够胜任这项工作
  • 与团队合作
  • 愿意/有动力去做这项工作

如果您没有扎实的脚步,那么没有其他答案对您有好处。

如果您可以用一个好的软件或一个训练有素的少年代替它们,那么最终您将不得不做,这将花费您。

数据101

他们应该能够做什么:

  • 使用内部风格的软件(网络,操作系统,办公室,演示和分析)
  • 使用某些行业标准版本的软件(Excel,R,JMP,MatLab, pick_three
  • 自己获取数据。他们应该了解基本任务的基本数据集。他们应该知道存储库。他们应该知道哪个著名的数据用于哪个任务。费舍尔·艾里斯(Fisher Iris)。培生蟹。...也许应该有20个要素。UCI,NIST,NOAA。
  • 他们应该知道处理数据的规则。二进制数据(T / F)的信息内容与分类(A,B,C,D)或连续数据相比非常不同。按数据类型正确处理数据很重要。
  • 一些基本的统计任务包括:这两个是相同还是不同的(又称为聚类/分类),与这有什么关系
    (包括线性模型,glm,径向基,
    差分方程的回归/拟合),是否确实“ x “(假设检验),我需要多少样本(验收抽样),如何
    从很少/便宜/高效的实验中获得最多的数据(实验的统计设计
    )- 免责声明,我不是统计学家, 您可能会问他们问题“什么是不同的基本任务,您如何测试统计学家可以有效,正确地完成这些任务?
  • 本身访问/使用数据。这是关于格式和工具的。
    他们应该能够读取csv,xlsx(excel),SQL和
    图片。(HDF5,Rdata)如果您具有自定义格式,则他们应该
    能够阅读该格式并快速
    有效地使用这些工具。他们应该知道格式的优点/缺点。CSV是一种快速使用的方法,一直以来都是快速的原型,但是却prototype肿,效率低下且运行缓慢。
  • 使用最佳做法正确地处理数据,而不犯错。永远不要丢弃数据。不要用连续线拟合二项式数据。不要违抗物理学。
  • 得出可重复和可重复的结果。有些
    人说“有谎言,该死的谎言和统计数据”,但在我
    公司却没有。相同的良好输入给出相同的良好输出。输出不是数字,它始终是决定
    技术行动并产生业务结果的业务决策。不同的测试可能将刻度盘设置为5.5或6.5,但此功能始终高于1.33。

  • 决策者和/或仆从开发者和/或他们自己一年内可以
    理解的语言和水平,以最小的错误理解结果。能够解释它是一件美丽的事情,这样奶奶就能得到它。这个(链接)是我的答案,但我喜欢它。

分析型辛格:

我认为不可能的问题很棒。由于某种原因,它们是不可能的。能够知道是否不可能出门是一件好事。知道原因,以某种方式参与其中或能够提出其他问题会更好。

其他简历问题。(链接)在reddit上。(链接)其他(链接

顺便说一句:这是一个好问题。我可能会随着时间的推移更新此答案。


3
对于与我提出的问题不同的问题,这似乎是一个很好的答案。我没有问如何挑选好员工(如果需要的话,我可能会在工作场所问类似的问题),我问有关测试特定资格的问题。
梅尼·罗森菲尔德

只有那时,我才会将其缩减为统计数据。
EngrStudent-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.