在机器学习者中很难找到技能?


71

似乎数据挖掘和机器学习变得如此流行,以至于现在几乎每个CS学生都知道分类器,聚类,统计NLP等。因此,如今寻找数据挖掘者似乎并不困难。

我的问题是:数据挖掘者可以学习哪些技能,从而使其与众不同?要使他成为一个不太容易找到像他这样的人。


6
尽管它是对另一个问题的回答,但我的旧答案中的几点仍可以在此继续。阿萨德在下面的回答中也做了类似的评论。
红衣主教

Answers:


62

我已经多次看到开发人员使用ML技术。这是通常的模式:

  1. 下载名称精美的库;
  2. 花10分钟阅读使用方法(跳过所有统计信息,数学等);
  3. 向其提供数据(无需预处理);
  4. 衡量绩效(例如,即使班级完全不平衡,也要保持准确度),并以99%的准确率告诉每个人有多出色;
  5. 部署具有重大失败结果的生产;
  6. 找一个了解发生了什么事的人来帮助他们,因为指导手册根本没有意义。

简单的答案是(大多数)软件工程师在统计和数学方面非常薄弱。这是任何想要与他们竞争的人的优势。当然,如果人们需要编写生产代码,那么他们就超出了他们的舒适范围。真正变得罕见的角色是数据科学家。可以编写代码以访问和处理大量数据在其中找到价值的人。


14
LOL在“告诉大家,这是它的99%的准确度如何真棒”
杰克·吐温

2
+1我完全同意。“ [...]数据科学家。可以编写代码来访问和处理大量数据并在其中找到价值的人。” 在我看来,它应该自然而然地保留下来,因为对于大多数凡人来说,解决复杂的统计和基础问题以及将某些东西转化为生产代码似乎是不可行的。这也解释了为什么我们有心血管外科医生,麻醉师,神经科医师,护士,医院管理人员等或民事,航空,矿山,化工,机械工程师等
托马斯SPEIDEL

2
对我而言,这实际上并不是对某人需要成为杰出的ML候选人的描述-更多是ML bash。听起来您正在描述某个人,他们甚至在确定问题是什么之前就过于关注“答案”。基本上,您的“典型ML”人员是计划能力较差的人,是在努力前进并返回“答案”之前不与“客户”讨论他们打算做什么的人。拥有良好的数学/统计数据并不能帮助您解决问题,它需要良好的沟通能力。
概率

61

关于什么

仅了解技术就类似于了解动物园中的动物-您可以给它们命名,描述它们的特性,或者在野外识别它们。

了解应用程序的使用时间,在应用程序区域内制定,构建,测试和部署有效的数学模型,同时避免陷阱–我认为,这些是与众不同的技能。

重点应该放在科学上,对商业,工业和商业问题采用系统,科学的方法。但这需要比数据挖掘和机器学习更广泛的技能,正如Robin Bloor在“ A Data Science Rant”中说服的那样。

那怎么办?

应用领域:了解您或您的雇主所感兴趣的各种应用领域。与了解模型的构建方式以及如何使用模型为该领域增加价值相比,该领域通常没有那么重要。在一个领域中成功的模型通常可以移植并应用于以相似方式工作的不同领域。

竞赛:尝试使用数据挖掘竞赛网站Kaggle,最好加入其他团队。(Kaggle:预测模型竞赛的平台。公司,政府和研究人员展示了数据集和问题,世界上最好的数据科学家竞争以提供最好的解决方案。)

基础知识:有四个:(1)扎实的统计基础;(2)相当好的编程技巧;(3)了解如何构造复杂的数据查询;(4)构建数据模型。如果有任何弱点,那么这是一个重要的起点。


在这方面的一些引用

``我很早就知道了知道某物的名称和知道某物之间的区别。您可以用世界上所有的语言来知道鸟的名字,但是当您完成后,对鸟完全一无所知……所以让我们看一下鸟,看看它在做什么-那就是-理查德·费曼(Richard Feynman),“科学家的造The”,第14页,《你在乎别人的想法》,1988年

记住:

``执行这些商业科学(数据科学)项目所需的技能组合很少是一个人完成的。的确,某人可能已经在以下三个方面获得了广泛的知识:(i)业务活动;(ii)如何使用统计信息;(iii)如何管理数据和数据流。 如果是这样,他或她确实可以声称自己是给定领域的商业科学家(又名“数据科学家”)。但是这样的人几乎和母鸡的牙齿一样稀少。''-罗宾·布洛尔(Robin Bloor),数据科学杂志Rant,2013年8月,《内部分析》

最后:

``地图不是领土''。-阿尔弗雷德·科奇布斯基(Alfred Korzybski),1933年,《科学与理智》。

不能仅通过``地图''访问大多数实际应用的问题。为了用数学模型做实际的事情,人们必须乐于接受细节,细微之处和例外情况。没有什么可以代替第一手了解该领土的。



6
+1。开箱即用的解决方案很少能解决组织中的特定业务问题。您需要进行调整和改进,为此,您需要了解内幕。
2014年

4
@Zhubarb-我认为这只是部分正确。“开箱即用”的解决方案不仅可以一直使用,而且通常不用于从头到尾完成任务,因此效果很好。诀窍在于知道何时可以使用“即用型解决方案”,以及何时需要更定制的方法。
概率

41

我同意所说的一切。对我而言突出的是:

  1. 很少有机器学习“专家”对要应用机器学习的主题真正感兴趣
  2. 真正了解预测准确性和正确评分规则的人很少
  3. 很少有人了解验证原理
  4. 很少有人知道何时使用黑盒与传统回归模型
  5. 似乎没有一个“专家”曾经研究过贝叶斯最优决策或损失/效用/成本函数[几乎在任何时候使用分类而不是预测风险的人都表现出这种缺乏了解]

3
您介意4吗?我不太明白您的意思

17
我本以为那个项目是最容易理解的。这是一个例子:在一个特定的研究领域中,假设我们以前的经验是大多数变量加和。拟合不假定预测变量线性运行的加性回归模型(例如,使用回归样条)将提供可解释且有用的统计模型。另一方面,使用svm或随机森林将很难解释,不会产生任何可分离的效果,并且不会比非线性加性模型更好地进行预测。
Frank Harrell 2014年

7
是的,确实是主题的浅薄。即使在ML世界中,我也经常看到这种将原始数据铲入魔术盒并弹出奇妙洞察力的趋势。这些人正在寻找的是人造大脑。
2014年

3
尤其是项目1的+1。对领域缺乏兴趣的证据是,应用领域知识将需要知道如何“打开”黑匣子并进行修改。对于黑盒,我的意思是对于大多数入门级ML来说,即使基本的统计建模技术也位于该黑盒中。如果没有兴趣/能力,那么应用领域知识就困难得多。
Meadowlark Bradsher 2014年

7
@DarenW:这种趋势也反映在名称“机器学习”中,其含义是机器可以学习...本身...只是铲除原始数据。对比一下由Hastie,Tibshirani等人选择的名称较少的名称(但更准确的IMO):“统计学习”。不同的含义,不同的解释,都指的是统计原理。
阿萨德·易卜拉欣

11

以下几点使您在人群中脱颖而出:

  • 了解一个或多个应用程序域。也就是说,业务环境或其他上下文。
  • 了解大局。这个非常重要!学习机器学习的人常常迷失在细节上。考虑一下您的ML模型将适合的总体情况。ML部分通常只是大型系统的一小部分。了解整个系统。
  • 研究效用和决策理论以及贝叶斯推理,而不仅仅是现在被认为是“常规” ML模型的任何事物。贝叶斯推理只是形式化使所有上下文信息都涉及问题的概念的一种方法。效用和决策理论是将价值带入画面。

适用于所有三点的总体信息:放眼全局,不要迷失在细节上。


4

使一个数据挖掘者与众不同的技能是解释机器学习模型的能力。大多数情况下会构建一台计算机,报告错误,然后停止。功能之间的数学关系是什么?效果是加性的还是非加性的,或两者兼而有之?是否有任何不相关的功能?机器是否可以在零假设下期望数据中只有机会模式?该模型是否泛化为独立数据?这些模式对正在研究的问题意味着什么?有什么推断?有什么见解?为什么领域专家会感到兴奋?机器会导致领域专家提出新问题并设计新实验吗?数据挖掘者能否有效地传达模型及其对世界的影响?


8
+1同意-尽管您所描述的称为统计。
Thomas Speidel 2014年

4

我会在那里提出“软技能”的概念。

  • 认识到谁是方法X的“专家”,并且能够利用他们的知识(您不应该或者不应该了解有关造物的一切)。与他人合作的能力和意愿。

  • 使用ML中的数学来翻译或表示“现实世界”的能力。

  • 能够以不同的方式向不同的受众解释您的方法的能力-知道何时专注于细节,何时退后并查看更广阔的背景。

  • 系统思考,能够看到您的角色如何融入业务的其他领域,以及这些领域如何反馈到您的工作中。

  • 对不确定性的理解和理解,并有一些结构化的方法来处理它。能够清楚地陈述您的假设。


4

能够很好地概括

这是一个好的模型的本质。这正是使机器学习艺术的最佳实践者脱颖而出的本质。

理解目标是优化未见数据的性能,而不是最大程度地减少培训损失。知道如何避免过度拟合和过度拟合。提出在描述问题时不太复杂但又不太简单的模型。提取训练集的要点,而不是最大可能。

令人惊讶的是,即使是经验丰富的机器学习从业人员也常常不遵守这一原则。原因之一是人类无法欣赏两个巨大的理论与实践 幅度差异

  • 即使训练数据非常大,与手头的训练数据相比,所有可能示例的空间也要大多少。
  • 如何更大的是完整的“假设空间”:对一个问题可能的模式数量相比,实用“的解决方案空间”:你能想到的一切,一切软件/工具是能够代表的。

N2N2N

这也是以上大多数答案以更具体和具体的方式所说的话。 概括地说,这是我能想到的最短的方法。


2

我看到在实践中处理机器学习时有两个部分

  1. 工程学(涵盖所有算法,学习不同的软件包,编程)。

  2. 好奇心/理性(能够对数据提出更好的问题)。

我认为“好奇心/推理”是一种使别人与众不同的技能。例如,如果您看到kaggle完井的排行榜,那么很多人可能已经使用了常见的(相似)算法,不同之处在于,如何从逻辑上质疑数据并制定公式。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.