Answers:
我已经多次看到开发人员使用ML技术。这是通常的模式:
简单的答案是(大多数)软件工程师在统计和数学方面非常薄弱。这是任何想要与他们竞争的人的优势。当然,如果人们需要编写生产代码,那么他们就超出了他们的舒适范围。真正变得罕见的角色是数据科学家。可以编写代码以访问和处理大量数据并在其中找到价值的人。
关于什么
仅了解技术就类似于了解动物园中的动物-您可以给它们命名,描述它们的特性,或者在野外识别它们。
了解应用程序的使用时间,在应用程序区域内制定,构建,测试和部署有效的数学模型,同时避免陷阱–我认为,这些是与众不同的技能。
重点应该放在科学上,对商业,工业和商业问题采用系统,科学的方法。但这需要比数据挖掘和机器学习更广泛的技能,正如Robin Bloor在“ A Data Science Rant”中说服的那样。
那怎么办?
应用领域:了解您或您的雇主所感兴趣的各种应用领域。与了解模型的构建方式以及如何使用模型为该领域增加价值相比,该领域通常没有那么重要。在一个领域中成功的模型通常可以移植并应用于以相似方式工作的不同领域。
竞赛:尝试使用数据挖掘竞赛网站Kaggle,最好加入其他团队。(Kaggle:预测模型竞赛的平台。公司,政府和研究人员展示了数据集和问题,世界上最好的数据科学家竞争以提供最好的解决方案。)
基础知识:有四个:(1)扎实的统计基础;(2)相当好的编程技巧;(3)了解如何构造复杂的数据查询;(4)构建数据模型。如果有任何弱点,那么这是一个重要的起点。
在这方面的一些引用:
``我很早就知道了知道某物的名称和知道某物之间的区别。您可以用世界上所有的语言来知道鸟的名字,但是当您完成后,对鸟完全一无所知……所以让我们看一下鸟,看看它在做什么-那就是-理查德·费曼(Richard Feynman),“科学家的造The”,第14页,《你在乎别人的想法》,1988年
记住:
``执行这些商业科学(数据科学)项目所需的技能组合很少是一个人完成的。的确,某人可能已经在以下三个方面获得了广泛的知识:(i)业务活动;(ii)如何使用统计信息;(iii)如何管理数据和数据流。 如果是这样,他或她确实可以声称自己是给定领域的商业科学家(又名“数据科学家”)。但是这样的人几乎和母鸡的牙齿一样稀少。''-罗宾·布洛尔(Robin Bloor),数据科学杂志Rant,2013年8月,《内部分析》
最后:
``地图不是领土''。-阿尔弗雷德·科奇布斯基(Alfred Korzybski),1933年,《科学与理智》。
不能仅通过``地图''访问大多数实际应用的问题。为了用数学模型做实际的事情,人们必须乐于接受细节,细微之处和例外情况。没有什么可以代替第一手了解该领土的。
我同意所说的一切。对我而言突出的是:
使一个数据挖掘者与众不同的技能是解释机器学习模型的能力。大多数情况下会构建一台计算机,报告错误,然后停止。功能之间的数学关系是什么?效果是加性的还是非加性的,或两者兼而有之?是否有任何不相关的功能?机器是否可以在零假设下期望数据中只有机会模式?该模型是否泛化为独立数据?这些模式对正在研究的问题意味着什么?有什么推断?有什么见解?为什么领域专家会感到兴奋?机器会导致领域专家提出新问题并设计新实验吗?数据挖掘者能否有效地传达模型及其对世界的影响?
能够很好地概括
这是一个好的模型的本质。这正是使机器学习艺术的最佳实践者脱颖而出的本质。
理解目标是优化未见数据的性能,而不是最大程度地减少培训损失。知道如何避免过度拟合和过度拟合。提出在描述问题时不太复杂但又不太简单的模型。提取训练集的要点,而不是最大可能。
令人惊讶的是,即使是经验丰富的机器学习从业人员也常常不遵守这一原则。原因之一是人类无法欣赏两个巨大的理论与实践 幅度差异:
这也是以上大多数答案以更具体和具体的方式所说的话。 概括地说,这是我能想到的最短的方法。