首先让我澄清一下,我是从程序员和数据库开发人员的角度开始我的数据科学之旅的。我既不是10年的数据科学专家,也不是统计学专家。但是,我为一家与全球相当大的客户合作的公司工作数据科学家和大型数据集。
根据我的经验,数据科学家会使用所需的任何工具来完成工作。Excel,R,SAS,Python等都是优秀数据科学家的工具箱中的所有工具。最好的人可以使用各种工具来分析和处理数据。
因此,如果您发现自己将R与Python进行了比较,那么在数据科学世界中您可能会做错一切。优秀的数据科学家会在有意义的情况下使用两者。这也适用于Excel。
我认为,要找到一个在各种方面都很出色的人,要拥有许多不同的工具和语言的经验是相当困难的。我还认为,很难找到专门能够不仅编程复杂算法而且还从统计学的角度也知道如何使用它们的数据科学家。
与我合作的大多数数据科学家都有大约2种口味。那些可以编程的人和那些不能编程的人。我很少与数据科学家合作,他们可以使用Python提取数据,使用Pandas之类的工具对其进行处理,将模型拟合到R中的数据,然后在一周结束时将其提交给管理层。
我的意思是,我知道它们存在。我读过很多数据科学博客,这些博客来自开发Web爬虫,将其推入Hadoop,将其拉回Python,对复杂的事物进行编程并通过R运行以进行引导的家伙。它们存在。他们在那里。我只是没有遇到太多可以做所有这些事情的事情。也许这只是我的区域?
那么,这是否意味着只专注于一件不好的事情?否。我的很多朋友只专注于一种主要语言,并且将其杀死。我知道很多数据专家只知道R并杀死了它。我也认识到很多人只是使用Excel分析数据,因为这是大多数非数据科学家可以打开和使用的唯一信息(尤其是在B2B公司中)。您真正需要回答的问题是,这一职位是否是您担任该职位所需的一件事?最重要的是,他们可以学习新东西吗?
聚苯乙烯
数据科学不仅限于“大数据”或NoSQL。