数据科学家会使用Excel吗?


37

我认为自己是一名熟练的数据科学家。像大多数(我认为)一样,我制作了第一张图表,并使用Excel在高中和大学中进行了第一次汇总。当我上大学,研究生院和大约7年的工作经验时,我很快就选择了我认为是更高级的工具,例如SQL,R,Python,Hadoop,LaTeX等。

我们正在面试一位数据科学家的职位,并且有一位候选人自称是“资深数据科学家”(如今这是一个非常时髦的名词),具有15年以上的经验。当被问到他偏爱的工具集是什么时,他回答说这是Excel。

我以此为依据,证明他没有履历所要求的那样经验丰富,但不确定。毕竟,仅因为它不是我的首选工具,并不意味着它不是其他人的工具。有经验的数据科学家会使用Excel吗?您可以假设主要使用Excel的人缺乏经验吗?


大多数数据科学工作广告都要求特定技能,例如R,Hadoop等。您是否忽略了在广告中提及这一点?除非您的新数据科学家会
遇到麻烦

1
好吧,如果他们不使用\LaTeX{}那我就不会雇用他们。只是在开玩笑...
aeroNotAuto15年

1
@Spacedman:我提供了有关轶事的故事,但比起我要聘用的技巧,我对人们对excel的看法确实更感兴趣。我们的团队可以自由使用我们喜欢的任何工具。
JHowIX'4

1
是的,请看这里。对于开玩笑的人,请参见此处
Dirk Eddelbuettel,2015年

1
无论指定的年份如何,我都希望数据科学家至少提供三个工具的Pro / Con列表。他们需要表现出调查,称重选项和传达解决方案的能力。甚至,或者特别是在面试中,我希望看到真正的参与,并有能力超越一个潜在的,但目前尚缺乏的面试问题。
戴夫

Answers:


28

大多数非技术人员经常使用Excel作为数据库的替代品。我认为这是错误的但可以忍受的。但是,据称在数据分析方面有丰富经验的人根本无法使用Excel作为他的主要工具(不包括首次查看数据的明显任务)。这是因为Excel从未打算进行此类分析,因此,在Excel中犯错误非常容易(这并不是说在使用其他工具时犯另一种错误并不容易,但是Excel会进一步加剧这种情况。)

总结一下Excel没有的东西,这对于任何分析都是必须的:

  1. 重现性。数据分析需要可重复。
  2. 版本控制。有利于协作,也有利于可重复性。而不是使用xls,而使用csv(仍然非常复杂,并且具有很多边缘情况,但是csv解析器如今相当不错。)
  3. 测试。如果您没有测试,则您的代码已损坏。如果您的代码被破坏,则您的分析会比没有用的还糟。
  4. 可维护性。
  5. 准确性。Excel确实缺乏数值精度,准确的日期解析等功能。

更多资源:

欧洲电子表格风险兴趣小组-恐怖故事

您不应该将电子表格用于重要工作(我是说)

Microsoft的Excel可能是地球上最危险的软件

使用这个技巧,使用Excel销毁您的数据!

Excel电子表格很难正确显示


为了查看数据并进行快速分析,是否有工具被专业人士广泛接受,但具有可比性,但优于Excel?我是一名新手数据科学家,并且大多数时候都在使用(Postgre)SQL,但如果您只是尝试一下,像Excel这样的东西可以更快地使用。
sudo

1
另外,我不得不抱怨CSV不是标准的。您确实必须确保打开的内容与产生的内容一致。OpenOffice正确地执行了该操作,并允许您在加载时选择许多CSV选项,而不用假设其格式。
sudo

@sudo工具取决于您选择的编程语言,这主要是个人喜好。仅举几个例子,R历来是一个不错的选择,Python近年来在数据分析中越来越流行,Julia在该领域非常有前途。大多数编程语言都提供成熟的库,这些库为您提供了特别适合于数据分析的结构(例如,数据框),并且它们都比Excel更好。CSV已被标准化,但是一些细节的实现方式有所不同,但这在您的日常工作中应该不是一个大问题。
罗伯·史密斯

我确实使用Python进行光处理,但实际上并没有达到Excel的目的。例如,在Excel中,您可以使用自动过滤器和交互式图表之类的工具。我通常将数据输出到CSV,以便我的上司在Excel或其他工具中查看。
sudo

@sudo然后你想要熊猫。熊猫提供了许多方法来处理您的数据。这包括基于索引,列或条件的子集,这比自动过滤器更灵活,更强大。然后,您可以绘制结果(df.plot()),并将输出导出到csv(df.to_csv('output.csv'))。请记住,数据分析通常不仅仅需要过滤和绘图。因此,重点应放在正确性上,因此您需要将表示与分析脱钩。使用Python(或其他语言)执行分析,如果需要,可以在csv中共享您的输出。
罗伯·史密斯

15

有经验的数据科学家会使用Excel吗?

我见过一些经验丰富的数据科学家,他们会使用Excel,或者是因为他们的偏爱,或者是由于工作场所的业务和IT环境的特殊性(例如,许多金融机构至少将Excel作为主要工具进行建模)。但是,我认为大多数有经验的数据科学家都认识到需要使用对特定任务最合适的工具,并坚持使用这种方法。

您可以假设主要使用Excel的人缺乏经验吗?

你不能。这是我上述想法的必然结果。数据科学不会自动暗示大数据-Excel可以很好地处理很多数据科学工作。话虽这么说,如果一位数据科学家(甚至是经验丰富的人)不具备(至少是基本的)现代数据科学工具的知识,包括以大数据为重点的工具,那一定会令人不安。这是因为由于探索性数据分析是数据科学的本质,甚至是至关重要的部分,因此实验已根深蒂固地融入了数据科学的本质。因此,没有急于探索其领域内其他工具的人,可能会在总体上适合数据科学职位的候选人中排名较低(当然,这是非常模糊的,因为有些人学习起来非常快新材料,再加上,

因此,总而言之,我认为有经验的数据科学家就其首选工具可能要回答的一个最佳答案是:我的首选工具是最佳工具,即最适合当前任务的工具。


5
我永远也不会因为不了解Hadoop而对某人发难,但是即使在小数据情况下,我仍然感觉R优越。使用R可以完成许多事情,而使用Excel无法完成。令我担心的是,这个人在15年多的时间里并未“发现”它
JHowIX'4

@JHowIX:您是否熟悉“足够好”一词?我也是R的忠实拥护者,并且每天都会喜欢许多工具(包括Excel)。但是,R可以做更多的事实并不意味着Excel(或适合任务的任何其他工具)在特定的工作环境中不如后者。因此,尽管您的顾虑是正确的(我使用“干扰”一词来指代),但可能是该人没有机会/不需要这样做。请记住,您所说的时间是指R的存在时间,但它在学术界和数据科学中很流行(称为数据分析等)并不像今天那么热门。
Aleksandr Blekh

13

我认为大多数人都没有很好的Excel知识就回答了。Excel(自2010年起)具有一个内存中的列式[多表]数据库,称为Power Pivot(允许从CSV /数据库等输入),从而可以存储数百万行(不必将其加载到电子表格中) 。它还有一个称为ETL的ETL工具,可让您从各种来源(包括hadoop)读取数据。它具有可视化工具(功率视图和功率图)。许多数据科学都在进行汇总和top-n分析,而这正是力量枢纽所擅长的。除此之外,这些工具还具有交互性-任何用户都可以轻松地拖放一个维度来分解结果,也希望您能看到其中的好处。所以是的,你不能做机器学习,


有趣。我已经习惯了Excel 1998-2008缓慢且有错误的东西。要尝试新的。
sudo

我希望我能支持seanv507的答案一百万次。这里的大多数答案表明,很多人都不知道excel的最新版本有多强大。并且请注意,当您使用新的数据分析工具(例如Power查询,Power Pivot,DAX)时,如果没有这些工具,您将不再受限于
1,048、576

没有业务背景的人不会使用excel。期。考虑到商科毕业生通常不会进入数据科学领域,您可以了解无知。
NoName

5

John Foreman在他的《数据智能》一书中使用Excel解决了常见的数据科学问题(聚类,朴素贝叶斯,集合方法等)。确实,拥有一些Python或R知识总是很好,但是我想Excel仍然可以完成大部分工作!


2
实际上,当我读到这本书可以用Excel完成那么多工作时,我感到非常惊讶。并且它内置了进化算法和其他非线性求解器!Excel的一个很好的好处是,与R或Python代码相比,更多的人可以访问您的工作,尤其是如果您要使用可重复的代码。
马云

5

令我惊讶的是,有多少人对专业的冷酷而不是实际要做的工作感兴趣。Excel是出色的工具,带有免费的Powerpivot,Powerquery,它可以做很多事情。(这些在OS X上不可用)。而且,如果您了解VBA,则可以做一些不错的事情。然后,如果您在python的知识上再加上一点,就可以将数据提取和操作的第一步与python结合起来,然后再使用excel,特别是如果您是一个有视觉素养的人。借助excel,您可以真正检查汇总的数据,然后再进行任何进一步的处理或可视化。它是必备工具。


4

Excel仅允许非常小的数据,并且没有任何对于机器学习甚至只是绘图都足够有用和灵活的数据。我在Excel中要做的只是凝视数据的子集,以便乍一看这些值,以确保我不会错过任何肉眼可见的东西。

因此,如果他最喜欢的工具是Excel,那么这可能表明他很少从事机器学习,统计,较大的数据大小或任何高级绘图工作。这样的人我不会叫数据科学家。当然,标题并不重要,它在很大程度上取决于您的要求。

无论如何,请勿根据经验或简历作出判断。我看过简历,并且了解它背后的人。

不要假设 测试他!您应该足够好进行测试。事实证明,仅仅通过面试就无法确定技能(他们只能表现出个性)。设置一个非常简单的监督学习测试,并让他使用他想要的任何工具。

而且,如果您想首先在面试中筛选人员,然后向他询问有关统计学或机器学习的非常基本但重要的见解。您现在的每一位员工都知道的一件事。


2

首先让我澄清一下,我是从程序员和数据库开发人员的角度开始我的数据科学之旅的。我既不是10年的数据科学专家,也不是统计学专家。但是,我为一家与全球相当大的客户合作的公司工作数据科学家和大型数据集。

根据我的经验,数据科学家会使用所需的任何工具来完成工作。Excel,R,SAS,Python等都是优秀数据科学家的工具箱中的所有工具。最好的人可以使用各种工具来分析和处理数据。

因此,如果您发现自己将R与Python进行了比较,那么在数据科学世界中您可能会做错一切。优秀的数据科学家会在有意义的情况下使用两者。这也适用于Excel。

我认为,要找到一个在各种方面都很出色的人,要拥有许多不同的工具和语言的经验是相当困难的。我还认为,很难找到专门能够不仅编程复杂算法而且还从统计学的角度也知道如何使用它们的数据科学家。

与我合作的大多数数据科学家都有大约2种口味。那些可以编程的人和那些不能编程的人。我很少与数据科学家合作,他们可以使用Python提取数据,使用Pandas之类的工具对其进行处理,将模型拟合到R中的数据,然后在一周结束时将其提交给管理层。

我的意思是,我知道它们存在。我读过很多数据科学博客,这些博客来自开发Web爬虫,将其推入Hadoop,将其拉回Python,对复杂的事物进行编程并通过R运行以进行引导的家伙。它们存在。他们在那里。我只是没有遇到太多可以做所有这些事情的事情。也许这只是我的区域?

那么,这是否意味着只专注于一件不好的事情?否。我的很多朋友只专注于一种主要语言,并且将其杀死。我知道很多数据专家只知道R并杀死了它。我也认识到很多人只是使用Excel分析数据,因为这是大多数非数据科学家可以打开和使用的唯一信息(尤其是在B2B公司中)。您真正需要回答的问题是,这一职位是否是您担任该职位所需的一件事?最重要的是,他们可以学习新东西吗?

聚苯乙烯

数据科学不仅限于“大数据”或NoSQL。


嗨,格伦,谢谢您的评论。看一下以下链接。它来自Swami Chandrasekaran,他是IBM Watson团队的负责人,我认为他是一位非常有经验的数据科学家。在“基础知识”和“统计”之后,他基本上是数据科学家需要了解的第三件事。根据他的路线图,一旦您知道如何编程,就可以成为数据科学家的15%。基于此,我可能会不同意真正的数据科学家具有“非编程”风格的说法。 nirvacana.com/thoughts/becoming-a-data-scientist
JHowIX'4

好吧,我只是根据经验说。大多数统计和数据科学课程甚至都没有涵盖流行统计程序所需的程序。因此,我在统计领域遇到的大多数人都不擅长编程。当他们进入现实世界并意识到它会有所帮助时,这就像是事后的想法。
Glen Swan

1

Excel可以成为探索性数据分析的出色工具,它确实取决于您的需求,并且它像其他任何工具一样都有其局限性,但是excel在数据科学名人堂中绝对值得一试。

值得记住的是,实际上,大多数用户无论如何都将探索大量缩减的数据集(从SQL查询创建)。

当您将“表格”对象与数据透视表结合使用时,Excel的功能非常强大,可视化是最多1-2次点击,PowerPoint中的许多excel图表看起来都很棒,除非您打算创建非常定制的内容,例如科学计算环境。互动性质意味着您可以快速探索。

“表”对象的好处是,当您在excel中进一步转换数据以使您能够探索新的分布时,数据透视表都会记住该变量。

excel较弱的地方是公式列表可能受到限制,例如SQL case语句或python语句比无穷无尽的if函数链更灵活。

这确实取决于您的需求,但是excel在数据科学名人堂中绝对值得。

有趣的轶事是,经常会发现从事Facebook新闻提要算法工作的团队都在玩excel和许多电子表格。


0

我讲授的业务分析课程包括SQL和Excel。我在一所商学院任教,所以我的学生并不是技术能力最强的人,这就是为什么我不使用R,Pandas或Weka之类的东西。话虽如此,Excel是足以用于某些数据分析的功能强大的工具。通过使用数据挖掘加载项充当SQL Server Analysis Services(SQL Server中用于数据分析的组件)的前端的能力,它获得了大部分功能。

SSAS使您可以构建决策树,执行线性和逻辑回归,甚至创建贝叶斯或神经网络。我发现使用Excel作为前端对进行这类分析的威胁较小,因为它们以前都使用过Excel。在没有Excel的情况下使用SSAS的方法是通过Visual Studio的专用版本,它不是那里最用户友好的工具。将它与其他一些Excel工具(如Power Query和Power Pivot)结合使用时,就可以对数据进行相当复杂的分析。

全面披露,明年我讲授新版本的课程时,我可能不会再使用它(我们将其分为两门课程,以便一门课程可以更专注于数据分析)。但这仅仅是因为该大学能够获得足够的Alteryx许可证,它更易于使用且功能更强大,但如果您无法以某种方式免费获得,则为每用户每年$ 4-85k。说出您对Excel的看法,但它超出了这个价位。


0

Excel可能是一个很好的工具。当然,根据您的操作,它可能不适合该法案,但如果确实如此,则将其驳回几乎是愚蠢的。尽管需要一些时间来设置管道,但是在Excel中,您几乎可以开始运行:内置UI,即使使用Python(例如https://www.xlwings.org),也可以通过VBA轻松扩展。当涉及到版本控制之类的东西时,它可能不是理想的选择,但是有一些方法可以使其与Git一起使用(例如https://www.xltrail.com/blog/auto-export-vba-commit-hook)。


-2

这个人使用“大数据”并主要使用Excel吗?认真吗?!?!Excel在一个电子表格中最多只能处理1,048、576行数据。对于其他数据集,则需要一个插件。此外,Excel中的数据透视表对使用它们执行的分析也有严格的限制。

您要招聘的工作中需要执行哪些类型的数据分析任务?

我建议您进行面试,包括测试所考虑的工作中需要完成的任务。在不违反机密性,隐私或数据保护的前提下,作为访问一部分的编程或数据分析任务集应包括与要访问的帖子相关的数据集的(假名)子集。否则,您最终可能会招募一个在基于对话的面试中明确表达但实际上没有能力执行实际工作的人。


没有人说“大数据”。他们说“数据科学家”。并非所有数据都是“大数据”。我曾与经验丰富的数据科学家合作,他们在一个项目中使用了R,Python,SQL和Excel。并非所有的数据分析都是编程的或脚本的。正如其他地方所说,工作规范含糊不清=>不同类型的数据科学家。
smci
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.