Excel是否足以进行数据科学?


10

我正在准备使用R编程语言教授数据科学入门课程。我的听众是商业专业的本科生。典型的商业本科生没有任何计算机编程经验,但是参加了一些使用Excel的课程。

我个人对R(或其他编程语言)非常满意,因为我主修计算机科学。但是,我感到我的许多学生会对学习编程语言感到戒心,因为这对他们来说似乎很困难。

我确实对Excel有一定的了解,我相信Excel虽然可以用于简单的数据科学,但学生有必要学习一种严肃的数据科学编程语言(例如R或Python)。我该如何使自己和学生相信Excel不足以作为一名认真的商科学生学习数据科学,并且他们必须学习一些编程知识?

编辑以回应评论

以下是我将要介绍的一些主题:

  • 数据处理和数据清理
  • 如何操作数据表,例如,选择行的子集(过滤器),添加新变量(变异),按列对行进行排序
  • SQL使用dplyr包进行联接
  • 如何使用ggplot2包绘制图(散点图,条形图,直方图等)
  • 如何估计和解释统计模型,例如线性回归,逻辑回归,分类树和k最近邻

因为我不太了解Excel,所以我不知道所有这些任务是否都可以在Excel中轻松完成。


不知道您的课程大纲上的内容,就无法回答这个问题。话虽如此,您应该看看Excel中的Power Pivot /数据模型。如今,您可以在Excel中轻松处理具有数百万行的数千兆字节的数据集,而且速度很快。
Gaius

@Gaius我添加了一些我想在课程中教的细节
我喜欢编码

数据模型support.office.com/zh-cn/article/…为您的1-4点提供了很好的支持-对于第5点,我建议使用AzureML studio.azureml.net
Gaius,

AzureML也有R作品顺便说一句

4
关于你的最后一点-看看这本书“数据智能”由约翰·福尔曼- amazon.com/Data-Smart-Science-Transform-Information/dp/...
格雷戈里·德敏

Answers:


8

首先查看这篇文章。在数据科学任务方面,Excel不如其他解决方案有很多原因。Excel也无法处理大型数据集(数十万条记录-更不用说在Big Data附近的任何内容),图像和声音数据。

Excel非常适合与电子表格有关的简单任务;它强调显示易用性,同时对实际分析数据的支持最少。除非您只想计算简单的统计量(均值,平均值等)或建立非常简单的模型(例如线性回归),否则Excel效率低下。话虽如此,公司必须处理的有关数据的99%的工作足够简单,可以通过Excel进行管理。

但是,Data Science主要处理回归,分类和excel无法处理的复杂模型!如果您的学生想了解数据科学,则需要教给他们一个对他们有用的工具(R,Python等)。这些语言也具有带有大量内置模型的库以供“使用”。

我选择后一种选择的另一个非常重要的原因是它们是开源的。我个人认为,从教育的角度来看,开源软件应优先于专有解决方案(这也是为什么我建议使用python和R而不是Matlab的原因)!


我同意以上所有内容,但他确实表示他们是商科专业。为什么不教R但又要确保演示R / Excel插件?
CalZ

1
“ Excel也不能处理大型数据集(成千上万条记录”。<-是的,它很容易。它可以作为AzureML和PowerBI等重要后端的客户端。我不是Excel的“粉丝” “这么多,但是让我看到那些甚至不了解基本工具的所谓“数据驱动”人员也令我感到困惑。–
Gaius

1
如果在同一台“基本”计算机(16 GB内存,i7 ecc)上,它是一百万行的数据集和数千个列,怎么办才能更快地打开它?我并不是想贬低Excel,只是出于诚实的好奇心。据我所知,我什至无法在Excel中打开此类数据集。RStudio可以在同一台PC上毫无问题地读取它。
RLave '18

7

我刚完成业务分析硕士学位,遇到了与您描述的相同的问题。幸运的是,我是一名技术人员,并且能够自学R和Python,但是我仍然在课堂上其余的课程中学习如何使用R和Python。我使用R / Python的课程因学生缺乏技术理解而受阻,因此花了太多时间来介绍如何仅打开R / Python。走另一条路的课程让人难以接受,而且不太实用。我想为一个班级项目做一些事情,由于它的局限性,它最终无法在Excel中完成,但老师不会接受任何其他工具。

您可能无法立即执行某些操作,但我强烈建议您尝试让该部门在上课程之前要求编程课程。数据科学和业务分析IMHO应该是跨学科学位课程,需要一定程度的计算机科学知识,但是在课程成熟和大学系统变得更好之前,它可能不会出现一段时间。


您提到您“希望为班级项目做某事,由于其局限性,最终导致它无法在Excel中完成”。您正在尝试做哪些无法在Excel中完成的操作?
我喜欢在

3

我认为您需要教给他们一种流行的数据科学语言,例如Python或R。Excel不会在实际工作中帮助他们,并且对于数据科学目的也不实用。从长远来看,我可能会说Python对他们来说最有价值,并且使用scikit-learn这样的软件包,您可以通过很少的几行代码来展示您的回归和分类,它们可以更轻松地阅读和理解。仅阅读R并不总是很容易理解。

另一个建议:不要浪费时间强迫学生设置IDE并下载必要的软件包,如果您使用python为他们创建一个具有所有必要软件包的虚拟环境,并设置像pycharm这样的IDE(他们可以并在学生/学术许可下获得此IDE和大多数其他IDE),然后可以通过UI(而不是控制台)开发和运行其代码,而控制台可能会使他们感到畏缩和困惑。如果沿R路线走,请确保为它们设置了一个类似RStudio的IDE,并确保所有包含和软件包安装都包含在示例代码中或已完整描述。


“ Excel不会帮助他们完成一项真正的工作”,这肯定是所有同事都在使用的东西。您经验中哪些真正的工作不使用Excel?
Gaius

3
任何处理大量数据(包括我的数据)的数据科学角色。您认为出于兴趣而认为哪些DS作业会使用Excel作为其主要工具?
丹·卡特

我从您的个人资料中看到您是学生?哦。这些是在DS学习一门课程的商科学生。在工作中,他们绝对会使用Excel作为主要工具。
Gaius

1
当然,您是对的,他们很可能会在业务类型角色中使用Excel,但是正如OP明确指出的那样:他们已经选修了涵盖Excel的课程。再加上Excel不足以用于工业或学术数据科学的事实,很显然,教他们“ Excel for Data Science”对他们的实际工作无济于事,正如我所说。您不能通过教男人说法语来教男人(或女人)钓鱼。
丹·卡特

那么,如果他们已经在Excel上上过课怎么办?不要像不能学习R的昏迷一样对待。我们这里不是在谈论Haskell或LISP!
Emre'7

2

我如何说服自己和学生Excel不足以供认真学习数据科学的商科学生使用

在R中创建一个巨大的data.frame(耦合百万行和几百列),将其另存为.xlsx。

向他们显示在R中加载时以及在同一台计算机上的Excel中的时差。比较同一数据集(甚至是图)上两者之间的基本统计操作。

点号 您列表上的2-4也可以在Excel中完成,更令人痛苦的是,向他们展示几个示例,这些示例说明了dplyr与基本Excel相比,使用进行过滤的简单(且速度更快)的情况,这再次将在一个巨大的数据集上突出显示区别。

奖励点是,如果您能提供一个数据集,而该数据集会因为Excel崩溃而使您的PC崩溃。

另外,我还要强调R(或Python)的“免费使用”部分。例如,与SAS相比,如果您只想尝试一种解决方案(即某种集群),则可以加载该库并进行尝试,而无需为尝试付出更多。

对我来说,这就是它的美,您可以免费尝试任何所需的东西,而这通常是DS中的关键,想象一下是否需要为安装的每个库付费。


1

Excel和数据科学-听起来真的很奇怪。也许是Excel和“数据分析”。

无论如何,我认为Excel和R之间的一个很好的折衷方案是:KNIME(http://www.knime.org/knime-analytics-platform)。它在桌面上是免费的,而且入门起来更加容易。如果〜1.000个节点缺少所需的某些功能,则可以导入/导出到Excel,但也可以使用R,Python或Java。由于工作流是可视化创建的,因此将其显示给不懂任何编程语言的人也容易得多-在某些公司中这是一个很大的优势。


0

我认为问题在于,您正在试图说服学生,让他们上课,他们可以从事与现代数据科学类似的数据科学,即像图像处理,面部识别这样的奇特的东西。您大部分时间都在说这句话,“通过上这堂课,您将...”您需要教给他们的是对数据的热爱以及勇于浏览大量数据,与他们打乱以期希望与他们交往的勇气。他们有些感触。一旦他们能够做到这一点,就可以称他们为数据科学家,而对于拥有新一代数据科学家而言,您应该为自己感到自豪。之后,如果他们对数据科学非常认真,他们可以继续参加其他涉及数学,统计学和计算机科学的密集课程(如您所说的编程经验)。我当时和你的学生情况相似。我没有CS的背景知识,但想通过参加一些有前途的在线课程来攻读数据科学和AI。我最终浪费了很多钱,却发现自己陷入极大的挫败感(哦,我需要参加此类课程来了解这种算法,哦,他们现在正在谈论神经网络,所以我必须报名参加另一堂课程,等等)TL ; DR 工具仅占您问题的1%。在您的背景下,一周之内在Excel中解决上述任务应该没有问题。哦,他们现在正在谈论神经网络,所以我必须报名参加另一堂课,等等。)工具仅占您问题的1%。在您的背景下,一周之内在Excel中解决上述任务应该没有问题。哦,他们现在正在谈论神经网络,所以我必须报名参加另一堂课,等等。)工具仅占您问题的1%。在您的背景下,一周之内在Excel中解决上述任务应该没有问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.