数据科学家的工作量是多少？

44

我目前在一家零售公司担任数据科学家（我作为DS的第一份工作，所以这个问题可能是我缺乏经验的结果）。他们积压了大量真正重要的数据科学项目，如果实施这些项目将产生巨大的积极影响。但。

公司内不存在数据管道，标准程序是使它们在我需要任何信息时就交给我数以千计的TXT文件。可以将这些文件视为以神秘符号和结构存储的交易的表格日志。单个数据源中没有包含全部信息，并且出于“安全原因”，他们不能授予我访问其ERP数据库的权限。

最简单项目的初始数据分析需要残酷而费力的数据争执。我花了80％以上的时间来尝试解析这些文件并交叉数据源，以建立可行的数据集。这不是简单地处理丢失的数据或对其进行预处理的问题，它与构建可以首先处理的数据（可通过dba或数据工程解决，而不是数据科学？）可以处理的工作有关。

1）感觉像大多数工作完全与数据科学无关。这个准确吗？

2）我知道这不是一家拥有高级数据工程部门的数据驱动公司，但我认为，为了构建可持续发展的数据科学项目，需要最低级别的数据可访问性。我错了吗？

3）对于有严重数据科学需求的公司，这种类型的设置是否常见？

data-wrangling

— 维克多·瓦伦特
source

您是否指定了要使用哪种格式的信息？并给他们说明如何使用ERP做到这一点？

— jonnor

@jonnor当然。我在这里工作了将近两年，从第一天开始，我就解释了如何为数据可访问性构建更好的平台。不过，改变公司30年来一直存在很大的阻力。

— 维克多·瓦伦特

13

开始跟踪您的小时数，并将其转换为浪费您时间的成本，将TXT转换回可用格式。我敢打赌，一旦他们有了$的数字，他们就可以完成。

— 尼尔森

如果这是您的时间负担，则可以将其外包。

— 肉瘤

我感到困惑的是，一家公司会雇用一名数据科学家，但仍然拒绝更改。您应该向他们显示浪费的时间，以及将数据保存到长TXT文件中而又没有真正的安全性的危险

— Pedro Henrique Monforte

27

像大多数工作一样，感觉完全与数据科学无关。这个准确吗？

是
我知道这不是一家拥有高级数据工程部门的数据驱动公司，但我认为数据科学需要最低级别的数据可访问性。我错了吗？

您没有错，但这就是现实生活中的现实。
对于具有严重数据科学需求的公司来说，这种类型的设置是否常见？

是

从技术角度来看，您需要研究可使您的生活更轻松的ETL解决方案。有时，一种工具比另一种工具读取某些数据的速度要快得多。例如，在读取xlsx文件时，R的readxl比python的熊猫快了几个数量级；您可以使用R导入文件，然后将其保存为Python友好格式（镶木地板，SQL等）。我知道您不使用xlsx文件，也不知道您是否使用Python-这只是一个例子。

从实际的角度来看，有两件事：

首先，了解技术上可行的方法。在很多情况下，告诉您知道的人是不懂IT的人，他们担心业务或合规性方面的问题，但是从IT角度看，什么是不可行是什么概念。尝试与DBA或与管理数据基础结构的任何人交谈。了解技术上可行的方法。然后，只有这样，才能尝试找到折衷方案。例如，他们不会授予您访问他们的系统的权限，但是我想它背后有一个数据库？也许他们可以将数据提取为其他格式？也许他们可以提取定义数据类型等的SQL语句？
如果您可以证明这样做符合他们的利益，那么商人更有可能为您提供帮助。如果他们甚至不相信您在做什么，那么运气会很艰难...

— Python来宾
source

2

查找/构建ETL解决方案的绝佳之处。只需添加：选择一个您熟悉的设置即可轻松读取/调试。在自动化任务的早期阶段，这比寻找最快的数据提取工具更为重要。如果是大量文本，则可能通常会在一夜之间运行，而您对工具/框架/语言的流利程度可能会导致唤醒优质数据或您必须重新开始的事情有所不同。只需执行一次即可消除所有效率优势。与减少故障相比，保持稳定，减少错误的数量更好。

— 杰森

2

真正。但是，也不要过度优化。明智地选择您的优先事项。如果一次导入数据，则不要花几天时间寻找如何将导入时间从2小时减少到30分钟。等等

— PythonGuest

39

在许多情况下，许多博客，公司和报纸都承认这种情况是真实的。

在本文中，大数据的数据争夺：挑战和机遇，对此有一个引述

数据科学家花费其时间的50％至80％

收集和准备不守规矩的数字数据。

另外，您可以在《纽约时报》的这篇文章中阅读该引文的来源，对于大数据科学家来说，“看门人的工作”是洞察力的关键障碍

不幸的是，现实世界并不像Kaggle。您没有一个CSV或Excel文件，只需稍加清理即可启动Data Exploration。您需要以不适合您需要的格式查找数据。

您可以做的是尽可能多地利用旧数据，并尝试在一个过程中使您（或未来的同事）更容易使用新数据的存储。

— 塔索斯
source

福布斯文章声称这个数字是80％。

— Jesse Amano

4

福布斯绝不应该与“数据科学”一词一起提及。

— gented

50-80％基于（引用）“访谈和专家估计”

— oW_

3

@gented基于意见的评论中有关基于意见的调查的评论，该意见基于意见的文章放在基于意见的问题的基于意见的答案上。谁会想到您会在“数据科学” SE中找到它？

— Keeta

25

像大多数工作一样，感觉完全与数据科学无关。这个准确吗？

这是任何数据科学项目的现实。Google实际上对其进行了测量，并发表了论文“机器学习系统中的隐藏技术债务” https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

论文的结果也反映了我的经验。绝大多数时间都花在获取，清理和处理数据上。

— Shamit Verma
source

7

像大多数工作一样，感觉完全与数据科学无关。这个准确吗？

数据科学家的职位描述中绝对是争吵数据。在某种程度上，您必须了解数据生成过程才能使用它来驱动解决方案。当然，专门从事ETL的人可以更快/更高效地完成它，但是在现实世界中经常会遇到这样的情况：获得数据转储并不罕见。如果您不喜欢数据科学的这一方面，则可能有机会与IT资源更紧密地合作，以将数据正确地来源到您可以访问的仓库中。或者，您可以找到已经有更好顺序的数据的作业。
我知道这不是一家拥有高级数据工程部门的数据驱动公司，但我认为数据科学需要最低级别的数据可访问性。我错了吗？

我认为最低级别是txt文件。如果您可以通过文本文件访问数据，则应该有权访问数据库中的数据（上级对此进行回推）。
对于具有严重数据科学需求的公司来说，这种类型的设置是否常见？

是。您是数据科学家；你是专家。向他人介绍当前数据结构的低效率以及如何提供帮助是您工作的一部分。无法使用的数据无法帮助任何人。您有机会使事情变得更好，并塑造公司的未来。

— 破坏者
source

6

作为数据科学领域的另一个新手，我只能补充一点，我认为您的经验并不独特，我的10人左右的团队显然一年多没有做过任何DS（一个小项目占据了其中的2个球队）。这是由于团队一直在努力建立有效的管道的承诺，但仍无法完全交付数据。显然，过去的保留能力很差，并且一直希望为将来的DS项目提供一个圣杯MS Azure环境。

所以回答：

1）是的，完全准确

2）不，您是正确的，但是要获得所需的数据（如果甚至存在）是艰巨的任务。

3）我确定那里有比其他公司更好的公司。如果您不能忍受目前的公司工作，那么两年的时间就不错了，那就开始寻找更光明的事物（请谨慎表达您辞职的愿望，例如“希望以更有活力的方式工作团队”听起来比“我的旧公司不会给我数据”要好）。

— 奥利弗·休斯顿
source

5

如果您从“这不是我的工作，那么我为什么要做”的角度来看待这个问题，那么这是一个相当普遍的普遍问题，并非特定于数据科学。归根结底，您的工作是做老板告诉您的所有事情，但是在实践中，老板没有理由独裁，通常可以说服他们。或者至少他们会给您真诚的解释，为什么一定要那样做。但是就吸引权威而言，没有“数据科学”的正式定义表明您最多只能进行X％的数据清理。只要他们有停止向您付款的合法权利，授权人就是向您付款的人。

您还可以从另一个角度看待它：这是对您时间的一种很好的利用吗？听起来您要完成一些任务（这就是“数据科学”的意思），但是您又不得不做另一件事（您称之为“数据争吵”）。职位描述和个人感觉与这里的要点有些不同，因为还有一些更相关的东西：公司大概会付给您很多钱来做只能做的事（数据科学）。而是让您做其他事情，这可以由其他人来完成，这些人是一些更有能力，更有动力或更便宜的组合。如果数据争夺可以由薪水减半的人来完成，那么付给你两倍的钱去做同一件事是没有意义的。如果可以更快地完成如果某人支付相同的薪水，则适用相同的逻辑。因此，让公司将这项任务分配给您会浪费资源（尤其是金钱）。从这个角度出发，您可能会发现，使上司更容易看到自己的一面。

当然，归根结底，必须有人来整理数据。可能最便宜，最快，最简单的方式就是您-做这项工作的最佳人选。在这种情况下，您有点不走运。您可以尝试声明它不是合同的一部分，但是他们天真地在合同中放入特定内容的几率是多少？

— Whelibeiren
source

3

也许简单地说：

在创建变量和对数值进行装仓时，您会盲目地这样做还是在分析数据之后？
当同龄人查看您的发现时，如果他们对特定数据位有疑问，会让您不认识它们会感到尴尬吗？

您需要使用并理解您的数据-包括从修复不一致（NULL，空字符串，“-”）到了解数据如何从收集到显示的简单内容。处理它包括了解相同的信息，因此无论如何它是您必须要做的部分工作。

现在，听起来这家公司可以通过设置某种免费的MySQL（或类似）实例来保存您的数据而受益。在设计纠缠代码时尝试保持灵活性也是一个好主意-如果允许（在MySQL中不能这样做），拥有一个中间的处理数据集会很有用。

但是，当然，您仍然需要从头开始进行设置。这不是一个容易的过程，但是这种“学习经验”至少可以很好地融入您的简历中。

— 大卫·M
source

3

1）感觉像大多数工作完全与数据科学无关。这个准确吗？我认为，数据科学无法摆脱数据争执。但是，正如您所说，问题将是数据科学家需要多少百分比的数据整理。这取决于组织的带宽和从事此工作的人员的兴趣。根据我在DS担任15到16年的经验，我一直将大约60％至70％的时间用于数据整理活动，并最多花费15％的时间进行实际分析。所以接你的电话。

2）我知道这不是一家拥有高级数据工程部门的数据驱动公司，但我认为数据科学需要最低级别的数据可访问性。我错了吗？同样，它取决于组织的安全策略。他们无法将一切都留给您，并且他们有自己的安全问题，无法向临时雇员提供数据（很抱歉使用此词：-(）

3）这种设置对于有严重数据科学需求的公司来说是常见的吗？我觉得这类公司需要数据科学家的最大关注，以使数据驱动的建模成为维持其业务的未来。:-)

我在思考业务时提供了投入，而不是技术观点。:-)希望我能选择清楚的词。

— 用户名
source

3

图灵奖获得者迈克尔·斯通布雷克（Michael Stonebraker）在他的演讲“大数据是四个不同的问题”中，提到了这个特定问题是一个大问题（视频，幻灯片）

他说，这方面存在许多未解决的问题：摄取，转换（例如欧元/美元），清洁（例如99 /空），模式映射（例如工资/薪水），实体合并（例如Mike Stonebraker / Michael）碎石者）

有许多公司/产品试图解决此问题，例如Tamr，Alteryx，Trifacta，Paxata，Google Refine致力于解决此问题。

在这一领域成熟之前，很多数据科学家的工作确实将是数据争执。

— 胡舒兰
source