Questions tagged «data-wrangling»

9
数据科学家的工作量是多少?
我目前在一家零售公司担任数据科学家(我作为DS的第一份工作,所以这个问题可能是我缺乏经验的结果)。他们积压了大量真正重要的数据科学项目,如果实施这些项目将产生巨大的积极影响。但。 公司内不存在数据管道,标准程序是使它们在我需要任何信息时就交给我数以千计的TXT文件。可以将这些文件视为以神秘符号和结构存储的交易的表格日志。单个数据源中没有包含全部信息,并且出于“安全原因”,他们不能授予我访问其ERP数据库的权限。 最简单项目的初始数据分析需要残酷而费力的数据争执。我花了80%以上的时间来尝试解析这些文件并交叉数据源,以建立可行的数据集。这不是简单地处理丢失的数据或对其进行预处理的问题,它与构建可以首先处理的数据(可通过dba或数据工程解决,而不是数据科学?)可以处理的工作有关。 1)感觉像大多数工作完全与数据科学无关。这个准确吗? 2)我知道这不是一家拥有高级数据工程部门的数据驱动公司,但我认为,为了构建可持续发展的数据科学项目,需要最低级别的数据可访问性。我错了吗? 3)对于有严重数据科学需求的公司,这种类型的设置是否常见?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.