统计人员无法自动化执行哪些操作?


26

软件最终会使统计人员过时吗?不能编程到计算机上的操作已完成?


21
他们思考(即,带上知识)。
gung-恢复莫妮卡

10
解释结果;-)
ocram 2012年

5
一般情况下,可以向程序员询问相同的问题;)
nb1 2012年

4
我们设计研究,特别是必须处理无法实现统计上“最佳”设计的现实问题。我们会清理脏数据,以承载现实世界的知识。我们还以简单的[插入所选语言]解释结果。
米歇尔

13
喝啤酒!; o)
Dikran Marsupial 2012年

Answers:


28

@Adam,如果您想到的统计研究人员与其他领域的研究人员类似(基于现有方法和知识的人们),那么可能会更清楚地表明,第一个问题的答案是“否”。

仅仅通过应用罐装软件包来谋生的统计学家很可能在每一步都被计算机所取代,除非撰写论文的讨论部分,其中必须解释结果。因此,从这个意义上讲,是的-它可以是自动化的(尽管它必须是一个复杂的软件,拥有自然语言处理器的魔力)。

但是,正如大多数研究人员最终指出的那样,人们经常使用的“固定”程序非常有限,必须进行修改(或者必须完全开发新方法)才能回答专门的研究问题-这是统计学中人为因素不可或缺的部分。或者,研究人员必须简单地解决一些可以使用经典方法回答的不同但相关的研究问题。

我认识的大多数统计学家都从事研究工作(例如教授,研究科学家),他们的主要作用是开发新方法。如果该过程可以自动化,这意味着计算机可以制定和提出有用的新方法,那么恐怕各个领域的研究人员都将过时。


2
我认为您的第二段没有讲到重点:困难的不仅仅是结束过程(结果解释),而且还是开始–了解以何种方式对数据应用哪种方法,通常情况下需要理解其本质数据及其来源。
卡斯卡贝尔2012年

@Jefromi,就像我在下面对某人的评论一样,我认为理解来自应用领域的专家,而不是统计学家。
2012年

如果只了解应用领域的专家,那么我的工作就会容易得多(并且乐趣更少)。有一个框架问题:专家不认为要说的话对于统计分析很重要。在实践中,最卓有成效的合作使专家学习了大量的统计信息,而统计学家则学习了大量的应用领域。
Scortchi-恢复莫妮卡

33

当强大的人工智能使整个人类过时时,计算机只会使统计人员过时。

这个问题使我想起了一个问题:“如果所有这些鲁棒的统计方法都存在,为什么人们仍然使用其他方法?” 答案是习惯和训练,但很多答案是天真的问题:正如问题所暗示的那样,“健壮”并不意味着“您不必思考和理解自己在做什么”。

我的意思是,您可以今天下载R统计信息包,并在傍晚之前使用任何基本的统计技术。然后,您可以下载几个软件包,并开始使用如此深奥的方法,以至于我们大多数人甚至都没有听说过它们。问题是:您会得到合理的答案吗?答案是:可能不会。

这些算法是自动化的,但是您仍然需要在整个调查过程中做出许多判断:从攻击计划到最终判断结果是否真正有意义。为了达到这一点,您实际上是在谈论类似星际迷航的计算机,在这里您可以说“计算机,告诉我...”,到那时,几乎所有人类职业都已过时。


4
+1表示“只有强大的AI会使整个人类过时,计算机才会使统计人员过时。”
2012年

10

统计员能做些计算机不能做的事情?编写被替换的原始程序。

除了这个愚蠢的答案之外,这个问题的根源在于忽略了统计的实际科学,而是倾向于其机制,而完全忽略了创新过程在统计分析中的作用。以彼得·弗洛姆(Peter Flom)的汽车示例为例,就像说汽车是用铆钉和焊缝制造的,因此,没有理由不能通过铆接和焊接机器人来设计新的野马。

大量的统计工作涉及主题专业知识,判断力和创造力。通过算法运行的“罐头”分析通常不会为您提供最佳答案,并且有大量记录在案的示例,其中使用自动化方法实际上会为您提供错误的答案-或至少不会提供您认为得到的答案。我最熟悉的是基于逐步p值的变量选择过程的使用和基于纯数字定义的分位数的分析,但是我相信您可以在其中找到很多其他的东西。

即使所有这些仍然以某种方式实现了自动化,也存在着解释结果的问题。当您获得回归系数或p值时,统计学家(或倾向于统计学的科学家)的工作不会完成。这个发现意味着什么。有哪些警告?在之前发生的事情中这代表什么?

最后,您将开发新方法。统计信息并不是我们认识的人很久以前就简单地提出的东西,例如Fisher,Cox等。这是一个不断发展的领域,在人们自己开发该方法之前,您无法将新方法编程到计算机中。


2
(+1),因为“使用算法执行的固定分析通常无法为您提供最佳答案”是非常正确的。这并不意味着统计学的从业人员不会一直这样做。(请注意:大多数统计学从业人员都不是统计学家……更像是在使用统计学的人,尽管他们并不真正知道自己在做什么,但往往会导致科学不佳)
Macro

10

解释这个问题的另一种方式可能是:“近年来自动化统计技术的快速增长是否对应于对专门的统计学家和数据分析师的工作需求的减少?”

我们可以通过查看数据来解决这个问题 数据分析职位的就业市场
在此处输入图片说明

数据由True.com和Revolutions博客提供


+1 Even的Indeed.com也没有使@cboettig过时。
Thomas Levine

4
我不认为“专业统计学家和数据分析师的工作需求”与招聘广告中关键字“数据科学家”或“大数据”的使用紧密相关。<-怀疑这些假设是人类带到餐桌上的;-)
Darren Cook

@DarrenCook好说!
cboettig 2012年

7

我并不完全同意这个问题的前提,即我认为计算机不可能希望取代统计学家,而是举一个具体的例子说明为什么我认为:

统计学家与科学家的工作,特别是在实验的设计和解释中,不仅需要人类的思想,而且还需要哲学上的弯曲,这是计算机无法展现的。

当然,除非我们最终陷入某种天网类型的情况,否则我认为,就全人类的未来而言,所有赌注都可能落空了,别在乎统计学家,而是:-)


1
除了我要服从猫主人。:)
米歇尔2012年

5

这个问题暗示了对统计学家的幼稚看法,那就是检查ap <0.05是否为零,并报告一些数字和标准图。如果这就是统计学家的意思,那么您的意思是正确的,那就是其中大部分可能是完全自动化的。但这不是统计学家的意思。

但是,定义您的术语统计学家,您可能会得到更好的答案。


3

将统计信息包加载到计算机上并不会使您成为统计学家,就像买车可以开车一样。

即使统计学家只是应用“固定”例程,仍然存在很多问题。

  1. 哪个例程?什么程序可以回答客户的问题?
  2. 用什么变量?并且应该改变它们吗?是否应该合并一些级别?哪个模型应该被强制?
  3. 用什么数据?应该删除异常值吗?修剪了吗?也许是一个健壮的方法?

等等。

但是作业在计算机开启之前开始,在统计软件包关闭之后很长时间结束。

之前:客户想做什么? 通常这是很多工作!客户有什么数据?OY合租!变量标记为V1至V828171,哪个是?文献状况如何?客户会期望什么?技术应该如何?

之后:结果什么意思?(而不仅仅是“这意味着回归显着”)应该如何向客户解释结果?结果还有什么其他问题?

我认为,计算机需要很长时间才能做到这一点。


1
为了回答(1),(2)和(3)中列出的问题,您需要经过一些合理的过程。从理论上讲,可以将此逻辑过程编码到计算机程序中。如果计算机具有完善的自然语言处理器,并且该软件包含所有“固定”软件,并且已编程了上述逻辑,则它可以执行这些操作。或者,您是说这不是一个逻辑过程?
2012年

4
对我来说,比喻更接近于“买车并不能使您成为机械师或汽车设计师”。
主教

1
@Macro因为它的逻辑过程不一定意味着是否可以将其编程到计算机中。“应该合并某些级别”并不总是一个数字量度,例如,它需要考虑这些合并的级别是否在变量本身的上下文中有意义。
Fomite

1
确定在应用程序上下文中是否有意义对统计学家来说也不是问题-不管应用程序是什么,这都是专家的问题。统计人员可以告诉您是否有必要根据各个级别看起来是否均匀来组合级别,这当然可以教给计算机。
2012年

4
我无法抗拒指出,谷歌一直在在买车的方向长足的进步让你能够驱动-它会自动执行此操作!
ub

2

关于不同职业或任务自动化的可能性的学术研究认为,统计学家不会很快被计算机取代。例如,参见有争议的Frey&Osborne(2013)的研究,该研究根据职业的计算机化可能性对职业进行排名,统计学家在702位中被评为低213位,概率为22%(参见附录中的表格)。如果您进一步感兴趣,请参阅此处Slate文章

Arntz等。(2016年)此处是《经济学人》的文章)着眼于欧盟的任务而不是职业,并得出了类似的结论:做“复杂的数学或统计学”在统计学上与工作的自动完成度显着负相关(请参见表3)。

但是建议一定要谨慎,学者和/或经济学家在预测未来时并不总是很出色(例如,诺贝尔奖获得者罗伯特·卢卡斯(Robert Lucas)于2003年得出结论,即金融危机之前的几年,“预防抑郁症的中心问题是为了所有实际目的已被解决,并且实际上已经解决了数十年。”)两项研究似乎都是工作论文,受到了广泛讨论,但尚未在标准的同行评审期刊上发表。

关于学术辩论,您可以在此处找到有关自动化研究现状的概述文章。


0

我认为,人工智能只会使统计学家变得更聪明,更有竞争力。为什么?因为这是几十年前人工智能以来的意图。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.