我们总是说统计只是在处理数据。但是我们也知道,信息学也在从数据分析中获取知识。例如,生物信息学的人们可以完全不用生物统计学。我想知道统计学和信息学之间的本质区别是什么。
我们总是说统计只是在处理数据。但是我们也知道,信息学也在从数据分析中获取知识。例如,生物信息学的人们可以完全不用生物统计学。我想知道统计学和信息学之间的本质区别是什么。
Answers:
很好的问题!
我曾多次听到生物信息学家可以没有生物统计学,甚至没有统计信息。直到它变为假,这都是完全正确的。在我看来,如Keith Baggerly所示,普遍缺乏统计知识会对这一领域产生灾难性的影响。从长远来看,我还可以观察到统计学(和线性代数)缺乏基本知识是生物信息学家停滞不前的原因:在没有深入了解该理论的情况下,他们倾向于重新发明轮子并诉诸于解决问题的即席解决方案只是他们自己的问题。
但是现在,要回答您的问题,我同意总体而言,那些日子里没有计算机就无法进行统计。然而,统计的主要方面之一是推理,它与计算机无关。统计推断实际上是使统计成为一门科学的原因,因为它可以告诉您在其他情况下您的结论是否成立。
简而言之,您可以从数据中进行分析,您仍然需要统计信息来了解根据分析做出的预测或决策的有效性。
我的观点是,尽管各字段之间有很多重叠之处,但也存在一些关键差异。一般而言,统计学专业的学生(学历较高)比信息学的学生学习更多的理论课(数学和数学统计),但是信息学的学生会在计算(尤其是数据库部分)方面学到更多。
开发新的统计测试将比统计学家更多地落在统计学家身上,但为用户设计一个用于输入数据,生成表格和图表的界面将比统计学家更多地落在统计学家面前。
对于统计学家来说,计算机是帮助统计的工具。对信息学家来说,统计数据是一种帮助收集和分发信息的工具(通常是通过计算机)。
在这里编辑以下-----
举例来说,这里是一个例子。我曾与信息专家(我是统计学家)合作开展过一些项目,在该项目中,一名医生希望拥有一个系统,该系统使用有关患者的信息来预测其某些状况的风险(例如,形成血凝块),并希望获得某种形式的提醒他们有关风险。我在项目中的角色(统计学家的角色)是开发一个模型,该模型可以在给定预测变量的情况下预测风险(逻辑回归模型就是这样一种模型)。该项目中的信息学家的作用是开发收集预测变量的工具,对这些变量使用我的模型,然后将结果发送给医生。可以从电子病历或通过数据输入屏幕收集数据,以供护士填写或其他。
现在,我(和许多其他统计学家)对程序的了解足够多,可以查询数据库以获取预测变量并创建某种类型的警报,但我很乐意将其留给信息学家(无论如何他们还是比较擅长)。有信息学家知道足够的统计数据以适合逻辑回归模型。因此,该项目的简单版本只能由统计学家或信息专家完成,但最好是两者一起工作。如果您查看此项目,并认为建模部分是有趣的部分,并且数据收集,警报和其他界面只是将信息移入模型或从模型移出信息的工具,那么您更像是统计学家。如果您看到设计界面,优化数据检索,测试不同类型的警报等。
统计数据推断;情报工作的数据。它们当然会重叠,但是范围更大的问题没有答案。