Questions tagged «terminology»

统计中特定技术用语/概念的用法和含义。

15
什么是数据科学家?
最近从我的统计学博士课程毕业后,我在过去的几个月里开始寻找统计学领域的工作。我考虑的几乎每家公司都有一份工作职位,职位名称为“ 数据科学家 ”。实际上,看到统计科学家或统计学家职位的日子早已一去不复返了。曾经是一名数据科学家真的取代了统计学家吗?还是我想知道这些称谓的代名词? 好吧,大多数工作资格证明都像统计学家的头衔一样。大多数工作都希望获得统计学博士学位(),最需要的理解实验设计(),线性回归和方差分析(),广义线性模型()以及其他多元方法,例如PCA() ,以及统计计算环境(例如R或SAS )中的知识()。听起来数据科学家实际上只是统计学家的代号。✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark 但是,每次面试时我都会问一个问题:“那么,您是否熟悉机器学习算法?” 通常,我发现自己不得不尝试回答有关大数据,高性能计算以及神经网络,CART,支持向量机,增强树,无监督模型等主题的问题。当然,我确信自己都是这些有关统计问题的内心深处,但是在每次面试结束时,我都忍不住对数据科学家的了解越来越少。 我是统计学家,但我是数据科学家吗?我致力于科学问题,所以我必须成为一名科学家!而且我还处理数据,所以我必须是一名数据科学家!根据Wikipedia的说法,大多数学者都会同意我的观点(https://en.wikipedia.org/wiki/Data_science等) 尽管在业务环境中使用了“数据科学”一词,但许多学者和新闻工作者认为数据科学和统计数据之间没有区别。 但是,如果我要在所有这些工作面试中担任数据科学家职位,为什么感觉他们从来没有问过我统计问题? 在上次面试之后,我确实希望任何优秀的科学家都能做得到,并且我寻找了解决该问题的数据(嘿,我毕竟是数据科学家)。但是,在经过无数次Google搜索之后,我终于回到了开始的感觉,好像我再次在努力解决数据科学家的定义。我不知道一个数据科学家是究竟是什么,因为有它的定义这么多,(http://blog.udacity.com/2014/11/data-science-job-skills.html,HTTP:// WWW -01.ibm.com/software/data/infosphere/data-scientist/),但似乎每个人都在告诉我我想成为一个: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL 等等...清单继续。 归根结底,我想出的是“什么是数据科学家”是一个很难回答的问题。哎呀,在Amstat有整整两个月的时间,他们花时间试图回答这个问题: http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/ http://magazine.amstat.org/blog/2015/11/01/statnews2015/ 好了,现在,我必须成为一名性感的统计学家才能成为数据科学家,但希望经过交叉验证的社区可能能够阐明一些观点,并帮助我理解成为数据科学家的意义。并非所有的统计学家都是数据科学家吗? (编辑/更新) 我认为这可能使谈话变得有趣。我刚刚收到美国统计协会的一封电子邮件,内容涉及与Microsoft寻找数据科学家的职位。这里是链接:数据科学家职位。我认为这很有趣,因为该职位的角色影响了我们一直在谈论的许多特定特征,但是我认为其中许多特征需要非常严格的统计背景,并且与下面发布的许多答案相矛盾。万一链接失效,以下是微软在数据科学家中寻求的素质: 核心工作要求和技能: 使用Analytics的业务领域经验 必须具有多个相关业务领域的经验,需要运用批判性思维技能来使用大型现实业务数据集中的高级分析概念化复杂的业务问题及其解决方案 候选人必须能够独立运行分析项目,并帮助我们的内部客户了解调查结果,并将其转化为行动以使他们的业务受益。 预测建模 跨行业的预测建模经验 与客户进行业务问题定义和概念建模,以引起重要的关系并定义系统范围 统计/计量经济学 对连续和分类数据进行探索性数据分析 针对企业和消费者行为,生产成本,要素需求,离散选择以及其他需要的技术关系的结构模型方程的规范和估计 先进的统计技术可分析连续和分类数据 时间序列分析和预测模型的实现 处理多变量问题的知识和经验 评估模型正确性和进行诊断测试的能力 能够解释统计数据或经济模型 建立离散事件仿真和动态仿真模型的知识和经验 数据管理 熟悉使用T-SQL和分析进行数据转换以及将探索性数据分析技术应用于非常大的实际数据集 注意数据完整性,包括数据冗余,数据准确性,异常或极端值,数据交互和缺失值。 沟通与合作技巧 独立工作并能够与虚拟项目团队合作,该团队将研究创新的解决方案以解决业务难题 与合作伙伴合作,运用批判性思维技能,并推动端到端的分析项目 出色的口头和书面沟通能力 …

4
神经网络中的批量大小是多少?
我正在使用Python Keras package神经网络。这是链接。是batch_size等于测试样品的数量?从维基百科,我们可以获得以下信息: 但是,在其他情况下,求和梯度可能需要对所有求和函数的梯度进行昂贵的求值。当训练集庞大且不存在简单公式时,评估梯度之和变得非常昂贵,因为评估梯度需要评估所有求和函数的梯度。为了节省每次迭代的计算成本,随机梯度下降在每一步都采样了求和函数的子集。这在大规模机器学习问题的情况下非常有效。 以上信息描述的是测试数据?这与batch_sizekeras中相同(每个梯度更新的样本数)吗?

16
哪些误用的统计术语值得纠正?
统计无处不在;但是,统计术语的常用用法通常不清楚。 尽管概率和赔率的定义明确且数学表达式不同,但它们在普通英语中可以互换使用。 在乳房X线检查为阳性的情况下,没有将可能性一词与概率从常规上分开会使医师试图量化乳腺癌的概率感到困惑,“哦,这是胡说。我做不到 你应该测试我的女儿;她正在学习医学。” 同样地,传播是使用相关而不是关联。或相关性暗示因果关系。 在戈尔的纪录片著名难以忽视的真相,幻灯片说明了相关冰芯的和温度,使更多的技术工作,以证明因果关系进行讨论:CO2CO2\small \text{CO}_2 问题:在不严格使用数学的情况下,哪些统计术语会引起解释问题,因此值得纠正吗?
103 terminology 



11
线性回归何时应称为“机器学习”?
在最近的一次座谈会上,发言人的摘要声称他们正在使用机器学习。在谈话中,与机器学习有关的唯一事情是他们对数据进行线性回归。在计算5D参数空间中的最佳拟合系数后,他们将一个系统中的这些系数与其他系统中的最佳拟合系数进行了比较。 什么时候是线性回归机器学习,而不是简单地找到一条最佳拟合线?(研究人员的摘要是否引起误解?) 机器学习近来引起了人们的广泛关注,因此做出这样的区分似乎很重要。 我的问题与此类似,只是该问题要求定义“线性回归”,而我的问题是何时将线性回归(具有广泛的应用)适当地称为“机器学习”。 澄清说明 我不是在问线性回归何时与机器学习相同。正如某些人指出的那样,单一算法并不构成研究领域。我问一个人使用的算法只是线性回归时,是在说机器学习是正确的。 撇开所有笑话(见评论),我问这的原因之一是因为不道德地说一个人正在做机器学习,如果他们不是真正在做机器学习,那么就在您的名字上加一些金星。(许多科学家计算某些类型的工作最佳拟合线的,但这并不意味着他们正在做机器学习)。在另一方面,也有清楚的情况下,当线性回归被用作机器学习的一部分。我正在寻找专家来帮助我对这些情况进行分类。;-)

30
有没有办法记住类型I和类型II错误的定义?
我不是受过教育的统计学家,而是软件工程师。然而统计数字很多。实际上,在我参加认证软件开发助理考试的过程中,很多关于类型I和类型II错误的问题出现了很多(数学和统计学占考试的10%)。我总是很难为I型和II型错误提出正确的定义-尽管我现在正在记住它们(并且大多数时间都可以记住它们),但我真的不想冻结这次考试试图记住有什么区别。 我知道类型I错误是假阳性,或者当您拒绝原假设时它是真的,而类型II错误是假否定,或者当您接受原假设并且它实际上是假时。 是否有一种简单的方法来记住区别是什么,例如助记符?专业统计学家如何做到这一点-他们只是通过经常使用或讨论而了解到什么? (旁注:这个问题可能可以使用一些更好的标签。我想要创建的一个标签是“术语”,但是我没有足够的声誉来做到这一点。如果有人可以添加它,那就太好了。谢谢。)

5
“封闭式解决方案”是什么意思?
我经常碰到“封闭式解决方案”一词。封闭式解决方案是什么意思?如何确定一个给定问题的封闭式解决方案?在网上搜索时,我发现了一些信息,但是在开发统计或概率模型/解决方案的过程中却找不到任何信息。 我对回归非常了解,因此,如果任何人都可以参考回归或模型拟合来解释这一概念,那么它将很容易使用。:)



9
计量经济学与其他统计领域之间在哲学,方法论和术语上的主要区别是什么?
计量经济学与传统统计学有很大的重叠,但是经常使用它自己的术语来表示各种主题(“标识”,“外生”等)。我曾经听过另一领域的一位应用统计学教授的评论,该术语经常是不同的,但是概念是相同的。但是它也有自己的方法和哲学上的区别(想到了赫克曼的著名论文)。 计量经济学与主流统计之间存在哪些术语差异?这些领域在哪些方面会发生变化,而不仅仅是术语?

4
概率分布的“矩”又是什么“矩”?
我知道什么是矩,如何计算矩,以及如何使用矩生成函数获取高阶矩。是的,我知道数学。 现在,我需要润滑工作中的统计知识,我想我也应该问这个问题-困扰我大约几年了,回到大学后,没有教授知道答案,或者只是拒绝回答这个问题(诚实地) 。 那么“矩”一词在这种情况下是什么意思?为什么选择这个词?对我来说,这听起来不直观(或者我从没在大学时就这么听过:)想到它,我同样对它在“惯性矩”中的用法感到好奇;)但让我们暂时不关注它。 因此,分布的“时刻”是什么意思,它试图做什么,以及为什么要这样说!:)为什么有人在乎时刻?在这一刻,我对那一刻感到不舒服;) PS:是的,我可能也曾问过类似的方差问题,但我确实很重视直观的理解,而不是“在书中查找以找出问题” :)




By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.