Questions tagged «definition»

该标签指示有关统计术语定义的问题。对于统计用语中与定义无关的问题,请使用更通用的标签[术语]。

22
为什么要对差值求平方而不是取标准偏差的绝对值?
在标准差的定义中,为什么我们必须对均值之差取平方才能得到均值(E),并在最后取平方根?我们难道不能只是简单地获取差的绝对值,而获得这些差的期望值(均值),这也不能显示数据的变化吗?该数字将与平方方法不同(绝对值方法将更小),但仍应显示数据的传播。有人知道为什么我们将这种方形方法作为标准吗? 标准偏差的定义: σ=E[(X−μ)2]−−−−−−−−−−−√.σ=E[(X−μ)2].\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}. 我们不能只是取绝对值而仍然是一个好的度量吗? σ=E[|X−μ|]σ=E[|X−μ|]\sigma = E\left[|X - \mu|\right]


15
什么是数据科学家?
最近从我的统计学博士课程毕业后,我在过去的几个月里开始寻找统计学领域的工作。我考虑的几乎每家公司都有一份工作职位,职位名称为“ 数据科学家 ”。实际上,看到统计科学家或统计学家职位的日子早已一去不复返了。曾经是一名数据科学家真的取代了统计学家吗?还是我想知道这些称谓的代名词? 好吧,大多数工作资格证明都像统计学家的头衔一样。大多数工作都希望获得统计学博士学位(),最需要的理解实验设计(),线性回归和方差分析(),广义线性模型()以及其他多元方法,例如PCA() ,以及统计计算环境(例如R或SAS )中的知识()。听起来数据科学家实际上只是统计学家的代号。✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark 但是,每次面试时我都会问一个问题:“那么,您是否熟悉机器学习算法?” 通常,我发现自己不得不尝试回答有关大数据,高性能计算以及神经网络,CART,支持向量机,增强树,无监督模型等主题的问题。当然,我确信自己都是这些有关统计问题的内心深处,但是在每次面试结束时,我都忍不住对数据科学家的了解越来越少。 我是统计学家,但我是数据科学家吗?我致力于科学问题,所以我必须成为一名科学家!而且我还处理数据,所以我必须是一名数据科学家!根据Wikipedia的说法,大多数学者都会同意我的观点(https://en.wikipedia.org/wiki/Data_science等) 尽管在业务环境中使用了“数据科学”一词,但许多学者和新闻工作者认为数据科学和统计数据之间没有区别。 但是,如果我要在所有这些工作面试中担任数据科学家职位,为什么感觉他们从来没有问过我统计问题? 在上次面试之后,我确实希望任何优秀的科学家都能做得到,并且我寻找了解决该问题的数据(嘿,我毕竟是数据科学家)。但是,在经过无数次Google搜索之后,我终于回到了开始的感觉,好像我再次在努力解决数据科学家的定义。我不知道一个数据科学家是究竟是什么,因为有它的定义这么多,(http://blog.udacity.com/2014/11/data-science-job-skills.html,HTTP:// WWW -01.ibm.com/software/data/infosphere/data-scientist/),但似乎每个人都在告诉我我想成为一个: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL 等等...清单继续。 归根结底,我想出的是“什么是数据科学家”是一个很难回答的问题。哎呀,在Amstat有整整两个月的时间,他们花时间试图回答这个问题: http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/ http://magazine.amstat.org/blog/2015/11/01/statnews2015/ 好了,现在,我必须成为一名性感的统计学家才能成为数据科学家,但希望经过交叉验证的社区可能能够阐明一些观点,并帮助我理解成为数据科学家的意义。并非所有的统计学家都是数据科学家吗? (编辑/更新) 我认为这可能使谈话变得有趣。我刚刚收到美国统计协会的一封电子邮件,内容涉及与Microsoft寻找数据科学家的职位。这里是链接:数据科学家职位。我认为这很有趣,因为该职位的角色影响了我们一直在谈论的许多特定特征,但是我认为其中许多特征需要非常严格的统计背景,并且与下面发布的许多答案相矛盾。万一链接失效,以下是微软在数据科学家中寻求的素质: 核心工作要求和技能: 使用Analytics的业务领域经验 必须具有多个相关业务领域的经验,需要运用批判性思维技能来使用大型现实业务数据集中的高级分析概念化复杂的业务问题及其解决方案 候选人必须能够独立运行分析项目,并帮助我们的内部客户了解调查结果,并将其转化为行动以使他们的业务受益。 预测建模 跨行业的预测建模经验 与客户进行业务问题定义和概念建模,以引起重要的关系并定义系统范围 统计/计量经济学 对连续和分类数据进行探索性数据分析 针对企业和消费者行为,生产成本,要素需求,离散选择以及其他需要的技术关系的结构模型方程的规范和估计 先进的统计技术可分析连续和分类数据 时间序列分析和预测模型的实现 处理多变量问题的知识和经验 评估模型正确性和进行诊断测试的能力 能够解释统计数据或经济模型 建立离散事件仿真和动态仿真模型的知识和经验 数据管理 熟悉使用T-SQL和分析进行数据转换以及将探索性数据分析技术应用于非常大的实际数据集 注意数据完整性,包括数据冗余,数据准确性,异常或极端值,数据交互和缺失值。 沟通与合作技巧 独立工作并能够与虚拟项目团队合作,该团队将研究创新的解决方案以解决业务难题 与合作伙伴合作,运用批判性思维技能,并推动端到端的分析项目 出色的口头和书面沟通能力 …


11
线性回归何时应称为“机器学习”?
在最近的一次座谈会上,发言人的摘要声称他们正在使用机器学习。在谈话中,与机器学习有关的唯一事情是他们对数据进行线性回归。在计算5D参数空间中的最佳拟合系数后,他们将一个系统中的这些系数与其他系统中的最佳拟合系数进行了比较。 什么时候是线性回归机器学习,而不是简单地找到一条最佳拟合线?(研究人员的摘要是否引起误解?) 机器学习近来引起了人们的广泛关注,因此做出这样的区分似乎很重要。 我的问题与此类似,只是该问题要求定义“线性回归”,而我的问题是何时将线性回归(具有广泛的应用)适当地称为“机器学习”。 澄清说明 我不是在问线性回归何时与机器学习相同。正如某些人指出的那样,单一算法并不构成研究领域。我问一个人使用的算法只是线性回归时,是在说机器学习是正确的。 撇开所有笑话(见评论),我问这的原因之一是因为不道德地说一个人正在做机器学习,如果他们不是真正在做机器学习,那么就在您的名字上加一些金星。(许多科学家计算某些类型的工作最佳拟合线的,但这并不意味着他们正在做机器学习)。在另一方面,也有清楚的情况下,当线性回归被用作机器学习的一部分。我正在寻找专家来帮助我对这些情况进行分类。;-)

9
确切地说,置信区间是多少?
我大致和非正式地知道什么是置信区间。但是,我似乎无法围绕一个相当重要的细节:根据Wikipedia: 置信区间不能预测给定实际获得的数据,参数的真实值具有置信区间内的特定概率。 我还在该站点的多个地方也看到了类似的观点。同样来自维基百科的更正确的定义是: 如果在重复(可能不同)实验的许多单独数据分析中构建置信区间,则包含参数真实值的此类区间的比例将大致与置信度匹配 同样,我在该站点的多个地方也看到了类似的观点。我不明白 如果在重复实验中,包含真实参数的计算出的置信区间的分数为,那么为实际实验计算出的置信区间中的概率怎么可能不是吗?我在寻找以下内容:(1 - α )θ (1 - α )θθ\theta(1−α)(1−α)(1 - \alpha)θθ\theta(1−α)(1−α)(1 - \alpha) 澄清以上错误定义和正确定义之间的区别。 对置信区间的正式,精确的定义,清楚地表明了第一个定义错误的原因。 即使基础模型正确,但第一个定义明显错误的情况的具体示例。



4
什么是对比度矩阵?
什么究竟是对比矩阵(一个术语,关于与分类预测分析),以及如何准确地进行对比矩阵指定?即什么是列,什么是行,对该矩阵的约束是什么,列j和行中的数字i是什么意思?我试图研究文档和网络,但似乎每个人都在使用它,但任何地方都没有定义。我可以对可用的预定义对比进行后向工程,但是我认为没有该定义就应该可用。 > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 0 1 4 -1 -1 -1 > contr.helmert(4) [,1] [,2] [,3] 1 -1 …

8
严格定义离群值?
人们经常谈论处理统计中的异常值。据我所知,困扰我的是,离群值的定义完全是主观的。例如,如果某个随机变量的真实分布非常重尾或是双峰的,则用于检测异常值的任何标准可视化或摘要统计信息都将错误地删除您要从中采样的分布部分。如果存在异常值,那么对异常值的严格定义是什么?如何在不将不合理的主观性引入分析的情况下处理异常值?

3
后验和后验预测分布有什么区别?
我知道什么是后验,但我不确定后者意味着什么? 两者有何不同? 凯文·P·墨菲(Kevin P Murphy)在他的教科书《机器学习:概率论》中指出,这是“一种内部信念状态”。那个的真实意义是什么?我的印象是,先验代表您的内部信念或偏见,我在哪里做错了?

9
估计量和统计量有什么区别?
我了解到统计量是您可以从样本中获得的属性。以许多相同大小的样本为例,为所有样本计算该属性并绘制pdf,得出对应属性的分布或对应统计数据的分布。 我还听说统计数据是用来估算的,这两个概念有何不同?

2
变异与变异相同吗?
这是我在此处进行交叉验证的第一个问题,所以即使看起来很琐碎,也请帮我:-)首先,这个问题可能是语言差异的结果,或者可能是我在统计上确实有缺陷。不过,这里是: 在人口统计中,变异和方差是相同的术语吗?如果没有,两者之间有什么区别? 我知道方差是标准差的平方。我也知道这是衡量数据稀疏程度的一种方法,并且我知道如何计算数据。 但是,我一直在遵循名为“模型思维”的Coursera.org课程,并且讲师清楚地描述了差异,但始终称其为差异。那让我有些困惑。 公平地说,他总是谈论计算种群中某些特定实例的变异。 有人可以告诉我它们是否可以互换,或者我想念什么吗?

17
如何用一句话描述统计?
当我第一次开始学习统计学时,诸如t检验,ANOVA,卡方和线性回归之类的程序似乎都是截然不同的生物。但是现在我意识到这些过程或多或少都在做同一件事。同样,诸如方差,残差,标准误差和均值之类的值也或多或少地衡量了同一件事。 因此,我认为所有这些过程和值以及实际上所有的统计信息都可以用一个简单的句子来描述: 期望值是多少,该值附近有什么变化? 期望这个词可以用以下任何一个词代替:假设的,预测的或中心的。 其他人如何用一句话描述统计数据?
27 definition 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.