Questions tagged «descriptive-statistics»

描述性统计总结了样本的特征,例如均值和标准差,中位数和四分位数,最大值和最小值。具有多个变量,可能包括相关性和交叉表。可以包括视觉显示-箱线图,直方图,散点图等。

5
我们应该在应用统计学课程中教授峰度吗?如果是这样,怎么办?
至少在直观的基础上,可以相对较好地定义中心趋势,散布和偏斜;这些事物的标准数学度量也相对符合我们的直觉概念。但是峰度似乎有所不同。这非常令人困惑,并且与关于分布形状的任何直觉都不太匹配。 应用环境中峰度的典型解释是使用Microsoft Excel [ 1 ]从商业和管理应用统计中摘录的内容:[1][1]^{[1]} 峰度是指分布的峰值程度或相反的平坦度。如果尾部的数据值多于正态分布的期望值,则峰度为正。相反,如果尾部的数据值少于正态分布中的预期,则峰度为负。除非您至少有四个数据值,否则Excel无法计算此统计信息。 除了“峰度”和“峰度过高”(在本书中,通常使用前者指其他作者称为后者)之间的混淆之外,还用“峰度”或“平坦度”来解释。然后将注意力转移到尾部有多少个数据项上。同时考虑“峰”和“尾”是必要的— Kaplansky [ 2 ][2][2]^{[2]}1945年抱怨说,当时的许多教科书错误地指出峰度与分配峰相比正常分布峰有多高有关,而没有考虑尾部。但是显然必须同时考虑峰的顶部和尾部的形状,这使得直觉更难掌握,上面引述的摘录通过将尾部的峰度和重度相提并论,好像这些概念相同,从而跳过了这一点。 此外,对峰度的这种经典的“峰尾”解释仅适用于对称和单峰分布(实际上,该文本中所示的示例都是对称的)。然而,解释峰度的“正确”通用方法,无论是用“峰”,“尾巴”还是“肩”,都已经争议了数十年。[ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ][2][3][4][5][6][2][3][4][5][6]^{[2][3][4][5][6]} 是否有一种直观的方法来在应用的环境中教授峰度,当采用更严格的方法时不会出现矛盾或反例?在这类应用数据分析课程中,峰度甚至在数学统计课中都什至是一个有用的概念吗?如果分布的“峰值”是一个直观上有用的概念,我们是否应该通过L矩[ 7 ]来教授它?[7][7]^{[7]} [1][1][1] Herkenhoff,L.和Fogli,J.(2013)。使用Microsoft Excel进行业务和管理的应用统计。纽约,纽约:施普林格。 [2][2][2]卡普兰斯基,I。(1945)。“有关峰度的常见错误”。 美国统计协会杂志,40(230):259。 [3][3][3]达林顿,理查德·B(1970)。“峰变真的是'峰顶'吗?”。美国统计学家 24(2):19-22 [4][4][4]摩尔,JJA。(1986)“峰度的含义:达林顿重新审查”。美国统计学家 40(4):283–284 [5][5][5] Balanda,Kevin P.和MacGillivray,HL(1988年)。“ 峰度:评论综述”。美国统计学家 42(2):111–119 [6][6][6] DeCarlo,LT(1997)。“ 关于峰度的含义和使用 ”。心理方法,2(3),292。芝加哥 [7][7][7] Hosking,JRM(1992)。“矩还是L矩?比较两个分布形状量度的示例”。美国统计学家46(3):186–189


4
根据统计信息做出错误决策的战争故事?
我认为可以说统计学是一门应用科学,因此在计算平均值和标准差时,是因为有人希望根据这些数字做出一些决策。 作为一名出色的统计学家,我希望能够“感知”何时可以信任样本数据,以及何时某些统计测试完全歪曲了我们感兴趣的真实数据。成为对分析感兴趣的程序员大数据集我正在学习一些统计数据和概率论,但我无法摆脱这种this的感觉,即我看过的所有书都像是政客,登上舞台,讲了很多话,然后追加演讲结束时的以下免责声明: 现在,我并不是说这是好事还是坏事,但是数字表明这很好,所以无论如何您都应该投票支持我。 也许您明白了,但您可能没有,这是一个问题。我该去哪里找统计学家的战争故事,而他们的决策是基于某些统计信息的,后来又证明是完全错误的?

1
如何理解相关系数公式?
谁能帮助我了解Pearson相关公式?样本 =变量和的标准分数的乘积平均值。rrrXXXYYY 我有点理解为什么他们需要对和进行标准化,但是如何理解z得分的乘积呢? XXXYYY 该公式也称为“产品-时刻相关系数”,但是产品作用的原理是什么?我不确定是否已经明确说明了我的问题,但是我只想直观地记住该公式。

6
更重要的统计数据是:“所有妇女中90%幸存”或“所有妇女中90%是妇女”?
考虑以下有关泰坦尼克号的陈述: 假设1:只有男人和女人在船上 假设2:有很多男人和女人 陈述1:90%的妇女幸存 陈述2:在所有幸存者中,有90%是女性 第一个表明,挽救妇女可能是重中之重(无论是否挽救男性) 第二种统计数据什么时候有用? 我们可以说其中一个几乎总是比另一个有用吗?

1
我们什么时候使用密义数字和中间数字而不是分位数和中间数字?
我无法在Wikipedia或Wolfram Mathworld上找到密义或中间的定义,但是在Bílková,D.和Mala,I.(2012),“ 对收入分配建模时应用L-矩方法的应用 ”中给出了以下解释在捷克共和国 ”,奥地利统计杂志,第41卷第 2期,第125-132页。 中间值为(样本)的密不可分值,就像样本中位数等于样本分位数)的值一样。样品密实度以及样品分位数均基于订购的样品。首先,对有序样本中观测值的累积总和进行评估。然后,对于给定的百分比,,将零位定义为分析变量的值,该变量将有序样本中的所有观测值分为两部分:较小或相等的观测值之和为占总观测值的,大于总观测值的表示该总和的剩余。50 %p 0 &lt; p &lt; 100 p %p %(100 - p )%50%50%50\%50%50%50\%ppp0&lt;p&lt;1000&lt;p&lt;1000<p<100p%p%p\%p%p%p\%(100−p)%(100−p)%(100-p)\% 什么时候将这些用作位置度量而不是更常规的中位数或其他分位数有意义?该论文给出了一种可能的情况,即家庭收入: 从这个定义可以得出,中间收入可以用作收入水平的合理特征,因为收入较低或等于中间收入的家庭将获得样本中总收入的一半,收入较高的家庭比接受另一半的内侧 在这种情况下,发现家庭收入中位数为117,497 捷克克朗(即,有一半家庭的收入高于该水平,另一半家庭的收入高于上述水平),而家庭中位收入为133,930捷克克朗(收入高于该数字的家庭则获得了一半的收入)总收入)。请注意,这种比较并不一定反映家庭收入的偏度,甚至不一定是其不均匀性:即使家庭收入是均匀分配的,中位数仍将高于中位数。据我了解的定义,如果所有家庭都获得相同的收入,则中位数将仅等于中位数。 那么,在这种情况下,是否有任何特定的原因更喜欢内侧,或者至少将其用作辅助措施?中位数和中位数之间的比较究竟告诉我们什么?出于我刚刚指出的原因,中间似乎并不能直接与其他集中趋势指标相提并论。在其他情况下,中间/义齿是否被广泛使用或被视为特别有用?在样本研究论文中使用它们的实际例子将是非常受欢迎的,而在更广泛的背景下直观证明它们可能有用的想法会更好。 它必须要求总计和小计是有意义的-似乎与金钱有关的东西,以及“饼”的分配方式-但即使加法动作也仅对某些数量有意义。对于密集而不是广泛的属性(例如密度或温度),任何形式的求和在物理上都是没有意义的。在我看来,广泛的属性是必要的,但不足以使密宗有所帮助,因为我可以想象一位运输分析师对所运送的货物的重量有限制,因此所有货物(按重量计)的50%它承载的重量等于或大于此重量,但我无法想象生态学家会对new的长度感兴趣,以至于所有new的总长度的50%是由该长度或更长的new贡献的。

5
有没有衡量传播“均匀性”的方法?
我在网上查找,但找不到任何有用的信息。 我基本上是在寻找一种衡量值的“平均”分配方式的方法。例如,X的“均匀”分布分布: 均值和标准差大致相同的“不均匀”分布Y: 但是,是否有任何均匀性度量m使得m(X)&gt; m(Y)?如果没有,那么创建这种度量的最佳方法是什么? (图片来自可汗学院的屏幕截图)

1
Karl Pearson是如何得出卡方统计量的?
培生(Pearson)是如何在1900年得出以下培生(Pearson)卡方统计量的? K=∑(Oij−Eij)2EijK=∑(Oij−Eij)2Eij K = \sum \frac{(O_{ij} -E_{ij})^2}{E_{ij}} 即 K∼χ2K∼χ2 K \sim \chi^2 他是否考虑过卡方并设计度量(自下而上的方法),还是他设计了统计量,后来证明它遵循卡方分布(自上而下)?KKK 我想知道为什么他选择了这种特定形式,而不选择或,以及他为什么将平方除以分母。∑(Oij−Eij)2∑(Oij−Eij)2\sum(O_{ij} -E_{ij})^2∑|Oij−Eij|∑|Oij−Eij|\sum|O_{ij} -E_{ij}|



4
绘制小样本
我有一个单独的14次小数据集来完成一项任务。但是,我很难找到合适的图形来绘制数据。如果样本较大,我将使用箱形图或直方图,但是如果样本如此小,我不确定在这种情况下是否适合使用。 更新:时间是5.2、3.9、5.6、4.2、3.8、4.1、6.0、5.6、4.4、4.5、4.9、4.5、4.9、4.2

3
衡量结块的标准方法?
我有很多数据,我想做一些看起来很简单的事情。在大量数据中,我对特定元素的聚集量感兴趣。假设我的数据是这样的有序集合:{A,C,B,D,A,Z,T,C ...}。假设我想知道A是否趋于彼此相邻,而不是随机(或更均匀)分布在整个集合中。这就是我所说的“笨拙”属性。 现在,是否有一些简单的数据“堆积”度量方法?也就是说,一些统计信息将告诉我距离随机分布的距离有多远?如果没有简单的方法可以做到,那么困难的方法大概是什么?任何指针,不胜感激!

2
用于学习统计数据,练习(带有解决方案)的在线资源?
我目前在我的大学担任统计学入门课程(面向医学生)的助教。 在离线状态下,有很多书籍可以帮助老师。但是,我有兴趣知道的是,您是否可以引导我进入提供统计活动(包括解决方案)的任何(良好)资源,这些资源可以在线获取?(例如:教师注释)。 主题材料的范围可以在描述性统计,概率和参数/非参数统计推断之间。

4
如何总结分类数据?
我一直在为以下问题而苦苦挣扎,希望对统计学家来说这是一个简单的问题(我是一个有统计学知识的程序员)。 我需要总结对调查的答复(用于管理)。该调查有100多个问题,分为不同区域(每个区域约5到10个问题)。所有答案都是分类的(按顺序,它们就像“一点也不”,“很少” ...“每天或更频繁”)。 管理层希望获得每个领域的摘要,这是我的问题:如何在相关问题中汇总分类答案?。问题太多了,无法为每个区域绘制图形甚至是格子图。与数字表相比,如果可能的话,我更喜欢采用视觉方法(例如,数字表不会读取)。 我唯一能想到的是计算每个区域中答案的数量,然后绘制直方图。 还有其他可用于分类数据的东西吗? 我使用R,但不确定是否相关,我觉得这更像是一个一般的统计问题。

1
如何找到95%的可信区间?
我正在尝试计算以下后验分布的95%可信区间。我找不到R中的函数,但是下面的方法正确吗? x &lt;- seq(0.4,12,0.4) px &lt;- c(0,0, 0, 0, 0, 0, 0.0002, 0.0037, 0.018, 0.06, 0.22 ,0.43, 0.64,0.7579, 0.7870, 0.72, 0.555, 0.37, 0.24, 0.11, 0.07, 0.02, 0.009, 0.005, 0.0001, 0,0.0002, 0, 0, 0) plot(x,px, type="l") mm &lt;- sum(x*px)/sum(px) var &lt;- (sum((x)^2*px)/sum(px)) - (mm^2) cat("95% credible interval: ", round(mm -1.96*sqrt(var),3), "-", …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.