什么是分类或定性变量汇总统计?


18

为了澄清,当我指的是摘要统计量时,我指的是均值,四分位数中位数范围,方差,标准差。

在归纳分类或定性的单变量时,考虑标称序数情况,找到其均值,中位数,四分位数范围,方差和标准偏差是否有意义?

如果是这样,则与汇总连续变量不同吗?如何?


2
除术语之一外,我几乎看不到分类变量和定性变量之间的任何区别。无论如何,要在名义变量(例如,头发的颜色)上计算平均值或SD之类的值将非常困难。也许您正在考虑按顺序排列的类别变量?
chl 2012年

不,如果分类数据具有顺序或等级,则根据此网站,它们被称为“序数”:[ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat],它说:“您可以计数和顺序,但不能衡量顺序数据”
chutsu 2012年

但是我错了吗?
chutsu 2012年

Answers:


8

通常,答案是否定的。但是,有人可能会争辩说,您可以采用序数数据的中位数,但是您当然会使用类别作为中位数,而不是数字。中位数将数据平均划分:上方一半,下方一半。顺序数据仅取决于顺序。

此外,在某些情况下,可以将顺序设为粗略的间隔等级数据。当对序数数据进行分组时,这是正确的(例如,经常以这种方式询问有关收入的问题)。在这种情况下,您可以找到一个精确的中位数,并且您可以近似其他值,尤其是在指定了上下限的情况下:您可以在每个类别中假设某种分布(例如,均匀)。可以间隔的序数数据的另一种情况是,当级别被赋予数值等效项时。例如:从不(0%),有时(10-30%),大约一半时间(50%),依此类推。

再次引用大卫·考克斯(David Cox):

没有常规的统计问题,只有可疑的统计常规


1
您提供了很好的相关信息,但是我认为在回答chl问题时,OP明确表示他正在谈论非顺序的分类数据。因此,您的回答确实不是一个回答,但我不是愿意拒绝的人。但我确实认为您应该将其更改为评论。
Michael R. Chernick

1
不,我不会拒绝答案,因为我确实认为答案为我的有限理解增加了一些价值。我应该在说明中明确指出,我同时考虑了“序数摘要”和“名义摘要”统计信息,所以这是我的错。
chutsu 2012年

5

如前所述,平均值,标准差和铰接点对分类数据没有意义。铰链点(例如,中位数和四分位数)可能对序数数据有意义。您的标题还询问应使用哪些摘要统计量来描述分类数据。通过计数和百分比来表征分类数据是标准的。(您可能还希望在百分比周围加上95%的置信区间。)例如,如果您的数据是:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

您可以像这样总结它们:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

如果您具有名义变量,则没有排序或距离函数。那么,如何定义您提到的任何摘要统计信息?我认为你不能。四分位数和范围至少需要排序,均值和方差至少需要数字数据。我认为条形图和饼形图是总结非序数定性变量的正确方法的典型示例。


3
@PeterFlom我的观点不是列出所有用于定性数据汇总的图形化程序。我真的想强调,可以比较的确实是比例,比例在各个类别之间的分配方式。为了直观地识别比例差异,我认为条形图比饼图更易于可视化,但是它们只是汇总分类数据的两种流行方法。我不想说它们是最好的,因为我对所有可用的方法都不熟悉。
Michael R. Chernick

7
他们当然很受欢迎!但是,我认为作为饼图专家,这是我们的责任之一,是使饼图不那么受欢迎。
彼得·弗洛姆

3
克里夫兰首先表明,人们在感知角度测量方面比线性距离更差。其次,更改饼图中的颜色会改变人们对切片大小的看法。第三,旋转饼图改变了人们对切片大小的看法。第四,人们很难将切片从大到小排序,除非它们的大小非常不同。克利夫兰点图避免了所有这些情况。
彼得·弗洛姆

6
@Michael“一个表几乎总是比一个愚蠢的饼图更好;唯一不及饼图的设计是其中的几个……永远不要使用饼图。” --Tufte。“可以由饼图显示的数据始终可以由点图显示。...在1920年代,JASA页面上发生了一场关于饼图和分隔条形图的相对优点的斗争……两个阵营都因为其他图形的效果远胜于分开的条形图或饼图。”-克利夫兰。如您所知,克利夫兰并不是规定性的:这与他所做的一切一样强大。
ub

6
顺便说一句,@ Michael,我确实同意您以及您在此主题中所做的论点(我认为这令人信服并且表达得很好),但作为主持人,我必须传达社区成员对“语音基调”表达的强烈反对意见。您正在采用。请遵循网站的礼节:坚守主题,不要攻击他人。即使开玩笑,也不要写听起来像是攻击的东西。当然,每个人都有同样的忠告。
ub

2

模式仍然有效!这不是重要的摘要统计信息吗?(最常见的类别是什么?)我认为中位数建议作为统计数据几乎没有价值,但该模式却没有。

同样算得上是有价值的。(您有几类?)

您可以创建比率,例如(最常见的类别)/(最不常见的类别)或(#1最常见的类别)/(#2最常见的类别)。同样(最常见的类别)/(所有其他类别),例如80/20规则。

您还可以为类别分配数字,并获取所有常规统计信息。AA = 1,Hisp = 2,依此类推。现在您可以计算均值,中位数,众数,SD等。


0

我确实很欣赏其他答案,但是在我看来,某些拓扑背景会为响应提供非常需要的结构。

定义

让我们从建立域的定义开始:

  • 类别变量是其域中包含元素的变量,但是它们之间没有已知的关系(因此我们只有类别)。示例取决于上下文,但是我要说的是,一般情况下,很难比较一周中的几天:如果星期一在星期日之前,如果是的话,下星期一呢?一件衣服也许是一个更简单但使用较少的示例:在没有提供某种顺序意义的上下文的情况下,很难说裤子是在跳线之前出现的,反之亦然。

  • 序数变量是在域上定义了顺序的变量,即对于域的每两个元素,我们可以说它们是相同的,或者一个大于另一个。甲李克特规模是一个定序变量的定义的一个很好的例子。“稍微同意”肯定比“强烈同意”更接近“强烈同意”。

  • interval变量是一个变量,其域定义元素之间的距离(度量),因此允许我们定义间隔。

域示例

作为我们最常用的集合,自然数实数具有标准的总阶数和度量。这就是为什么在为类别分配数字时需要格外小心的原因。如果我们不小心忽略顺序和距离,则实际上将分类数据转换为间隔数据。当人们在不知道机器学习算法如何工作的情况下使用机器学习算法时,就有可能不情愿地做出这样的假设,从而有可能使自己的结果无效。例如,最流行的深度学习算法利用实数来利用它们的间隔和连续属性。再举一个例子,考虑一下5点Likert量表,以及我们对它们进行的分析如何假设强烈同意同意之间的距离。等同于反对既不同意也不反对。这种关系很难成立。

我们经常使用的另一组是字符串。使用字符串时,有许多字符串相似性度量指标会派上用场。但是,这些并不总是有用的。例如,对于地址,在字符串相似性方面,约翰史密斯街和约翰史密斯路非常接近,但是显然代表了两个相距遥远的不同实体。

摘要统计

好的,现在让我们看看一些汇总统计信息如何适合这一点。由于统计信息可以与数字一起使用,因此可以在一定间隔内很好地定义其功能。但是,让我们看一下有关如何/如何将其归纳为分类或有序数据的示例:

  • 模式 -使用分类数据和有序数据时,我们都可以判断出最常使用哪个元素。所以我们有这个。然后,我们还可以导出@Maddenker在其答案中列出的所有其他度量。@gung的置信区间也可能很有用。
  • 中位数 -正如@ peter-flom所说,只要您有订单,就可以得出中位数。
  • 均值,还有标准偏差,百分位数等-由于需要距离度量,因此只能通过间隔数据获得这些值。

数据上下文示例

最后,我想再次强调一下,您在数据上定义的顺序和指标是非常相关的。现在,这应该很明显,但是让我给你一个最后的例子:在处理地理位置时,我们有很多不同的方法来处理它们:

  • 如果我们对它们之间的距离感兴趣,则可以使用它们的地理位置,这基本上为我们提供了二维数值空间,即间隔。
  • 如果我们对他们之间关系感兴趣,我们可以定义总顺序(例如,一条街道是一个城市的一部分,两个城市相等,一个大陆包含一个国家)
  • 如果我们对两个字符串是否代表相同的地址感兴趣,我们可以使用一定的字符串距离,以容许拼写错误和单词交换位置,但要确保区分不同的术语和名称。这不是一件容易的事,而只是为了说明理由。
  • 还有很多其他用例,我们每个人每天都会遇到,而这些都没有道理。在其中一些中,除了将地址视为不同的类别外,别无所要做,而在其他情况中,则归结为非常智能的数据建模和预处理。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.