为了澄清,当我指的是摘要统计量时,我指的是均值,四分位数中位数范围,方差,标准差。
在归纳分类或定性的单变量时,考虑标称和序数情况,找到其均值,中位数,四分位数范围,方差和标准偏差是否有意义?
如果是这样,则与汇总连续变量不同吗?如何?
为了澄清,当我指的是摘要统计量时,我指的是均值,四分位数中位数范围,方差,标准差。
在归纳分类或定性的单变量时,考虑标称和序数情况,找到其均值,中位数,四分位数范围,方差和标准偏差是否有意义?
如果是这样,则与汇总连续变量不同吗?如何?
Answers:
通常,答案是否定的。但是,有人可能会争辩说,您可以采用序数数据的中位数,但是您当然会使用类别作为中位数,而不是数字。中位数将数据平均划分:上方一半,下方一半。顺序数据仅取决于顺序。
此外,在某些情况下,可以将顺序设为粗略的间隔等级数据。当对序数数据进行分组时,这是正确的(例如,经常以这种方式询问有关收入的问题)。在这种情况下,您可以找到一个精确的中位数,并且您可以近似其他值,尤其是在指定了上下限的情况下:您可以在每个类别中假设某种分布(例如,均匀)。可以间隔的序数数据的另一种情况是,当级别被赋予数值等效项时。例如:从不(0%),有时(10-30%),大约一半时间(50%),依此类推。
再次引用大卫·考克斯(David Cox):
没有常规的统计问题,只有可疑的统计常规
如前所述,平均值,标准差和铰接点对分类数据没有意义。铰链点(例如,中位数和四分位数)可能对序数数据有意义。您的标题还询问应使用哪些摘要统计量来描述分类数据。通过计数和百分比来表征分类数据是标准的。(您可能还希望在百分比周围加上95%的置信区间。)例如,如果您的数据是:
"Hispanic" "Hispanic" "White" "White"
"White" "White" "African American" "Hispanic"
"White" "White" "White" "other"
"White" "White" "White" "African American"
"Asian"
您可以像这样总结它们:
White 10 (59%)
African American 2 (12%)
Hispanic 3 (18%)
Asian 1 ( 6%)
other 1 ( 6%)
如果您具有名义变量,则没有排序或距离函数。那么,如何定义您提到的任何摘要统计信息?我认为你不能。四分位数和范围至少需要排序,均值和方差至少需要数字数据。我认为条形图和饼形图是总结非序数定性变量的正确方法的典型示例。
我确实很欣赏其他答案,但是在我看来,某些拓扑背景会为响应提供非常需要的结构。
让我们从建立域的定义开始:
类别变量是其域中包含元素的变量,但是它们之间没有已知的关系(因此我们只有类别)。示例取决于上下文,但是我要说的是,一般情况下,很难比较一周中的几天:如果星期一在星期日之前,如果是的话,下星期一呢?一件衣服也许是一个更简单但使用较少的示例:在没有提供某种顺序意义的上下文的情况下,很难说裤子是在跳线之前出现的,反之亦然。
序数变量是在域上定义了总顺序的变量,即对于域的每两个元素,我们可以说它们是相同的,或者一个大于另一个。甲李克特规模是一个定序变量的定义的一个很好的例子。“稍微同意”肯定比“强烈同意”更接近“强烈同意”。
interval变量是一个变量,其域定义元素之间的距离(度量),因此允许我们定义间隔。
作为我们最常用的集合,自然数和实数具有标准的总阶数和度量。这就是为什么在为类别分配数字时需要格外小心的原因。如果我们不小心忽略顺序和距离,则实际上将分类数据转换为间隔数据。当人们在不知道机器学习算法如何工作的情况下使用机器学习算法时,就有可能不情愿地做出这样的假设,从而有可能使自己的结果无效。例如,最流行的深度学习算法利用实数来利用它们的间隔和连续属性。再举一个例子,考虑一下5点Likert量表,以及我们对它们进行的分析如何假设强烈同意和同意之间的距离。等同于反对,既不同意也不反对。这种关系很难成立。
我们经常使用的另一组是字符串。使用字符串时,有许多字符串相似性度量指标会派上用场。但是,这些并不总是有用的。例如,对于地址,在字符串相似性方面,约翰史密斯街和约翰史密斯路非常接近,但是显然代表了两个相距遥远的不同实体。
好的,现在让我们看看一些汇总统计信息如何适合这一点。由于统计信息可以与数字一起使用,因此可以在一定间隔内很好地定义其功能。但是,让我们看一下有关如何/如何将其归纳为分类或有序数据的示例:
最后,我想再次强调一下,您在数据上定义的顺序和指标是非常相关的。现在,这应该很明显,但是让我给你一个最后的例子:在处理地理位置时,我们有很多不同的方法来处理它们: