如何总结分类数据?


13

我一直在为以下问题而苦苦挣扎,希望对统计学家来说这是一个简单的问题(我是一个有统计学知识的程序员)。

我需要总结对调查的答复(用于管理)。该调查有100多个问题,分为不同区域(每个区域约5到10个问题)。所有答案都是分类的(按顺序,它们就像“一点也不”,“很少” ...“每天或更频繁”)。

管理层希望获得每个领域的摘要,这是我的问题:如何在相关问题中汇总分类答案?。问题太多了,无法为每个区域绘制图形甚至是格子图。与数字表相比,如果可能的话,我更喜欢采用视觉方法(例如,数字表不会读取)。

我唯一能想到的是计算每个区域中答案的数量,然后绘制直方图。

还有其他可用于分类数据的东西吗?

我使用R,但不确定是否相关,我觉得这更像是一个一般的统计问题。


PCA / FA呢?您会将相关变量缩小为因子,然后从那里开始工作……
RomanLuštrik,2010年

如果管理层问“您如何获得汇总数字?”,这可能太多了。他们需要一种更简单的技术,以便他们(可以)理解它。
las

Answers:


10

您确实需要弄清楚您要回答的问题是什么,或者管理层最感兴趣的问题是什么。然后您可以选择与您的问题最相关的调查问题。

在不了解问题或数据集的情况下,这里有一些通用的解决方案:

  • 直观地将答案表示为群集。我最喜欢的是通过使用树状图或仅在xy轴上绘制(Google“集群分析r”并通过statmethods.net转到第一个结果)
  • 将问题从“每天或更频繁”的回答中排列到最小。这个示例可能并不完全适合您,但也许会启发您http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • 交叉表:例如,如果您有一个问题“您多久来一次上班?” 和“您多久使用一次Facebook?”,通过交叉标记这两个问题,可以找出很少同时使用或每天都使用的用户所占的百分比。(Google“ r frequency crosstabs”或访问上述statmethods.net )
  • 相关图。我没有这些经验,但我也在statmethods.net网站上看​​到了。基本上,您会找到相关性最高的问题,然后创建一个表格。尽管看起来有点“忙”,但您可能会发现它很有用。

我将其标记为答案;其中有几个很好的建议,所以我会考虑如何应用它们。
wishihadabettername


8

标准选项包括:

  • 获取小数位数内项目的均值(例如,如果小数位数为1到5,则平均值为1到5)
  • 将每个项目转换为二进制度量(例如,如果项目> = 3,则为1,否则为0),然后取该二进制响应的平均值

鉴于您正在汇总组织中的项目和大量人员,以上两个选项(即1到5的平均值或高于某个点的百分比的平均值)在组织级别都是可靠的(请参见此处)进一步讨论)。因此,以上任一选项基本上都在传达相同的信息。

总的来说,我不会担心项目是分类的。到您先汇总各个项目然后再汇总受访者样本来创建比例时,该比例将非常接近于连续比例。

管理层可能会发现一个易于解释的指标。当我获得教学质量得分(即,例如100名学生的平均学生满意度得分)时,这是1-5分的平均值,这很好。多年以来,在我逐年查看自己的成绩并了解大学的一些规范之后,我已经为不同的价值观意味着什么制定了参考框架。但是,管理层有时倾向于考虑赞同某项声明的百分比,或者是积极回应的百分比,即使在某种意义上是平均百分比。

主要的挑战是为分数提供一些切实的参考框架。管理层将想知道这些数字的实际含义。例如,如果一个量表的平均响应为4.2,那是什么意思?好吗?不好吗 可以吗

如果您在多年或不同组织中使用调查,则可以开始制定一些规范。获得规范是组织经常获得外部调查提供者或使用标准调查的原因之一。

您可能还希望进行因子分析,以验证按比例分配项目是合理的。

就可视化方法而言,您可以使用简单的折线图或条形图,在x轴上显示比例类型,在y轴上显示分数。如果您有标准数据,也可以添加。


1

是。我发现聚类是减少数据量的一种非常有效的方法,可以减少用于理解和管理表示的调查数据。

潜在类分析(将响应量表按序处理)或k均值(将它们作为连续量表进行处理)都可以视为信息压缩的一种形式。将受访者归类为最可能的细分受众群通常会产生一个分类变量,当根据响应进行分析时,该变量具有直观的解释。

然后,您可以命名细分,并使用这些变量进行摘要级别的分析和表示。

为一组相关项目(例如,下面)或可能全部合并在一起。

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

我经常使用LatentGold,但是在SAS中找到FASTCLUS是一个很好的方法。

在这样做之前,您将要考虑调整每个人的反应,以适应他们对量表的使用(有争议但务实)。有些人只是靠秤的一端,要么避免消极要么积极。聚集原始响应通常趋向于将人们按行为划分。

标准化每个受访者对自己的平均值的答案,并以此为基础进行聚类,通常会发现以非常有趣的方式一起移动的变量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.