快速评估(可视化)R中有序分类数据之间的相关性?


11

我在调查中寻找不同问题的答案之间的相关性(“嗯,让我们看看问题11的答案是否与问题78的答案相关”)。所有答案都是分类的(大多数答案的范围是从“非常不高兴”到“非常高兴”),但是有几个答案却有所不同。它们中的大多数都可以视为序数,因此让我们在这里考虑这种情况。

由于我无权使用商业统计程序,因此必须使用R。

我尝试了Rattle(R的一个免费软件数据挖掘程序包,非常漂亮),但是不幸的是它不支持分类数据。我可以使用的一种技巧是在R中导入具有数字(1..5)的调查的编码版本,而不是“非常不高兴” ...“高兴”,并让Rattle相信它们是数字数据。

我当时想做一个散点图,并且使点的大小与每对数字的数量成正比。经过一番谷歌搜索后,我发现http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/,但是(对我来说)这似乎很复杂。

我不是统计学家(而是程序员),但是对此事有一定的了解,如果我理解正确的话,Spearman的观点是合适的。

因此,对于那些急着想解决问题的人来说,这是一个简短的问题:是否有办法快速将Spearman的rho绘制在R中?图形比数字矩阵更可取,因为它更易于观察,也可以包含在材料中。

先感谢您。

PS我考虑了一段时间,是将其发布在主要的SO网站还是此处。在两个网站上搜索R相关性后,我觉得这个网站更适合这个问题。


2
您听起来像R不如专有软件。:)
RomanLuštrik10年

对我来说,在您的情况下使用皮尔逊积矩矩相关性(假设连续数据)(假设量表上有足够的点而不是不知道中点)听起来是完全合理的。心理学(例如,人格或社会心理学)中的整个领域(成功地)基于这样一个假设,即对一个项目的回答,例如从非常X到非常X的五点(或七点)量表可以是视为连续。另请参见以下线程:stats.stackexchange.com/questions/539/…–
Henrik

@romunov:不确定您如何得到我认为R不如其他软件的印象。但这不是事实。
wishihadabettername

我只是个聪明人。我希望没有难过的感觉。:)
RomanLuštrik2010年

Answers:


19

corrplot软件包提供了另一个很好的相关性可视化,为您提供了以下内容替代文字

这是一个很棒的包装。

也可以在这里查看答案,这可能对您有所帮助。

最后,如果您对您所引用的帖子中的代码更简单有建议-请让我知道。


1
谢谢塔尔,我现在尝试Corrplot。我也希望我知道如何简化您的解决方案(在问题中已与之链接),但我只是R中的新手,所以您比我了解更多。我将更新问题以阐明解决方案对我来说
wishihadabettername

该Corrplot看起来不错。它给出了相关大小和方向的出色视觉快照。对于5点有序分类变量,提供除Pearson相关性之外的其他一些关联度量可能是有用的:例如,多色相关性。有序分类变量的标准Pearson相关性的大小在一定程度上受两个变量的均值影响。
Jeromy Anglim

3

还有两个其他的绘图思路:


向日葵是一个有趣的解决方案。当我初次查看该主题时,尝试使用抖动,但发现它对绘制相关矩阵还不够有效……
Tal Galili 2010年

是的,带有很多变量的散布矩阵会使抖动变得非常混乱。我认为抖动和向日葵的好处是您可以看到原始数据(尽管在抖动情况下会受到干扰)。
Jeromy Anglim

同意(我喜欢抖动,根本不喜欢这个:))
Tal Galili 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.