(非二项式)名义变量与数值(区间)或序数变量之间的相关系数


12

我已经阅读了本网站的所有页面,试图找到解决我问题的方法,但是似乎没有人适合我。

首先,我向您解释我正在使用的数据类型...

假设我有一个包含多个城市名称的数组矢量,每300个用户一个。我还有另一个数组向量,其分数响应每个用户的调查或每个用户的连续值。

我想知道是否存在相关系数来计算这两个变量之间的相关性,因此可以计算名义变量与数字/连续或有序变量之间的相关性。

我在互联网上搜索过,在某些页面中,他们建议使用权变系数或Cramer的V或Lambda系数或Eta。只需说一说,就可以将它们应用于具有标称变量和区间或数值变量的此类数据。事实是,如果您有二等标称变量(除了Cramer's V之外),那么有时会写一些或试图理解它们,尝试理解它们的示例或观看它们合理地使用它们的示例,而其他时间则没有写任何要求数据类型。许多其他页面都说应用回归是正确的,那是正确的,但是我只是想知道是否存在像这类数据的皮尔森/皮尔曼系数。

我还认为使用Spearman Correlation coeff不太合适,因为这些城市无法分类。

我还自己建立了Cramer'sV和Eta的函数(我正在与Matlab一起工作),但对于Eta,他们不会谈论任何p值以查看系数是否在统计上显着...

在matlabWorks网站上,还有一个不错的工具箱,用于计算eta ^ 2,但所需的输入类型却无法理解。

这里有人做过像我这样的测试吗?如果您需要更多详细信息以了解我使用的数据类型,请问我,我会尽力向您解释。


1
CramérsV用于两个名词。回归有什么不好呢?将数字变量作为响应并将其回归为标称值(使用虚拟变量)。查看和相关的全局F检验。[R2
Michael M

回归没有问题,但是由于我们已经有了该度量标准,因此我们希望以另一种方式对其进行检验,就像使用相关系数进行双重检验一样。...感谢您的回答
cristis 2013年

您还没有说出任何有关“数字/序数”变量的具体信息。是什么让你把它摆成顺序的?数字?
ttnphns

因为我有一个来自调查测试的变量,所以它的范围是-4,4,您也可以将其视为区间,但是这种调查变量主要被认为是有序的,而其他的则是数字的,具体来说是连续的特征提取。
cristis

Answers:


17

标称与间隔

名义变量和区间变量(“数值”)之间最经典的“相关”度量是Eta,也称为相关比,等于单向方差分析的根R平方(p值=均方根值)。方差分析)。Eta可以看作是一种对称的关联度量,就像相关性一样,因为ANOVA的Eta(标称值是独立的,数字是相关的)等于Pillai的多元回归轨迹(数字是独立的,对应于标称为从属)。

更为细微的度量是类内相关系数(ICC)。Eta仅掌握组之间(由名义变量定义)相对于数字变量的差异,而ICC同时还测量组内数字之间的协调或一致。换句话说,ICC(尤其是原始的“配对” ICC版本)保持在值的水平,而Eta在统计水平(组均值vs组方差)上起作用。

标称与序数

关于名义变量和序数变量之间的“相关”度量的问题不太明显。造成这种困难的原因是,序数标度从本质上说比间隔标度或名​​义标度更“神秘”或“扭曲”。难怪到目前为止,专门针对序数数据的统计分析的制定都相对较差。

一种方法是将您的序数数据转换为等级,然后将Eta视为等级数据作为间隔数据。这样的Eta的p值= Kruskal-Wallis分析的p值。由于与使用Spearman rho关联两个序数变量的原因相同,因此该方法似乎很必要。逻辑是“当您不知道刻度上的间隔宽度时,通过线性化任何可能的单调性来削减Gordian结:对数据进行排名”。

另一种方法(可能更为严格和灵活)是使用序数逻辑回归,将序数变量作为DV,将名义变量作为IV。Nagelkerke的伪R 平方的平方根(带有回归的p值)是您的另一种相关度量。请注意,您可以在顺序回归中尝试各种链接功能。但是,这种关联不是对称的:名义上被认为是独立的。

另一种方法可能是找到有序数据到区间的单调变换,而不是倒数第二段的排名,这将为您最大化 R(即Eta)。这是分类回归(=具有最佳缩放比例的线性回归)。

还有另一种方法是使用序数变量作为预测变量来执行分类树,例如CHAID。此过程会将相邻的有序类别合并在一起(因此,该方法与前一种方法相反),这些相邻有序类别不会区分名义预测和预测的类别。然后,您可以依靠基于卡方的关联度量(例如Cramer V),就像将名义变量与名义变量相关联一样。

@Michael在他的评论中提出了另一种方法-一种称为Freeman's Theta的特殊系数。

因此,到目前为止,我们已经抓住了这些机会:(1)排名,然后计算Eta;(2)使用序数回归;(3)使用分类回归(“最佳”将序数变量转换为区间);(4)使用分类树(“最佳”减少订购分类的数量);(5)使用Freeman的Theta。


3
PS:在Jeromy Anglim的博客jeromyanglim.blogspot.ru/2009/10/…中
ttnphns

2
θ

2
@Michael谢谢,在这里我找到了一篇论文“关于弗里曼交往
ttnphns,2013年

1
有关Freeman theta和包含统计信息的R包的更多信息,请参见此交叉验证问题
Sal Mangiafico

@ttnphns对不起,请您回答以下问题:stats.stackexchange.com/questions/363543 / ...非常感谢。
ebrahimi

0

FpFp小号小号bËŤwËËñC一世Ť一世Ës/小号小号ŤØŤ一个[R2[R

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.