为排名数据绘制回归线(Spearman相关性)是否“可行”?


12

我有一些我计算出Spearman相关性的数据,并希望将其可视化以用于出版物。因变量是排名的,独立变量不是。我想可视化的是总体趋势,而不是实际的斜率,因此我对独立变量进行了排名,并应用了Spearman相关/回归。但是,当我绘制数据并将其插入到手稿中时,我偶然发现了这个声明(在此网站上):

当您进行Spearman秩相关时,几乎不会将回归线用于描述或预测,因此不要计算回归线的等价物

然后

您可以按照与线性回归或相关性相同的方式来绘制Spearman等级相关性数据。但是,不要在图表上放置回归线。使用等级相关性对其进行分析后,将线性回归线放在图形上会产生误导。

问题是,回归线与我对独立变量进行排名并计算皮尔逊相关性时没有太大不同。趋势是相同的,但是由于期刊中彩色图形的费用过高,所以我使用单色表示,并且实际数据点重叠得太多,以致无法识别。

当然,我可以通过制作两个不同的图来解决此问题:一个用于数据点(排名),另一个用于回归线(未排名),但是如果事实证明我引用的来源有误或存在问题,就我而言,这不是问题,它将使我的生活更轻松。(我也看到了这个问题,但这并没有帮助我。)

编辑其他信息:

如果将分类算法的性能进行比较,则x轴上的自变量表示特征的数量,y轴上的因变量表示等级。现在,我有一些算法可以平均比较,但是我想对我的情节说的是:“虽然分类器A越好,存在的特征越多,分类器B越好,存在的特征越多”

编辑2以包括我的地块:

绘制的算法等级与特征数量的关系 在此处输入图片说明

绘制的算法等级与特征等级的对比 在此处输入图片说明

因此,重复标题中的问题:

可以为Spearman相关/回归的排名数据绘制回归线吗?


等级中有几类?您是否测试了比例假设?有许多研究人员非常擅长将序数数据(例如排名)视为连续数据。有时,如果有很多类别,这很有道理。
robin.datadrivers 2015年

1
有七个等级,它们用于Friedman测试
Sentry 2015年

Answers:


9

如您所注意到的,可以使用等级相关来获取变量之间的单调关联。因此,您通常不会为此划一条线。

在某些情况下,无论是肯德尔(Kendall)还是斯皮尔曼(Spearman)(或其他一些人),使用等级相关来使行实际适合数字y和数字x都是很有意义的。请参阅此处的讨论(尤其是最后的情节)。

不过那不是你的情况。在您的情况下,我倾向于仅显示原始数据的散点图,也许具有平滑的关系(例如通过LOESS)。

您期望这种关系是单调的;您可能会尝试估计和绘制单调关系。[这里讨论一个可以拟合等渗回归的R函数,尽管该示例中存在单峰而不是等渗的,但该函数可以进行等渗拟合。

这是我的意思的示例:

在此处输入图片说明

该图显示了x和y之间的单调关系;红色曲线是黄土光滑度(在这种情况下在R by中生成scatter.smooth),也恰好是蒙脱的(有一些方法可以确保一定的单调性,但是在这种情况下默认的黄土光滑度是单调的,所以我没有必要担心。

在此处输入图片说明
等级(y)与等级(x)的关系图,表示单调关系。绿线显示了黄土曲线拟合值相对于rank(x)的等级。

x和y等级之间的相关性(即Spearman相关性)为0.892-高单调关联。类似地,(蒙脱)拟合的黄土平滑曲线()与y值之间的Spearman相关性也为0.892。[[这不足为奇,因为对于x而言单调递增函数的任何曲线都是如此,所有曲线也都对应于绿线。绿线不是rank(x)和rank(y)之间的回归线,而是对应于原始图中单调拟合的线。排名数据的“回归线”的斜率为0.892,而不是1,因此有点“平坦”。]y^

如果您除了rank(Y)vs X之外什么都不显示,我想我会避免在情节上使用线条。据我所知,它们没有传达出高于相关系数的太多价值。并且已经说过您只对趋势感兴趣。

[我不知道在等级为y与等级为x的图上绘制回归线是错误的,困难在于它的解释。]


谢谢,您的回答很好,解释也很好。但是,这使我意识到我可能已经忽略了关键信息。我提供的其他信息仍然有效吗?当我在工作PC上时,图形将在今天晚些时候出现。
哨兵

看看我的更新,看看您是否认为其中的任何价值。
Glen_b-恢复莫妮卡

是的,它是有价值的,但从广义上讲更有价值。我也同意“错误”来自于难以解释情节。我担心人们总是会假设我想根据特征预测排名,即使我声明只想显示趋势也是如此
哨兵

查看您的地块---您显示等级,但是您对等级所依据的性能有原始的衡量标准吗?
Glen_b-恢复莫妮卡

是的,我知道,但是不能在这里使用,相信我。我的研究重点是使用Friedman检验比较算法,从而对算法进行排名。有多个数据集具有非常不同的性能范围,因此这里仅比较它们之间的意思。
哨兵

3

如果要在建模时对向量进行排名,则使用Spearman的等效于使用比例赔率序数逻辑模型。PO模型通常以原始比例对建模,并且可以包含非线性项。为了获得预测,使用基于模型的方法是有利的。例如,您可以根据PO模型拟合绘制与预测平均值或预测中位数的关系图。示例在http://biostat.mc.vanderbilt.edu/rms的讲义中。X X X ÿ ÿρXXXYY

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.