也许这个问题很幼稚,但是:
如果线性回归与Pearson相关系数密切相关,那么是否有任何与Kendall和Spearman相关系数紧密相关的回归技术?
也许这个问题很幼稚,但是:
如果线性回归与Pearson相关系数密切相关,那么是否有任何与Kendall和Spearman相关系数紧密相关的回归技术?
Answers:
有一种非常简单的方法,可以使用几乎所有相关度量来拟合线性回归,并且在使用Pearson相关时可以再现最小二乘。
考虑,如果关系的斜率是之间的相关性ÿ - β X和X应当预期为0。
事实上,如果它是任何其他比,有会是一些未捕获的线性关系-这是什么相关措施将有所回升。
因此,我们可以估算的斜率通过找到斜率,使样本之间的相关性ý - 〜β X和X是0。在许多情况下(例如,使用基于等级的度量时),相关性将是斜率估计值的阶跃函数,因此可能存在一个零间隔。在那种情况下,我们通常将样本估计值定义为间隔的中心。通常,阶跃函数会在某个点从零以上跳到零以下,在这种情况下,估算值就在该跳变点处。
例如,此定义适用于所有基于等级和稳健相关的方式。它也可以用来获得斜率的间隔(通常的方式-通过找到标记正相关和正相关之间边界的斜率)。
当然,这仅定义了斜率;一旦斜率估计,截距可以基于合适的位置估计计算上的残差。对于基于排名的相关性,中位数是一个常见选择,但还有许多其他合适的选择。
这是针对car
R中数据的斜率绘制的相关性:
Pearson相关在最小平方斜率3.932
处与0交叉。Kendall 相关在Theil-Sen斜率3.667处
与0交叉。
这些是我们示例的三个斜率估计。现在我们需要拦截。为简单起见,我将仅对第一个截距使用均值残差,对其他两个截距使用中值(在这种情况下无关紧要):
intercept
Pearson: -17.573 *
Kendall: -15.667
Spearman: -16.285
*(与最小二乘方的微小差异是由于斜率估计中的舍入误差;其他估计中无疑也存在类似的舍入误差)
相应的拟合线(使用与上述相同的配色方案)是:
编辑:通过比较,象限相关斜率是3.333
与最小二乘法相比,Kendall相关斜率和Spearman相关斜率对有影响的异常值的鲁棒性都强得多。参见此处,了解有关Kendall的一个生动示例。
Aaron Han(1987年,计量经济学)提出了最大秩相关估计器,该模型通过使tau最大化来拟合回归模型。Dougherty和Thomas(2012年在心理学文献中)最近提出了一种非常相似的算法。在MRC上有大量工作可以说明其特性。
Aaron K. Han,广义回归模型的非参数分析:最大秩相关估计器,《计量经济学杂志》,第35卷,第2-3期,1987年7月,第303-316页,ISSN 0304-4076,http:// dx.doi.org/10.1016/0304-4076(87)90030-3。(http://www.sciencedirect.com/science/article/pii/0304407687900303)
Dougherty,MR和Thomas,RP(2012)。非线性世界中的稳健决策。心理评论,119(2),321。取自http://damlab.umd.edu/pdf%20articles/DoughertyThomas2012Rev.pdf。