序数和连续随机变量之间关联强度的非参数度量


12

我收到问题时就把问题扔到这里了。

我有两个随机变量。其中一个是连续的(Y),另一个是离散的,将作为序数(X)逼近。我把与查询一起收到的图放在下面。

在此处输入图片说明

向我发送数据的人想要衡量 X和Y之间关联的强度。我正在寻找不会随波逐流的假设而产生想法的想法。请注意,这并不是要找到一种非参数方法来测试关系的强度(例如在引导程序中),而是要找到一种非参数方法来测量关系的强度。

另一方面,效率不成问题,因为有很多数据点。


1
X(离散变量)是否有序?
彼得·弗洛姆

@PeterFlom:谢谢。是。我将此添加到问题中。
user603 2014年

“非参数”在这里是指不允许计算均值或方差吗?
ttnphns 2014年

Answers:


7

根据定义,序号刻度是其中刻槽之间的真实距离1 2 3 4未知的量规。就像您看到毒品/酒精下的标尺一样。真实距离可以是任意距离。这可能是1 2 3 41 2 3 4或什么的。除非确定距离并进行修正,否则我们无法计算统计数据(例如相关性)。

一种推理可以如下。由于我们的量表(量规)以未知的单调方式失真,因此我们无法相信数据值。只有其数量级是可信赖的。没有更多的大脑控制力,宣告秩序成为价值。因此,我们将观察到的分布替换为均匀分布,即。之后,可以计算关联系数,例如Pearson。众所周知,那将是Spearman。Pearson测量线性关联的强度。对变量进行排序是使单调关系的那部分线性化的技巧,该部分归因于最初分布不均匀。因此,斯皮尔曼·[R ħ ø - [R [R ħ ö řrrhorrho是在关系中这种单调性的量度,可以在均匀化边际分布的作用下转换为线性。在OP问题中,两个变量中只有一个是序数(第二个是连续的)。因此,通常不需要对两个变量进行排名。可以只对序数排序,然后计算。r

替代排名(统一)的另一种方法可能是有序变量的最佳缩放。最佳缩放是一个迭代过程,其目的是在有序尺度上找到这样的距离(即找到它的这种单调变换),从而使变量之间的线性尽可能最大化。排序方法基于前提“真实比例对应于具有均匀分布的数据”,而最佳缩放方法基于前提“真实比例对应于具有最大线性数据”[Rrr“。最佳缩放可以在分类回归(CATREG)中进行。但是,分类回归要求其他输入变量是离散的(不一定是序数),因此,如果连续输入具有多个唯一值,则您必须将其任意分类。 。

还有其他方法。但是无论如何,我们都会按序“单调”转换序数标度(以便...)(某个假设或某个目标),因为序数标度以未知的方式扭曲了我们。从根本上来说,另一个决定是先“清醒”,然后确定它是否未失真(即为间隔),或是否以已知方式失真(为非等间隔),或者是名义上的。

一些不对称的方法可能包括序数变量的序数回归(另一个/间隔/连续)。或通过序数对后者进行线性回归,其中将预测变量视为多项式对比(即输入为b1X + b2X^2 + b3X^3,...)的模型。这些方法的缺点是它们不对称:一个变量是因变量,另一个是独立变量。


谢谢; 一个很好的主意,只计算一个变量的等级。
user603 2014年

6

有什么原因会使Spearman的秩相关系数单调关联的非参数度量)不足?单调性是否太“前负荷”?它基于变量的独立生成等级(和)中的差异(): x i y idi=xiyixiyi

rS=16i=1ndi2n(n21)

如果单调性过于严格的假设,我不知道是否接近基于最大信息,例如由瑞舍夫(2011年,2013年),这甚至不承担提议功能之间的关系和可能更沿着你是什么系寻找?ÿXY


参考文献

Reshef,D.,Reshef,Y.,Finucane,H.,Grossman,S.,McVean,G.,Turnbaugh,P.,Lander,E.,Mitzenmacher,M.和Sabeti,P.(2011)。在大型数据集中检测新颖的关联。科学 334(6062):1515-1524。

Reshef,D.,Reshef,Y.,Mitzenmacher,M.和Sabeti,P.(2013)。最大信息系数的公平性分析,并进行比较arXiv,8月14日。


两者看起来都很好。实际上,您提出的两种方法甚至可以相互补充。我将让问题悬而未决。
user603 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.