我收到问题时就把问题扔到这里了。
我有两个随机变量。其中一个是连续的(Y),另一个是离散的,将作为序数(X)逼近。我把与查询一起收到的图放在下面。
向我发送数据的人想要衡量 X和Y之间关联的强度。我正在寻找不会随波逐流的假设而产生想法的想法。请注意,这并不是要找到一种非参数方法来测试关系的强度(例如在引导程序中),而是要找到一种非参数方法来测量关系的强度。
另一方面,效率不成问题,因为有很多数据点。
我收到问题时就把问题扔到这里了。
我有两个随机变量。其中一个是连续的(Y),另一个是离散的,将作为序数(X)逼近。我把与查询一起收到的图放在下面。
向我发送数据的人想要衡量 X和Y之间关联的强度。我正在寻找不会随波逐流的假设而产生想法的想法。请注意,这并不是要找到一种非参数方法来测试关系的强度(例如在引导程序中),而是要找到一种非参数方法来测量关系的强度。
另一方面,效率不成问题,因为有很多数据点。
Answers:
根据定义,序号刻度是其中刻槽之间的真实距离1 2 3 4
未知的量规。就像您看到毒品/酒精下的标尺一样。真实距离可以是任意距离。这可能是1 2 3 4
或1 2 3 4
或什么的。除非确定距离并进行修正,否则我们无法计算统计数据(例如相关性)。
一种推理可以如下。由于我们的量表(量规)以未知的单调方式失真,因此我们无法相信数据值。只有其数量级是可信赖的。没有更多的大脑控制力,宣告秩序成为价值。因此,我们将观察到的分布替换为均匀分布,即秩。之后,可以计算关联系数,例如Pearson。众所周知,那将是Spearman。Pearson测量线性关联的强度。对变量进行排序是使单调关系的那部分线性化的技巧,该部分归因于最初分布不均匀。因此,斯皮尔曼·[R ħ ø - [R [R ħ ö ř是在关系中这种单调性的量度,可以在均匀化边际分布的作用下转换为线性。在OP问题中,两个变量中只有一个是序数(第二个是连续的)。因此,通常不需要对两个变量都进行排名。可以只对序数排序,然后计算。
替代排名(统一)的另一种方法可能是有序变量的最佳缩放。最佳缩放是一个迭代过程,其目的是在有序尺度上找到这样的距离(即找到它的这种单调变换),从而使变量之间的线性尽可能最大化。排序方法基于前提“真实比例对应于具有均匀分布的数据”,而最佳缩放方法基于前提“真实比例对应于具有最大线性数据”[R“。最佳缩放可以在分类回归(CATREG)中进行。但是,分类回归要求其他输入变量是离散的(不一定是序数),因此,如果连续输入具有多个唯一值,则您必须将其任意分类。 。
还有其他方法。但是无论如何,我们都会按序“单调”转换序数标度(以便...)(某个假设或某个目标),因为序数标度以未知的方式扭曲了我们。从根本上来说,另一个决定是先“清醒”,然后确定它是否未失真(即为间隔),或是否以已知方式失真(为非等间隔),或者是名义上的。
一些不对称的方法可能包括序数变量的序数回归(另一个/间隔/连续)。或通过序数对后者进行线性回归,其中将预测变量视为多项式对比(即输入为b1X + b2X^2 + b3X^3,...
)的模型。这些方法的缺点是它们不对称:一个变量是因变量,另一个是独立变量。
有什么原因会使Spearman的秩相关系数(单调关联的非参数度量)不足?单调性是否太“前负荷”?它基于变量的独立生成等级(和)中的差异(): x i y i
如果单调性是过于严格的假设,我不知道是否接近基于最大信息,例如由瑞舍夫(2011年,2013年),这甚至不承担提议功能之间的关系和可能更沿着你是什么系寻找?ÿ
参考文献
Reshef,D.,Reshef,Y.,Finucane,H.,Grossman,S.,McVean,G.,Turnbaugh,P.,Lander,E.,Mitzenmacher,M.和Sabeti,P.(2011)。在大型数据集中检测新颖的关联。科学 334(6062):1515-1524。
Reshef,D.,Reshef,Y.,Mitzenmacher,M.和Sabeti,P.(2013)。最大信息系数的公平性分析,并进行比较。arXiv,8月14日。