选择具有最强相关性的数据点子集的自动化程序?


15

是否有一些标准程序(以便可以引用它作为参考)从具有最大相关性(仅二维)的较大池中选择数据点的子集?

例如,假设您有100个数据点。您需要一个40个点的子集,这些子集在X和Y维度上可能具有最强的相关性。

我意识到编写代码来做到这一点相对简单,但是我想知道是否有任何资料可以引用?


3
“我意识到编写代码来做到这一点相对简单”。啊?你会怎么做?
user603 2012年

3
我想她的意思是“最佳子集相关性”。选择的子集ķ = 40在她的例子)的数据点出你Ññ = 100在她的例子),并计算相关的估计ρ X Ý (假设她的意思知道点的子集具有最佳的线性相关性)。但是,对于大的N,此过程在计算上似乎很昂贵,因为您必须计算乘以系数。kk=40NN=100ρ(X,Y)N(Nk)
内斯托尔·

1
如果您愿意查看变量的线性组合,那么您正在寻找规范的相关性。否则,可能需要选择相关特征X
MånsT

我认为有些人可能会误解我。@Néstor似乎正确。有100个项目,每个项目都有一个X值和一个Y值。我想找到40个子集,它们在X和Y值之间可能具有最强的相关性(线性回归)。我可以编写代码来探索整个搜索空间,但是我会引用什么来支持这种方法?在所有可能的子集中找到最佳相关性是什么?
朱莉2012年

1
您是否有兴趣最大化相关性或获得最佳拟合回归线,例如通过最小残留方差来衡量?当您选择数据点时,两者并不相同。
jbowman

Answers:


17

我要说的是,您的方法适合此Wikipedia文章中描述的一般类别,如果您需要的不只是Wikipedia,还可以参考其他参考。该文章中的某些链接也将适用。

其他可能适用的术语(如果您想进行更多搜索)包括“数据挖掘”和“对数据进行折衷直到认罪”。

请注意,如果只选择x或y值不同的2个点,则始终可以得到1的相关性。几年前,《机会》杂志上有一篇文章表明,当您拥有x和y变量而基本上没有相关性时,您可以找到一种方法来对x进行分箱,并对bin中的y取平均值,以显示出上升或下降趋势(机会2006年,视觉启示:通过不幸的结果归类发现什么不存在:孟德尔效应,第49-52页)。同样,使用显示出中等正相关的完整数据集,可以选择显示出负相关的子集。有了这些,即使您有合理的理由去做您的建议,您也会给任何怀疑论者以很多论据来反对您的结论。


《美国统计学家》的这篇文章叫什么名字?
假定正常的2012年

1
我记错了看文章的地方,实际上是《机会》杂志,而不是《美国统计学家》。我已在上面进行了更正,并包括了年份,标题和页码,以便感兴趣的各方可以轻松找到副本。
格雷格·斯诺

4

RANSAC算法听起来像您想要的。基本上,它假定您的数据由内部数据和异常数据组成,并尝试通过重复采样数据的子集,对模型进行拟合,然后尝试将所有其他数据点与模型进行拟合来识别内部数据。这是有关它的维基百科文章

在您的情况下,您可以继续重复该算法,同时保存适合至少40点的当前最佳模型,因此它不能保证绝对的最佳相关性,但它应该接近。


1

我很难想象一个好的做法,但是让我们暂时假设您确实有这样做的充分理由。

蛮力算法可能是这样的:

  1. 您可以从N的整体样本中计算出n的所有可能的子样本。大多数统计数据包都具有无需替换即可计算组合的功能,将为您完成此任务。

  2. 您估计每个子样本的x和y之间的相关性,然后从该集合中选择最大值。

我刚刚看到了原始张贴者关于此过程参考的评论。我不确定是否有人为此程序指定了特定的名称,毕竟您只是在生成数据集中所有可能相关性的经验分布并选择最大值。进行引导时,使用了类似的方法,但是在这种情况下,您对经验变异性感兴趣,因此请勿使用它们来选择与最大值相关的特定子样本。


2
1032N=100n=40

无需对此nar嘴:-p。有道理。
David

抱歉...不过,我喜欢这些数字,因为它们为我们提供了改进算法的很大空间:-)。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.