Questions tagged «correlation»

一对变量之间线性关联程度的度量。

3
选择具有最强相关性的数据点子集的自动化程序?
是否有一些标准程序(以便可以引用它作为参考)从具有最大相关性(仅二维)的较大池中选择数据点的子集? 例如,假设您有100个数据点。您需要一个40个点的子集,这些子集在X和Y维度上可能具有最强的相关性。 我意识到编写代码来做到这一点相对简单,但是我想知道是否有任何资料可以引用?

2
生成三个相关的均匀分布的随机变量
假设我们有 X1∼unif(n,0,1),X1∼unif(n,0,1),X_1 \sim \textrm{unif}(n,0,1), X2∼unif(n,0,1),X2∼unif(n,0,1),X_2 \sim \textrm{unif}(n,0,1), 其中unif(n,0,1)unif(n,0,1)\textrm{unif}(n,0,1)是大小均匀的随机样本n,和 Y=X1,Y=X1,Y=X_1, Z=0.4X1+1−0.4−−−−−−√X2.Z=0.4X1+1−0.4X2.Z = 0.4 X_1 + \sqrt{1 - 0.4}X_2. 那么,YYY和的相关性ZžZ为0.40.40.4。 如何将其扩展到三个变量:X1X1个X_1,X2X2X_2,X3X3X_3?

4
如果一个变量的标准偏差为0,则相关性如何?
据我了解,我们可以通过使用等式对协方差进行归一化来获得相关性 ρi,j=cov(Xi,Xj)σiσjρi,j=cov(Xi,Xj)σiσj\rho_{i,j}=\frac{cov(X_i, X_j)}{\sigma_i \sigma_j} 其中是的标准偏差。 X我σi=E[(Xi−μi)2]−−−−−−−−−−−√σi=E[(Xi−μi)2]\sigma_i=\sqrt{E[(X_i-\mu_i)^2]}XiXiX_i 我担心的是标准偏差等于零怎么办?是否有任何条件可以保证它不能为零? 谢谢。


2
了解距离相关计算
据我了解,距离相关是一种健壮且通用的方法,用于检查两个数字变量之间是否存在关系。例如,如果我们有一组数字对: (x1, y1) (x2, y2) ... (xn, yn) 我们可以使用距离相关来检查两个变量(x和y)之间是否存在任何(不一定是线性的)关系。而且,x并且y可以是不同维度的向量。 计算距离相关性相对容易。首先,我们使用计算距离矩阵。然后我们使用计算距离矩阵。这两个距离矩阵的维数相同,因为x_i和y_i的数目相同(因为它们成对出现)。ÿ 我X 我ÿ 我xixix_iyiyiy_ixixix_iyiyiy_i 现在我们有很多距离可以配对。例如,(2,3)来自第一距离矩阵的元素(2,3)与来自第二距离矩阵的元素配对。因此,我们有一组成对的距离,我们可以用它来计算相关性(距离之间的相关性)。 如果两种类型的距离相关,则意味着接近Xs通常意味着接近Ys。例如,如果接近,则意味着y_7可能接近y_ {13}。因此,我们可以得出结论,Xs和Ys是相关的。x 13 y 7 y 13x7x7x_7x13x13x_{13}y7y7y_7y13y13y_{13} 听起来很合理,但是我不了解两个方面。 首先,要计算距离相关性,我们不直接使用两个距离矩阵。我们对其应用双重居中过程(以便任何行(或列)中所有元素的总和等于零)。我不明白为什么我们需要这样做。此步骤背后的逻辑(或直觉)是什么? 其次,在原始距离矩阵中,对角线上有零。因此,如果我们计算距离之间的相关性,则将具有统计上显着的相关性,因为第一矩阵中的许多零与第二矩阵中的对应零成对。该问题如何解决?

1
距离相关与互信息
我已经使用共同信息一段时间了。但是我发现“关联世界”中有一个非常新的度量,也可以用来度量分布独立性,即所谓的“距离相关”(也称为布朗相关):http : //en.wikipedia.org/wiki/Brownian_covariance。我检查了引入此措施的论文,但没有发现对相互信息的任何暗示。 因此,我的问题是: 他们解决完全相同的问题吗?如果不是,那么这些问题有何不同? 并且,如果可以肯定地回答上一个问题,那么使用一个或另一个有什么好处?

6
细读“相关”的主动/被动用法
我犹豫是在统计StackExchange中还是在语言学/英语中问这个问题,但我认为这里可能比其他论坛中精通统计的用户更多选择语言的用户;) 我经常阅读一些报告,其中提到相关性是主动语态中的动词,如“我们然后将A与B相关联并找到...”。对我而言,该动词仅在被动语态中才有意义,例如说“我们发现A和B显着相关”时。我可能会错,因为这实际上在语法上构成了主动语音与被动语音,但是我所描述的是对A和B进行某种操作(使它们最终都改变)与从中计算出第三个变量(例如R coeff)之间的区别。 当然,可以主动取消两个变量的关联,但在我看来,“关联”它们(而不是引用活动的变量)只是用作检查是否存在重要的此类关联的简写! 我错了吗?从统计学上讲,您将A与B相关联是否有意义?

3
当其中一个变量是分类变量时,为什么相关性不是很有用?
这只是一个小小的检查,请帮助我看看我是否误解了这个概念,以及以什么方式。 我对相关性有一个功能上的理解,但我感到有些困惑,要真正自信地解释该功能性理解背后的原理。 据我了解,统计相关性(相对于该术语的更一般用法)是一种理解两个连续变量以及它们以相似的方式趋向或不趋于上升或下降的方式。 您无法对一个连续的和一个分类变量进行相关性的原因是,由于无法计算两者之间的协方差,因此无法计算 两者之间的协方差,因为按定义,分类变量不能产生均值,因此甚至不能输入第一个统计分析的步骤。 那正确吗?

1
(近似)依赖于极值的自变量的任何示例吗?
我正在寻找2个随机变量XXX,的示例,YYY这样 |cor(X,Y)|≈0|cor(X,Y)|≈0\newcommand{\cor}{{\rm cor}}|\cor(X,Y)| \approx 0 但是当考虑分布的尾部时,它们是高度相关的。(我尝试避免尾部的“相关” /“相关”,因为它可能不是线性的)。 大概使用这个: |cor(X′,Y′)|≫0|cor(X′,Y′)|≫0|\cor(X', Y')| \gg 0 其中的条件是的,而的定义与此相同。X′X′X'X>90%X>90%X > 90\%XXXY′Y′Y'

1
诸如加权相关之类的东西?
我收到了一些有趣的数据,其中涉及最受欢迎的音乐艺术家,按地点划分为大约200个国会区。我想看看是否有可能针对某人的音乐偏好来对其进行投票,并确定该人是“像民主党人一样听”还是“像共和党人一样听”。(自然这很轻松,但是数据中确实存在熵!) 我有大约100位艺术家的数据,以及过去三个选举周期中每个地区共和党人和民主党人的平均投票百分比。因此,我对每位艺术家进行了相关分析,以了解哪些听众与民主党人的投票份额成比例最不均衡。对于任何给定的艺术家,这些相关性从大约-0.3到0.3之间变化,中间的很多值几乎没有或没有预测能力。 我有两个问题:首先,每个地区的溪流总数差异很大。现在,我正在将每个地区(例如,碧昂斯)中所有流的百分比与为民主党人投票的百分比相关联。但是,一个地区的总流量可能为数百万,而另一个地区的总流量则为10万。我需要以某种方式加权相关性来解决这个问题吗? 其次,我很好奇如何将这些相关性组合成关于用户政治的综合猜测。假设我选取了绝对相关值最高(正值和负值)的20位艺术家,每个方向上的十位艺术家,然后调查用户对他或她的喜欢程度。因此,我对每位艺术家都投了赞成票或反对票,并加上了所有20个值与政治的相关性。是否存在将这些相关性组合为单个估计的标准方法?(我在想类似《纽约时报》著名的方言测验,它将测验 25个问题的区域概率结合到热点图中。但是在这种情况下,我只需要一个单一的值来了解民主党或共和党人在音乐上的品味如何。 谢谢!

1
样本相关系数是总体相关系数的无偏估计量吗?
这是真的,是一个无偏估计ρ X ,ÿ?也就是说,ë [ - [R X ,ÿ ] = ρ X ,ÿ?RX,YRX,YR_{X,Y}ρX,YρX,Y\rho_{X,Y}E[RX,Y]=ρX,Y?E[RX,Y]=ρX,Y?\mathbf{E}\left[R_{X,Y}\right]=\rho_{X,Y}? 如果没有,什么是一个无偏估计?(也许有一个标准的无偏估计器被使用?而且,它类似于无偏样本方差,我们可以简单地进行调整,将有偏样本方差乘以nρX,YρX,Y\rho_{X,Y}?)nn−1nn−1\frac{n}{n-1} 人口相关系数被定义为同时将样品相关系数被定义为- [RX,ÿ=Σ Ñ 我= 1(X我- ˉ X)(Ý我- ˉ ÿ)ρX,Y=E[(X−μX)(Y−μY)]E[(X−μX)2]−−−−−−−−−−−−√E[(Y−μY)2]−−−−−−−−−−−−√,ρX,Y=E[(X−μX)(Y−μY)]E[(X−μX)2]E[(Y−μY)2],\rho_{X,Y}=\frac{\mathbf{E}\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right]}{\sqrt{\mathbf{E}\left[\left(X-\mu_{X}\right)^{2}\right]}\sqrt{\mathbf{E}\left[\left(Y-\mu_{Y}\right)^{2}\right]}},RX,Y=∑ni=1(Xi−X¯)(Yi−Y¯)∑ni=1(Xi−X¯)2−−−−−−−−−−−−−√∑ni=1(Yi−Y¯)2−−−−−−−−−−−−√.RX,Y=∑i=1n(Xi−X¯)(Yi−Y¯)∑i=1n(Xi−X¯)2∑i=1n(Yi−Y¯)2.R_{X,Y}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}}.

3
出于直觉,现实生活中有一些不相关但相关的随机变量的例子是什么?
在解释为什么不相关并不意味着独立的过程中,有几个涉及一堆随机变量的示例,但它们似乎都非常抽象:1 2 3 4。 这个答案似乎是有道理的。我的解释:随机变量及其平方可能不相关(因为显然缺少相关性就像线性独立性一样),但是它们显然是相关的。 我猜一个例子是(标准化吗?)高度和高度2可能不相关,但相互依赖,但是我不明白为什么有人会比较高度和高度。22^222^2 为了使初学者具有基本概率论或类似目的的直觉,在现实生活中有哪些不相关但依存的随机变量示例?

4
“相关性”是否也意味着回归分析中的斜率?
我正在阅读一篇论文,作者写道: 通过多元回归分析研究了A,B,C对Y的影响。以Y为因变量,将A,B,C输入回归方程。方差分析如表3所示。B对Y的影响非常显着,B与Y的相关性为0.27。 英语不是我的母语,我在这里真的很困惑。 首先,他说他将进行回归分析,然后向我们展示方差分析。为什么? 然后他写了相关系数,这不是来自相关分析吗?还是这个词也可以用来描述回归斜率?

4
证明以下两个公式的等价性为Spearman相关
从维基百科中,通过将变量XiXiX_i和YiYiY_i转换为排名变量和,然后计算排名变量之间的皮尔逊相关性,来计算Spearman的排名相关性:xixix_iyiyiy_i 但是,本文继续指出,如果变量和之间没有联系,则上式等于XiXiX_iYiYiY_i 其中di=yi−xidi=yi−xid_i = y_i - x_i,在行列的差异。 有人可以证明这一点吗?我无权访问维基百科文章所引用的教科书。

1
如何正确评估序数和连续变量之间的相关性?
我想估算以下两者之间的相关性: 一个序数变量:要求受试者以1-5的等级(从非常恶心到非常美味)对6种类型的水果进行偏好评分。平均而言,受试者仅使用该等级的3分。 连续变量:要求相同的对象快速识别这些水果,从而得出6个水果的平均准确度。 Spearman rho是分析这些数据的最佳方法和/或我可以考虑其他好的方法吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.