Questions tagged «correlation»

一对变量之间线性关联程度的度量。

2
R新手的项目分析
我正在尝试评估20个多项选择测试。我想执行一个项目分析,例如在本示例中可以找到的。因此,对于每个问题,我都希望P值以及与总数的相关性以及所选选项的分布。 我对那里的各种统计软件包一无所知,但是我想使用R,因为我对编程很满意并且R是开源的。我设想的伪工作流程是: 在Excel中准备数据并导出为CSV 将数据加载到R中 加载符合我需要的软件包 执行该软件包的命令 导出并报告。 我对1和2充满信心,但对3却有疑问,可能是因为我没有统计词汇来比较我在CRAN上浏览的软件包。 ltm看起来它可能是正确的软件包,但我不知道。无论使用什么软件包,命令将是什么? 附带问题:在链接的示例中,您认为MC和MI代表什么?

3
在计算相关矩阵时,丢弃带有缺失值的观测值是否存在严重问题?
我有2500个变量和142个观测值的庞大数据集。 我想在变量X和其余变量之间运行关联。但是对于许多列,缺少条目。 我尝试使用“成对完成”参数(use=pairwise.complete.obs)在R中执行此操作,并输出了一堆相关性。但是随后StackOverflow上的某人发布了指向本文http://bwlewis.github.io/covar/missing.html的链接,这使R中的“成对完成”方法显得无法使用。 我的问题:我怎么知道什么时候适合使用“成对完成”选项? 我use = complete.obs回来了no complete element pairs,所以如果您能解释一下这也意味着什么,那就太好了。

2
序数和连续随机变量之间关联强度的非参数度量
我收到问题时就把问题扔到这里了。 我有两个随机变量。其中一个是连续的(Y),另一个是离散的,将作为序数(X)逼近。我把与查询一起收到的图放在下面。 向我发送数据的人想要衡量 X和Y之间关联的强度。我正在寻找不会随波逐流的假设而产生想法的想法。请注意,这并不是要找到一种非参数方法来测试关系的强度(例如在引导程序中),而是要找到一种非参数方法来测量关系的强度。 另一方面,效率不成问题,因为有很多数据点。


1
指数随机变量可达到的相关性
一对指数分布的随机变量和的可达到相关性的范围是多少,其中为速率参数?X1∼Exp(λ1)X1∼Exp(λ1)X_1 \sim {\rm Exp}(\lambda_1)X2∼Exp(λ2)X2∼Exp(λ2)X_2 \sim {\rm Exp}(\lambda_2)λ1,λ2>0λ1,λ2>0\lambda_1, \lambda_2 > 0


2
当Spearman相关性比Pearson小一定数量时,它表示什么?
我有一堆相关的数据集。它们之间成对的皮尔逊相关性通常肯定比斯皮尔曼相关性大。这表明任何相关都是线性的,但是即使皮尔逊和斯皮尔曼是相同的,也可能期望这样。当皮尔逊和斯皮尔曼相关性之间存在一定的差距并且皮尔逊更大时,这意味着什么?这似乎是我所有数据集的一致特征。

2
(非二项式)名义变量与数值(区间)或序数变量之间的相关系数
我已经阅读了本网站的所有页面,试图找到解决我问题的方法,但是似乎没有人适合我。 首先,我向您解释我正在使用的数据类型... 假设我有一个包含多个城市名称的数组矢量,每300个用户一个。我还有另一个数组向量,其分数响应每个用户的调查或每个用户的连续值。 我想知道是否存在相关系数来计算这两个变量之间的相关性,因此可以计算名义变量与数字/连续或有序变量之间的相关性。 我在互联网上搜索过,在某些页面中,他们建议使用权变系数或Cramer的V或Lambda系数或Eta。只需说一说,就可以将它们应用于具有标称变量和区间或数值变量的此类数据。事实是,如果您有二等标称变量(除了Cramer's V之外),那么有时会写一些或试图理解它们,尝试理解它们的示例或观看它们合理地使用它们的示例,而其他时间则没有写任何要求数据类型。许多其他页面都说应用回归是正确的,那是正确的,但是我只是想知道是否存在像这类数据的皮尔森/皮尔曼系数。 我还认为使用Spearman Correlation coeff不太合适,因为这些城市无法分类。 我还自己建立了Cramer'sV和Eta的函数(我正在与Matlab一起工作),但对于Eta,他们不会谈论任何p值以查看系数是否在统计上显着... 在matlabWorks网站上,还有一个不错的工具箱,用于计算eta ^ 2,但所需的输入类型却无法理解。 这里有人做过像我这样的测试吗?如果您需要更多详细信息以了解我使用的数据类型,请问我,我会尽力向您解释。



4
X和XY之间的相关性
如果我有两个独立的随机变量X和Y,那么X与乘积XY之间的相关性是什么?如果这是未知的,那么我很想知道至少在X和Y为零且均值为零的正常情况下会发生什么,如果这样更容易解决。

2
当关联最密切的预测变量是二进制时,如何开始建立回归模型
我有数据集包含365观察三个变量即pm,temp和rain。现在,我想检查是否pm响应其他两个变量的变化。我的变量是: pm10 =响应(取决于) temp =预测变量(独立) rain =预测变量(独立) 以下是我的数据的相关矩阵: > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 问题是,当我研究回归模型的构建时,有人写道,可加方法应从与响应变量最相关的变量开始。在我的数据集中,rain它与pm(与相比temp)高度相关,但是同时它也是一个虚拟变量(rain = 1,norain = 0),所以现在我有了从哪里开始的线索。我为问题附加了两个图像:第一个是数据的散点图,第二个图像是pm10vs. 的散点图rain,我也无法解释pm10vs.的散点图rain。有人可以帮我怎么开始吗?

1
不相关性对哪些分布表示独立?
统计由来已久的提醒是“uncorrelatedness并不能意味着独立”。通常,这种提醒是在心理上舒缓的(并且在科学上正确的)陈述中进行补充的:“尽管如此,这两个变量共同正态分布,但不相关的确意味着独立”。 我可以将快乐异常的数量从一增加到两个:当两个变量是伯努利分布时,那么不相关又意味着独立。如果和是两个Bermoulli rv,则,其中我们有,类似地对于,它们的协方差为XXXYYYX∼B(qx),Y∼B(qy)X∼B(qx),Y∼B(qy)X \sim B(q_x),\; Y \sim B(q_y)P(X=1)=E(X)=qxP(X=1)=E(X)=qxP(X=1) = E(X) = q_xYYY Cov(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqyCov⁡(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqy\operatorname{Cov}(X,Y)= E(XY) - E(X)E(Y) = \sum_{S_{XY}}p(x,y)xy - q_xq_y =P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy=P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy = P(X=1,Y=1) - q_xq_y = P(X=1\mid Y=1)P(Y=1)-q_xq_y =(P(X=1∣Y=1)−qx)qy=(P(X=1∣Y=1)−qx)qy= \Big(P(X=1\mid Y=1)-q_x\Big)q_y 对于不相关性,我们要求协方差为零,因此 Cov(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)Cov⁡(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)\operatorname{Cov}(X,Y) = 0 \Rightarrow P(X=1\mid Y=1) = P(X=1) ⇒P(X=1,Y=1)=P(X=1)P(Y=1)⇒P(X=1,Y=1)=P(X=1)P(Y=1)\Rightarrow P(X=1,Y=1) = P(X=1)P(Y=1) 这也是变量独立所需要的条件。 所以我的问题是:您是否知道其他任何分布(连续或离散)的不相关性意味着独立性? 含义:假设两个随机变量具有边际属于相同的分布(或许与所涉及的分布参数不同的值)的分布,但让我们用同样支持如说。两个指数,两个三角形等。方程所有解是否都由于所涉及的分布函数的形式/性质而隐含着独立性?正态边际(也假定它们具有二元正态分布)和伯努利边际都是这种情况-还有其他情况吗?X,YX,YX,YCov(X,Y)=0Cov⁡(X,Y)=0\operatorname{Cov}(X,Y) = 0 这样做的动机是,与检查独立性是否成立相比,通常更容易检查协方差是否为零。因此,如果在给定理论分布的情况下,通过检查协方差,您还在检查独立性(例如伯努利或正态情况),那么这将是一件有用的事情。 …

2
时间序列数据的空间自相关
我有一个20年数据集,其中包含一组多边形(约200个不规则形状的连续多边形)的物种丰富度的年度计数。我一直在使用回归分析来推断每个多边形的趋势(每年计数变化),以及基于管理边界的多边形数据汇总。 我确信数据中存在空间自相关,这肯定会影响汇总数据的回归分析。我的问题是-如何对时间序列数据进行SAC测试?我是否需要查看每年回归分析中残差的SAC(全局Moran's I)?还是我可以全年进行一次测试? 一旦我测试了是的,那么就有SAC了,解决这个问题容易吗?我的统计资料背景很少,我在时空建模方面阅读的所有内容听起来都很复杂。我知道R具有距离加权自协变量函数-这一点简单易用吗? 我真的很困惑如何评估/添加SAC来解决此问题,非常感谢任何建议,链接或参考。提前致谢!


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.