Questions tagged «correlation»

一对变量之间线性关联程度的度量。

29
教学示例:相关并不意味着因果关系
有句老话:“关联不等于因果关系”。在教书时,我倾向于使用以下标准示例来说明这一点: 丹麦的鹳数量和出生率; 美国牧师的人数和酗酒; 在20世纪初,人们注意到“收音机数量”与“疯人院的人数”之间有很强的相关性。 我最喜欢的是:海盗导致全球变暖。 但是,我没有这些示例的任何参考,虽然很有趣,但它们显然是错误的。 有人还有其他好的例子吗?


8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]



1
什么相关使矩阵奇异?奇异或接近奇异意味着什么?
我在不同的矩阵上进行一些计算(主要是在逻辑回归中),并且通常会收到错误“矩阵是奇异的”,我必须返回并删除相关变量。我的问题是,您认为“高度”相关的矩阵是什么?有相关阈值来表示这个词吗?就像某个变量与另一个变量相关联是0.97一样,这是否足以使矩阵奇异? 如果问题很基本,我很抱歉,我找不到任何谈论此问题的参考文献(对任何参考文献的提示将是一个很大的加分!)。

4
看,你会发现(相关性)
我有几百个测量值。现在,我正在考虑使用某种软件将每个度量与每个度量相关联。这意味着有成千上万的相关性。在这些数据中,即使数据是完全随机的(每个度量值仅包含约100个数据点),它们之间也应具有高度的相关性。 找到关联后,如何将有关如何寻找关联的信息纳入其中? 我的统计水平不高,请耐心等待。

8
如果A和B与C相关,为什么A和B不一定相关?
我凭经验知道情况就是如此。我刚刚开发了遇到这个难题的模型。我也怀疑这不一定是是/否答案。我的意思是,如果A和B都与C相关,那么这可能对A和B之间的相关性有一定的暗示。但是,这种暗示可能很弱。这可能只是一个指示方向,仅此而已。 这就是我的意思。假设A和B与C的相关性均为0.5。鉴于此,A和B之间的相关性很可能为1.0。我认为也可能是0.5甚至更低。但是,我认为这不太可能是负面的。你同意吗? 另外,如果您正在考虑使用标准的皮尔逊相关系数或斯皮尔曼(秩)相关系数,是否有暗示?我最近的经验观察与Spearman相关系数有关。

4
如何生成相关的随机数(给定的均值,方差和相关度)?
很抱歉,这似乎太基本了,但是我想我只是想在这里确认了解。我觉得我必须分两步执行此操作,并且我已经开始尝试绘制相关矩阵,但是它似乎才真正开始涉及。我正在寻找一种简洁,合理的解释(理想情况下带有对伪代码解决方案的提示),这是一种生成相关随机数的理想方法。 给定两个具有已知均值和方差的伪随机变量height和weight以及给定的相关性,我认为我基本上是在试图理解第二步应该是什么样子: height = gaussianPdf(height.mean, height.variance) weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), correlated_variance(height.variance, correlation_coefficient)) 如何计算相关的均值和方差?但是我想确认这确实是相关的问题。 我需要诉诸矩阵操纵吗?还是我在解决此问题的基本方法上还有其他非常错误的地方?


4
为什么X和XY随机变量之间的相关系数趋于0.7
摘自道格拉斯·奥特曼(Douglas Altman)在第285页上写的《医学研究实用统计》: ...对于任意两个X和Y,X将与XY相关。确实,即使X和Y是随机数的样本,我们也希望X和XY的相关性为0.7 我在R中尝试过这种情况,似乎是这样的: x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu <- sample(1:100, size = 1000000, replace = T) cor(xu, xu-yu) 这是为什么?这背后的理论是什么?

4
相关系数= 0.2是否表示“只有五分之一的人”存在关联?
迪恩·伯内特( Dean Burnett )在《白痴的大脑:神经科学家解释你的头到底在做什么》一书中 身高和智力之间的关系通常被引用为约,这意味着身高和智力似乎只待相关1中5人。0.20.20.21个11555 对我来说,这听起来是错误的:我更了解相关性,就像我们试图预测一个量度(此处为智力)时所得到的(缺乏)错误一样,如果我们唯一了解的那个人是另一个量度(此处为身高)。如果相关系数为或− 1,则我们的预测中不会出错,如果相关系数为0.8,则误差更大。因此,相关性将适用于任何一个,而不是仅仅1中的5人。1个11− 1−1-10.80.80.81个11555 我已经看过这个问题,但是我的数学能力不足以理解答案。这个关于线性关系强度的答案似乎符合我的理解,但我不确定。

3
如何与时间序列正确使用Pearson相关
我有2个时间序列(均平滑),我想对其进行互相关以了解它们之间的相关性。 我打算使用皮尔逊相关系数。这样合适吗 我的第二个问题是,我可以选择自己喜欢的两个时间序列。即,我可以选择我要我们的数据点数。这会影响输出的相关系数吗?我需要考虑这个吗? 出于说明目的 option(i) [1, 4, 7, 10] & [6, 9, 6, 9, 6] option(ii) [1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.