Questions tagged «correlation»

一对变量之间线性关联程度的度量。

3
如何找到时间序列之间的相似性?
在以下示例中,我有一个数据框,该数据框由在海洋中5个深度处记录的水温测量值的时间序列组成,其中in的每个值Temp对应于in的日期DateTime和in 的深度Depth。 set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each = …

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
通过PCA进行的Mahalanobis距离
我有一个 Ñ × pñ×pn\times p 矩阵,其中 ppp 是基因的数量, ññn是患者人数。任何使用过此类数据的人都知道ppp 总是大于 ññn。使用功能选择我已经ppp 下降到一个更合理的数字 ppp 仍然大于 ññn。 我想根据患者的遗传特征计算其相似度;我可以使用欧式距离,但是马哈拉诺比斯似乎更合适,因为它考虑了变量之间的相关性。问题(如在此说明的交)是Mahalanobis距离,特别是协方差矩阵,不工作时n &lt; pñ&lt;pn < p。当我在R中运行马氏距离时,得到的错误是: Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 到目前为止,为了解决这个问题,我使用了PCA,而不是使用基因,而是使用了成分,这似乎使我能够计算出马氏距离。5个分量代表方差的80%,所以现在Ñ &gt; pñ&gt;pn > p。 我的问题是:我可以使用PCA有意义地获取患者之间的马氏距离,还是不合适?是否有替代距离指标在以下情况下起作用n &lt; pñ&lt;pn < p 并且之间也有很大的相关性 ññn 变量?

3
如何使用R检验相关性等于给定值的假设?
是否有一个函数可以检验两个向量的相关性等于给定数字(例如0.75)的假设?使用cor.test可以测试cor = 0,可以看到0.75是否在置信区间内。但是是否有一个函数可以计算cor = 0.75的p值? x &lt;- rnorm(10) y &lt;- x+rnorm(10) cor.test(x, y)
10 r  correlation 

1
我们可以通过比较回归斜率来比较组之间的相关性吗?
在这个问题中,他们询问如何比较两个独立群体(例如男性与女性)的Pearson r。回复和评论建议两种方式: 使用费舍尔的著名公式,即r的“ z变换”; 使用斜率比较(回归系数)。 只需通过饱和线性模型即可轻松完成后者: ,其中和是相关变量,而是表示两组的虚拟变量(0对1)。的大小(交互作用项系数)恰好是分别在两组中进行模型之后的系数的差,因此,其( s)的意义就是对两组之间斜率差的检验。Y=a+bX+cG+dXGY=a+bX+cG+dXGY = a + bX + cG + dXGXXXYYYGGGdddbbbY=a+bXY=a+bXY = a + bXddd 现在,倾斜或回归系数。还不是相关系数。但是,如果我们规范和 - 分别在两个组-然后会等于差在第1组减去R R组0中,因此其意义将要测试的这两个相关的区别是:我们要测试的斜坡,但似乎[好像-?]我们正在测试相关性。XXXYYYddd 我写的正确吗? 如果是,那么剩下的问题是更好的相关性检验-是描述的还是费舍尔的?因为它们将产生不同的结果。你怎么看? 后来的编辑:感谢@Wolfgang的答复,我仍然感到怀念,我不明白为什么 Fisher的测试比上述的标准化不佳的坡度比较方法对r的测试更正确。因此,欢迎提供更多答案。谢谢。

1
相关随机变量之差的界线
给定两个高度相关的随机变量和,我想限制差的概率超出一定数量: XXXYYY|X−Y||X−Y| |X - Y| P(|X−Y|&gt;K)&lt;δP(|X−Y|&gt;K)&lt;δ P( |X - Y| > K) < \delta 为简单起见,假设: 已知相关系数为“高”,例如: ρX,Y=covar(X,Y)/σXσY≥1−ϵρX,Y=covar(X,Y)/σXσY≥1−ϵ \rho_{X,Y}= {covar(X,Y)} / {\sigma_X \sigma_Y} \geq 1 - \epsilon X,YX,YX,Y 为零均值:μx=μy=0μx=μy=0 \mu_x = \mu_y = 0 −1≤xi,yi≤1−1≤xi,yi≤1-1 \leq x_i, y_i \leq 1(或者 如果这样更容易的话)0≤xi,yi≤10≤xi,yi≤1 0 \leq x_i, y_i \leq 1 (如果它使事情变得容易,那么说具有相同的方差:)X,YX,YX,Y σ2X=σ2YσX2=σY2\sigma_X^2 = \sigma_Y^2 …

3
如何处理等于1或-1的随机效应相关性?
当处理复杂的最大混合模型时(估计给定数据和模型的所有可能随机效应)是完美的(+1或-1)或在某些随机效应之间几乎完美的相关性,这种情况并不罕见。为了讨论的目的,让我们观察以下模型和模型摘要 Model: Y ~ X*Cond + (X*Cond|subj) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects Random effects: Groups Name …

2
社会科学中大多数已发表的相关性值得信赖吗?对此该怎么办?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 尽管个人为揭示掠夺性期刊的行为付出了重要的努力,但仍大肆挥霍,但社会科学研究的阴影笼罩着更大,更根本的威胁(尽管研究人员肯定需要解决多个问题)。为了弄清楚这一点,根据一种观点,我们可能无法信任从小于250的样本得出的相关系数。 人们很难找到一种比可信赖的相关系数更依赖于推断社会科学中的度量之间存在关联,方向和强度的测试。但是,将不会难于找到同行评议的报告,这些报告基于从少于250种情况下的数据计算出的相关系数,对两种结构之间的关系提出了强有力的主张。 考虑到当前社会科学面临的复制危机(请参见上面的第二个链接),我们应该如何仅在大样本(至少按照某些社会科学领域的标准)上查看有关相关系数稳定的报告?这是同行评议的社会科学研究领域的又一裂缝,还是在介绍中被夸大了的相对琐碎的问题? 由于对此问题不可能有一个正确的答案,因此我希望创建一个话题,可以共享,深思熟虑和辩论有关此问题的资源(当然要礼貌而有礼貌地进行)。

4
如何确定两个相关性是否显着不同?
我想确定两组数据(B1,B2)中的哪一组与另一组(A)更好地相关(皮尔森r)。所有数据集中都缺少数据。如何确定所得的相关性是否显着不同? 例如,在A和B1中都存在8426值,r = 0.74。A和B2中都存在8798,r = 0.72。 我认为这个问题可能会有所帮助,但尚未得到答案:如何知道一个系统明显优于另一个系统?

2
是否允许对数据集使用平均值来改善相关性?
我有一个具有因变量和自变量的数据集。两者都不是时间序列。我有120个观察结果。相关系数为0.43 经过此计算后,我为两个变量添加了一个列,每12个观察值的平均值,结果得到2个新列,包含108个观察值(对)。这些列的相关系数为0.77 看来我以这种方式改善了相关性。可以这样做吗?我是否通过使用平均值提高了自变量的解释能力?


1
线性变换的相关不变性:
这实际上是古吉拉特语《基本计量经济学》第4版(Q3.11)中的问题之一,并说相关系数相对于原点和比例的变化是不变的,即,其中,,,是任意常数。corr(aX+b,cY+d)=corr(X,Y)corr(aX+b,cY+d)=corr(X,Y)\text{corr}(aX+b, cY+d) = \text{corr}(X,Y)aaabbbcccddd 但是我的主要问题是:让和成对观察,并假设和正相关,即。我知道基于直觉会为负数。然而,如果我们取,它遵循,其不没有道理。XXXYYYXXXYYYcorr(X,Y)&gt;0corr(X,Y)&gt;0\text{corr}(X,Y)>0corr(−X,Y)corr(−X,Y)\text{corr}(-X,Y)a=−1,b=0,c=1,d=0a=−1,b=0,c=1,d=0a=-1, b=0, c=1, d=0corr(−X,Y)=corr(X,Y)&gt;0corr(−X,Y)=corr(X,Y)&gt;0\text{corr}(-X,Y) = \text{corr}(X,Y) >0 如果有人可以指出差距,我将不胜感激。谢谢。

3
一组不相关但线性相关的变量
是否可以有一组不相关但线性相关的变量?KKK 即 和∑ K i = 1 a i x i = 0cor(xi,xj)=0cor(xi,xj)=0cor(x_i, x_j)=0∑Ki=1aixi=0∑i=1Kaixi=0 \sum_{i=1}^K a_ix_i=0 如果可以,您可以写一个例子吗? 编辑:从答案中得出结论,这是不可能的。 至少有可能,其中是从变量样本,是与不相关的变量。ρ Ñ v X 我P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)\mathbb{P}(|\hat \rho_{x_i, x_j}-\hat \rho_{x_i, v}|<\epsilon)ρ^ρ^\hat\rhonnnvvvxixix_i 我在想类似ķ&gt;&gt;0xK=1K∑K−1i=1xixK=1K∑i=1K−1xix_K=\dfrac{1}{K} \sum_{i=1}^{K-1} x_i K&gt;&gt;0K&gt;&gt;0K>>0

3
如何重新排列2D数据以获得给定的相关性?
我有以下带有两个连续变量的简单数据集;即: d = data.frame(x=runif(100,0,100),y = runif(100,0,100)) plot(d$x,d$y) abline(lm(y~x,d), col="red") cor(d$x,d$y) # = 0.2135273 我需要重新排列数据,以使变量之间的相关性达到〜0.6。我需要使两个变量的均值和其他描述性统计信息(sd,min,max等)保持恒定。 我知道可以与给定数据进行几乎任何关联,即: d2 = with(d,data.frame(x=sort(x),y=sort(y))) plot(d2$x,d2$y) abline(lm(y~x,d2), col="red") cor(d2$x,d2$y) # i.e. 0.9965585 如果我尝试将sample函数用于此任务: cor.results = c() for(i in 1:1000){ set.seed(i) d3 = with(d,data.frame(x=sample(x),y=sample(y))) cor.results = c(cor.results,cor(d3$x,d3$y)) } 我得到了很多相关性: &gt; summary(cor.results) Min. 1st Qu. Median Mean 3rd Qu. …
9 r  correlation 

2
生成具有预定稀疏模式的对称正定矩阵
我正在尝试生成相关矩阵 p×pp×pp\times p(对称psd)具有预先指定的稀疏结构(由节点上的图形指定)。图中连接的节点具有相关性,其余全部为0,对角线全部为1。pppρ∼U(0,1)ρ〜ü(0,1个)\rho \sim U(0,1) 我曾尝试多次生成此矩阵,但很少能获得有效的相关矩阵。 有什么方法可以确保相关矩阵whp吗?请注意,我只能具有正相关,因此等不是一个选择。ρ∼U(−1,1)ρ〜ü(-1个,1个)\rho \sim U(-1,1) 任何帮助是极大的赞赏!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.