Questions tagged «correlation»

一对变量之间线性关联程度的度量。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
绑定三个随机变量的相关性
有三个随机变量。三个变量之间的三个相关性是相同的。那是,x,y,zx,y,zx,y,z ρ=cor(x,y)=cor(x,z)=cor(y,z)ρ=cor(x,y)=cor(x,z)=cor(y,z)\rho=\textrm{cor}(x,y)=\textrm{cor}(x,z)=\textrm{cor}(y,z) 您可以为给出的最严格限制是什么?ρρ\rho

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
为什么随机行走相互关联?
我已经观察到,平均而言,皮尔逊相关系数的绝对值是一个常数,接近于任何一对独立的随机游动,而与游动长度无关。0.560.42 有人可以解释这种现象吗? 我希望相关性会随着步长的增加而减小,就像任何随机序列一样。 在我的实验中,我使用步长均值为0且步长标准偏差为1的随机高斯步态。 更新: 我忘了以数据为中心,这就是为什么它0.56不是的原因0.42。 这是计算相关性的Python脚本: import numpy as np from itertools import combinations, accumulate import random def compute(length, count, seed, center=True): random.seed(seed) basis = [] for _i in range(count): walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) ))) if center: walk -= np.mean(walk) basis.append(walk / np.sqrt(np.dot(walk, walk))) …

9
没有因果关系,关联何时可用?
许多统计学家的口头禅是“关联并不意味着因果关系”。这确实是正确的,但是在这里确实暗示了一件事,即关联几乎没有价值。这是真的?知道两个变量相关是否有用吗? 我无法想象是这样。我对预测分析并不十分熟悉,但似乎如果X是的预测因子Y,则无论因果关系如何,它对于预测Y基于的未来值都会很有用X。 我看到相关值不正确吗?如果不是,在什么情况下统计学家或数据科学家可能会使用因果关系而没有因果关系?


7
相关性等于关联吗?
我的统计学教授声称,“相关性”一词严格适用于变量之间的线性关系,而“关联性”一词则广泛适用于任何类型的关系。换句话说,他声称术语“非线性相关”是矛盾的。 从我在Wikipedia上有关“ 相关性和依赖性 ”的文章中可以理解的这一点来看,Pearson相关系数描述了两个变量之间关系的“线性”程度。这表明术语“相关”实际上确实仅适用于线性关系。 另一方面,谷歌快速搜索“ 非线性相关性 ”会发现许多使用该术语的已发表论文。 我的教授是正确的,还是“关联”只是“关联”的同义词?

2
相关性是否假设数据平稳?
市场间分析是一种通过查找不同市场之间的关系来对市场行为建模的方法。通常,会计算两个市场之间的相关性,比如说标准普尔500和30年期美国国债。这些计算通常不是基于价格数据,这对每个人来说都是显而易见的,它不符合固定时间序列的定义。 除了可能的解决方案(改为使用收益)以外,相关性计算(其数据是非平稳的)甚至是有效的统计计算吗? 您是否会说这样的相关性计算有些不可靠,或者只是胡说八道?

7
测试矩阵列之间的线性相关性
我有一个行列式为零的安全收益相关矩阵。(这有点令人惊讶,因为样本相关矩阵和相应的协方差矩阵在理论上应该是正定的。) 我的假设是,至少一种证券线性依赖于其他证券。R中是否有一个函数可以按顺序测试每个列的线性相关性? 例如,一种方法是一次建立一个安全性的相关矩阵,并在每个步骤计算行列式。当行列式= 0时,请停止运行,因为您已确定证券是其他证券的线性组合。 识别在这样的矩阵中的线性相关性的任何其他技术是可以理解的。



3
正交,相关和独立之间的关系是什么?
我读过一篇文章说,当使用计划的对比来发现均方差不同的均值时,对比度应该是正交的,以使它们不相关并防止I型错误被夸大。 我不明白为什么正交在任何情况下都意味着不相关。我找不到直观/直观的解释,所以我试图理解这些文章/答案 https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf 在统计方面正交是什么意思? 但是对我来说,他们彼此矛盾。第一个说法是,如果两个变量不相关和/或正交,则它们是线性独立的,但是它们线性独立的事实并不意味着它们是不相关和/或正交的。 现在在第二个链接上有回答,指出诸如“正交意味着不相关”和“如果X和Y是独立的,则它们是正交的。但是反之则不成立”之类的答案。 在第二个链接中,另一个有趣的评论指出,两个变量之间的相关系数等于对应于这些变量的两个向量之间的夹角的余弦值,这意味着两个正交向量是完全不相关的(这与第一篇文章无关)索赔)。 那么独立性,正交性和相关性之间的真正关系是什么?也许我错过了一些东西,但我找不到它。

5
如何测试和避免混合线性模型中的多重共线性?
我目前正在运行一些混合效果线性模型。 我在R中使用软件包“ lme4”。 我的模型采用以下形式: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) 在运行模型之前,我检查了预测变量之间可能的多重共线性。 我这样做是: 建立预测变量的数据框 dummy_df <- data.frame(predictor1, predictor2) 使用“ cor”功能来计算预测变量之间的Pearson相关性。 correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) 如果“ correl_dummy_df”大于0.80,则我认为预测变量1和预测变量2的相关性太高,因此它们未包含在我的模型中。 在阅读时,将出现更多客观的方法来检查多重共线性。 有人对此有任何建议吗? “方差通胀因子(VIF)”似乎是一种有效方法。 可以使用AED程序包中的函数“ corvif”(非cran)来计算VIF。可以在http://www.highstat.com/book2.htm上找到该软件包。该软件包支持以下书籍: Zuur,AF,Ieno,EN,Walker,N.,Saveliev,AA和Smith,GM2009。《混合效应模型和生态学扩展》 R,第1版。纽约斯普林格。 似乎一般的经验法则是,如果VIF> 5,则预测变量之间的多重共线性较高。 使用VIF是否比简单的Pearson相关性更强大? 更新资料 我在以下位置找到了一个有趣的博客: http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/ 博主提供了一些有用的代码,可为来自lme4软件包的模型计算VIF。 我已经测试了代码,并且效果很好。在随后的分析中,我发现模型的多重共线性不是一个问题(所有VIF值均小于3)。鉴于我之前已经发现某些预测变量之间存在较高的皮尔逊相关性,因此这很有趣。

5
关于Copulas的入门阅读
一段时间以来,我一直在为我的研讨会寻找有关Copulas的良好介绍性阅读。我发现有很多关于理论方面的材料,这是很好的,但是在我将其介绍之前,我希望对这一主题建立良好的直观理解。 谁能提出建议为初学者打好基础的好论文(我在合理的程度上开设了1-2门统计学课程,并了解边际,多元分布,逆变换等)?

1
多重相关系数和确定系数几何解释
我对回归的多重相关性和确定系数的几何含义感兴趣或矢量记号,RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} 这里的设计矩阵有行和列,其中第一个是,它是1s的向量,对应于截距。XX\mathbf{X}nnnkkkx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_nβ1β1\beta_1 在维主题空间而不是维变量空间中,几何更有趣。定义帽子矩阵:nnnkkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top 这是的列空间上的正交投影,即 由代表每个变量的向量跨越的原点的平坦部分,其中第一个是。然后将观测到的响应投影到平面上的“阴影”上,拟合值的向量,如果沿着投影的路径看,我们会看到残差向量形成了三角形的第三边。这应该为我们提供两种途径来对进行几何解释XX\mathbf{X}kkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}ý = ħ Ŷ ë = ÿ - ÿ - [R 2yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}R2R2R^2: 多重相关系数的平方,它定义为和之间的相关性。这将在几何上显示为角度的余弦。RRRÿyy\mathbf{y}y^y^\mathbf{\hat{y}} …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.