Questions tagged «correlation»

一对变量之间线性关联程度的度量。


1
如何计算Spearman等级相关性的置信区间?
维基百科具有Spearman等级相关性的Fisher变换到近似的z分数。也许z得分与零假设(等级相关性0)不同? 此页面具有以下示例: 4, 10, 3, 1, 9, 2, 6, 7, 8, 5 5, 8, 6, 2, 10, 3, 9, 4, 7, 1 rank correlation 0.684848 "95% CI for rho (Fisher's z transformed)= 0.097085 to 0.918443" 他们如何使用Fisher变换获得95%的置信区间?

6
用于识别变量之间关系的R包
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 是否可以使用R包来探索变量之间是否存在关系? 通常,当我寻找模式时,我会先看相关性,然后看一个方面图。然后,我将一些转换手动应用于数据中的变量。我想知道是否可以通过R包来加快此过程。

4
对相关矩阵特征值分布的直觉/解释?
您对相关矩阵特征值分布的直觉/解释是什么?我倾向于听到通常3个最大特征值最重要,而接近零的特征值则是噪声。另外,我已经看过几篇研究论文,研究自然发生的特征值分布与从随机相关矩阵计算得出的特征值分布有何不同(再次,区分信号中的噪声)。 请随时详细说明您的见解。

2
ICC作为同一组中两个随机抽取的单元之间的预期相关性
在多层次建模中,类内相关性通常是根据随机效应方差分析来计算的 yij=γ00+uj+eijyij=γ00+uj+eij y_{ij} = \gamma_{00} + u_j + e_{ij} 其中ujuju_j是2级残差,而eijeije_{ij}是1级残差。然后,我们得到的估计σ^2uσ^u2\hat{\sigma}_u^2和σ 2 Ë为的方差ü Ĵ和Ë 我Ĵ分别,并将其插入公式如下:σ^2eσ^e2\hat{\sigma}_e^2ujuju_jeijeije_{ij} ρ=σ^2uσ^2u+σ^2eρ=σ^u2σ^u2+σ^e2 ρ = \frac{\hat{\sigma}_u^2}{\hat{\sigma}_u^2 +\hat{\sigma}_e^2} Hox(2002)在第15页上写道 类内相关ρ也可以解释为同一组中两个随机绘制的单元之间的预期相关性 有一个问题在这里,询问了先进的问题(为什么它正好等于这个代替近似相等),并获得了先进的答案。 但是,我想问一个简单得多的问题。 问题:谈论同一组中两个随机绘制的单元之间的相关性甚至意味着什么? 我对类内关联适用于组而不适用于成对的数据这一事实有基本的了解。但是,如果我们只有来自同一组的两个随机抽取的单位,我仍然不知道如何计算相关性。例如,如果我查看Wikipedia页面上ICC的点图,则我们有多个组,每个组中有多个点。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
可以仅根据相关系数和样本数量来计算Pearson相关检验的p值吗?
背景:我读过一篇文章,作者从878样本中报告了Pearson相关系数0.754。相关检验的p值显着为“两颗星”(即p <0.01)。但是,我认为在如此大的样本量下,相应的p值应小于0.001(即三颗星)。 可以仅根据皮尔逊相关系数和样本量来计算该检验的p值吗? 如果是,该如何在R中完成?

3
相关性或确定系数是否与沿回归线下降的值的百分比相关?
相关是两个变量之间线性关联的度量。确定系数r 2是一个变量的可变性可以由另一个变量的“解释”的量度。[Rrr[R2r2r^2 例如,如果是两个变量之间的相关性,则r 2 = 0.64。因此,一个方面的差异的64%可以通过另一个方面的差异来解释。对?r = 0.8r=0.8r = 0.8[R2= 0.64r2=0.64r^2 = 0.64 对于上述示例,我的问题是,以下任一陈述正确吗? 64%的值沿着回归线下降 80%的值沿着回归线下降


1
为什么要使用记录变量?
可能这是一个非常基本的问题,但我似乎无法找到一个可靠的答案。我希望在这里,我可以。 我目前正在阅读论文,以准备自己的硕士学位论文。目前,我正在阅读一篇研究推文与股市特征之间关系的论文。 在他们的假设之一中,他们提出“增加的推文交易量与交易量的增加有关”。 我希望它们以成对相关性tweetVolume与关联tradingVolume,但是相反,它们使用记录的版本进行报告:LN(tweetVolume)和LN(tradingVolume)。 对于我的论文,我复制了他们的论文的这一部分。我收集了大约100个公司的6个月以上的推文(tweetVolume)和同一时间段的股票交易量。如果我将绝对变量相关联,r=.282, p.000则会发现,但是当我使用记录的版本时,会发现r=.488, p=.000。 我不明白为什么研究人员有时会使用变量的记录版本,以及为什么相关性似乎要高得多。这是什么原因,为什么可以使用记录的变量? 非常感谢您的帮助:-)

1
为什么对
这可能是一个基本问题,但我想知道为什么可以简单地对回归模型中的值求平方以给出一个解释方差图?[RRR 我知道系数可以增强关系的强度,但是我不了解如何简单地平方该值即可说明所解释的方差。[RRR 有什么简单的解释吗? 非常感谢您的帮助!

2
关联音量时间序列
考虑下图: 红线(左轴)描述了某只股票的交易量。蓝线(右轴)描述了该股票的推特消息量。例如,在5月9日(05-09),进行了约110万笔交易和4.000条推文。 我想计算出时间序列之间是否存在相关性,无论是在同一天还是滞后-例如:推特交易量与一天后的交易量相关。我正在阅读许多进行过此类分析的文章,例如将财务时间序列与微博客活动相关联,但它们并未描述如何实际进行这种分析。文章中说明了以下内容: 但是,我很少有统计分析方面的经验,并且不知道如何在已有的系列文章中执行此操作。我使用SPSS(也称为PASW),我的问题是:从上面的图像基于数据文件的角度出发,要进行这样的分析需要采取哪些步骤?这样的测试是否是默认功能(称为“默认功能”)和/或我还可以执行它吗? 任何帮助将不胜感激 :-)

2
虚假相关的期望值
我们独立于正态分布绘制NNN样本,每个样本的大小为。(μ ,σ 2)nnn(μ,σ2)(μ,σ2)(\mu,\sigma^2) 然后,从样本中选择彼此具有最高(绝对)Pearson相关性的2个样本。NNN 这种相关性的期望值是多少? 谢谢[PS这不是作业]


4
数据集的皮尔逊相关性可能具有零标准偏差?
我在计算标准偏差可能为零的数据集的皮尔逊相关系数时遇到问题(即所有数据具有相同的值)。 假设我有以下两个数据集: float x[] = {2, 2, 2, 3, 2}; float y[] = {2, 2, 2, 2, 2}; 相关系数“ r”将使用以下公式计算: float r = covariance(x, y) / (std_dev(x) * std_dev(y)); 但是,由于数据集“ y”中的所有数据都具有相同的值,因此标准偏差std_dev(y)将为零,而“ r”将不确定。 这个问题有什么解决办法吗?还是在这种情况下我应该使用其他方法来测量数据关系?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.