Questions tagged «correlation»

一对变量之间线性关联程度的度量。

5
高p值的强相关系数示例
我想知道,是否可能有一个非常强的相关系数(例如0.9或更高)和高p值(例如0.25或更高)? 这是一个相关系数较低,p值较高的示例: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927,p = 0.6994 高相关系数,低p值: y <- rnorm(100) x <- rnorm(100)+2*y cor.test(x,y) cor = 0.8807809,p = 2.2e-16 低相关系数,低p值: y <- rnorm(100000) x <- rnorm(100000)+.1*y cor.test(x,y) cor = 0.1035018,p = 2.2e-16 高相关系数,高p值:???

3
确定系数(
我想完全理解描述变量之间变化量的的概念。每个网络的解释都有些机械和晦涩。我想“理解”这个概念,而不仅仅是机械地使用数字。[R2r2r^2 例如:学习时数与考试成绩 = 0.8[Rrr = .64[R2r2r^2 那么这是什么意思? 考试成绩变异性的64%可以用小时来解释吗? 我们怎么知道只是平方呢?

1
生成相关的二项式随机变量
我想知道遵循线性变换方法是否可能生成相关的随机二项式变量? 下面,我尝试了一些简单的R语言,它产生了一些相关性。但是我想知道是否有原则性的方法可以做到这一点? X1 = rbinom(1e4, 6, .5) ; X2 = rbinom(1e4, 6, .5) ; X3 = rbinom(1e4, 6, .5) ; a = .5 Y1 = X1 + (a*X2) ; Y2 = X2 + (a*X3) ## Y1 and Y2 are supposed to be correlated cor(Y1, Y2)


4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

5
在两个变量的对数之间具有线性关系的直观含义是什么?
我有两个变量,当按原样相互绘制时,它们并没有显示出太多的相关性,但是当我绘制每个变量的对数时,它们之间却呈现出非常清晰的线性关系。 所以我最终得到一个类型的模型: log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + b,在数学上很棒,但是似乎没有常规线性模型的解释价值。 如何解释这样的模型?

1
当且仅当它们的等级相关时,随机变量才相关吗?
假设是具有有限第二矩的连续随机变量。Spearman秩相关系数ρ_s的总体版本可以定义为概率积分变换F_X(X)和F_Y(Y)的皮尔逊积矩系数ρ ,其中F_X,F_Y是X和Y的cdf 。ρ小号˚F X(X )˚F Ý(Ý )˚F X,˚F ÿ X ÿX,YX,YX,Yρsρsρ_sFX(X)FX(X)F_X(X)FY(Y)FY(Y)F_Y(Y)FX,FYFX,FYF_X,F_YXXXYÿY ρs(X,Y)= ρ(F(X),˚F(是))ρs(X,Y)=ρ(F(X),F(Y))ρ_s(X,Y)=ρ(F(X),F(Y))。 我想知道是否可以普遍得出这样的结论: ρ(X,Y)≠ 0 ↔ ρ(˚F(X),˚F(是))≠ 0ρ(X,ÿ)≠0↔ρ(F(X),F(ÿ))≠0ρ(X,Y)≠0↔ρ(F(X),F(Y))≠0? 即,当且仅当秩之间具有线性相关性时,我们才具有线性相关性吗? 更新:在评论中给出了两个例子,为什么 ρ (˚FX(X),˚Fÿ(是))= 0 → ρ (X,Y)= 0ρ(FX(X),Fÿ(ÿ))=0→ρ(X,ÿ)=0\rho(F_X(X),F_Y(Y))=0\rightarrow \rho(X,Y) = 0 即使XXX和ÿÿY具有相同的分布,通常也不是正确的。所以这个问题应该改写为 ρ(X,Y)= 0 → ρ (FX(X),˚Fÿ(是))ρ(X,ÿ)=0→ρ(FX(X),Fÿ(ÿ))\rho(X,Y) = 0 \rightarrow \rho(F_X(X),F_Y(Y))吗? 如果XXX和ÿÿY具有相同的分布,那么这是否为真对我也很感兴趣。 (注意:如果XXX和ÿÿY与正象限相关,即δ(x,y)= FX,Y(x ,y)- ˚FX(x )Fÿ(y)> 0δ(X,ÿ)=FX,ÿ(X,ÿ)-FX(X)Fÿ(ÿ)>0δ(x,y)=F_{X,Y}(x,y)−F_X(x)F_Y(y)>0则霍夫丁的协方差公式CØ v (X,Y)= …

2
皮尔逊相关系数对违反正态性的鲁棒性如何?
当在特定人群中进行测量时,某些变量的数据往往是非正常的(例如,患有严重抑郁症的人群中的抑郁水平)。假设Pearson假设为正态性,那么在非正态条件下检验统计量的稳健性如何? 我有一些我想要相关系数的变量,但是其中一些变量的Z偏度在p <.001时很明显(这是相对较小的样本)。我已经尝试了一些转换,但是发行版中的改进充其量只是微不足道的。 我是否必须坚持使用非参数分析?不仅是相关性,还有其他类型的分析?

4
平均相关值
假设我测试了变量在不同实验条件下如何Y取决于变量X,并获得下图: 上图中的虚线表示每个数据系列(实验设置)的线性回归,图例中的数字表示每个数据系列的Pearson相关性。 我想之间计算“平均相关性”(或“平均关系”)X和Y。我可以简单地取平均值r吗?那么“平均确定标准” 呢?我应该计算平均值,然后取该值的平方,还是应该计算单个R 2的平均值?R2R2R^2rR2R2R^2

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
可以直观地解释用于检测非线性相关性的MIC算法吗?
最近,我读了两篇文章。第一个是相关性的历史,第二个是称为最大信息系数(MIC)的新方法。我需要您的帮助以了解MIC方法来估算变量之间的非线性相关性。 此外,可以在作者的网站上找到有关在R中使用它的说明(在下载下): 我希望这将是一个讨论和理解此方法的好平台。我有兴趣讨论这种方法背后的一种直觉以及如何扩展该方法,如作者所说。 “ ... ...我们需要将MIC(X,Y)扩展到MIC(X,Y | Z)。我们将想知道需要多少数据才能获得MIC的稳定估计值,离群值有多容易受到影响,这三个-或更高维度的关系将丢失,甚至更多。MIC是向前迈出的重要一步,但还有更多步骤需要采取。 ”

4
相关与因果关系
在Wikipedia页面上标题为“ 相关性”并不表示因果关系, 对于任何两个关联事件A和B,不同的可能关系包括: A导致B(直接因果关系); B导致A(反向因果关系); A和B是共同原因的结果,但不会相互导致。 A和B都导致C(显式或隐式)为条件。 A原因B,B原因A(双向或循环因果关系); A导致C导致B(间接因果关系); A和B之间没有连接;相关性是巧合。 第四点是什么意思。A和B都导致C,这是(显式或隐式)条件。如果A和B导致C,为什么必须将A和B关联起来。

5
如何使用Cholesky分解或其他方法进行关联数据模拟
给定相关矩阵,我使用Cholesky分解来模拟相关的随机变量。问题是,结果永远不会像给出的那样重现相关结构。这是Python中的一个小例子来说明这种情况。 import numpy as np n_obs = 10000 means = [1, 2, 3] sds = [1, 2, 3] # standard deviations # generating random independent variables observations = np.vstack([np.random.normal(loc=mean, scale=sd, size=n_obs) for mean, sd in zip(means, sds)]) # observations, a row per variable cor_matrix = np.array([[1.0, 0.6, 0.9], [0.6, 1.0, …


3
如何使用预先指定的相关矩阵生成数据?
我正在尝试生成均值=,方差=,相关系数=相关随机序列。在下面的代码中,我将&用作标准偏差,并将&用作均值。1 0.80001个110.80.80.8s1s2m1m2 p = 0.8 u = randn(1, n) v = randn(1, n) x = s1 * u + m1 y = s2 * (p * u + sqrt(1 - p^2) * v) + m2 这使我corrcoef()在x和之间的0.8 正确y。我的问题是,如果我希望z该系列也与y(具有相同的相关性)相关但又与不相关,我该如何生成它。我需要知道一个特定的公式吗?我找到了一个,但听不懂。r = 0.8r=0.8r=0.8x

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.