Questions tagged «correlation»

一对变量之间线性关联程度的度量。

9
相关并不意味着因果关系;但是什么时候变量是时间呢?
我知道这个问题已经问过十亿次了,因此,在网上看后,我完全相信2个变量之间的相关性并不表示因果关系。在我今天的一次统计讲座中,我们做了一次物理学家的客座演讲,内容涉及统计学方法在物理学中的重要性。他说了一个惊人的声明: 相关性并不意味着因果关系,除非变量是时间。因此,如果某个自变量与时间之间存在很强的相关性,那么这也暗示了因果关系。 我以前从未听过这句话。物理学家/相对主义者对“因果”的看法与统计人员不同吗?


5
连续变量和分类(标称)变量之间的相关性
我想找到连续变量(因变量)和分类变量(标称:性别,自变量)之间的相关性。连续数据不是正态分布。在此之前,我已经使用Spearman的进行了计算。但是,有人告诉我这是不对的。ρρ\rho 在互联网上搜索时,我发现箱线图可以提供有关它们之间关联程度的想法;但是,我一直在寻找量化值,例如Pearson的乘积矩系数或Spearman的。您能帮我怎么做吗?或者,告知哪种方法合适?ρρ\rho 双峰系数会是正确的选择吗?

5
与相关系数之间的关系
比方说,我有两个一维数组,一种1个a1a_1和一种2a2a_2。每个包含100个数据点。一种1个a1a_1是实际数据,一种2a2a_2是模型预测。在这种情况下,[R2R2R^2值为: [R2= 1 - S小号[R Ë 小号小号小号吨ö 吨 (1 )。R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). 同时,这将等于相关系数的平方值, [R2= (相关系数)2(2 )。R2=(Correlation Coefficient)2(2). R^2 = (\text{Correlation Coefficient})^2 \quad (2). 现在,如果我交换两个:一种2a2a_2是实际的数据,和一种1个a1a_1是模型预测。根据等式(2 )(2)(2),由于相关系数无关紧要,因此[R2R2R^2值相同。然而,从等式(1 )(1)(1),小号小号吨ö 吨= ∑一世(y一世- ÿ¯)2SStot=∑i(yi−y¯)2SS_{tot}=\sum_i(y_i - \bar y )^2时,[R2R2R^2值将改变,因为小号小号吨ö 吨SStotSS_{tot}如果我们切换已经改变ÿyy从一种1个a1a_1到一种2a2a_2 ; 在此同时,小号小号[R Ë 小号= ∑一世(f一世- ÿ¯)2SSres=∑i(fi−y¯)2SS_{res}=\sum_i(f_i-\bar y)^2也不会改变。 我的问题是:这些如何相互矛盾? 编辑: …

9
在此图中,
下图中和之间的关系是什么?在我看来,存在负线性关系,但是由于我们有很多异常值,因此该关系非常弱。我对吗?我想学习如何解释散点图。XYYYXXX

3
随机森林和极端随机树之间的区别
我了解到,随机森林树和极随机树在意义上是不同的,即随机森林中的树的分割是确定性的,而对于极随机树则它们是随机的(更准确地说,下一个分割是最佳分割在当前树的所选变量中的随机均匀拆分中)。但是我不完全理解这种不同拆分在各种情况下的影响。 他们如何比较偏差/方差? 如果存在不相关的变量,它们如何比较? 在存在相关变量的情况下如何比较?

1
手动计算的
我知道这是一个相当具体的R问题,但我可能正在考虑错误解释的比例方差。开始。[R2R2R^2 我正在尝试使用该R包装randomForest。我有一些训练数据和测试数据。当我拟合随机森林模型时,该randomForest函数允许您输入新的测试数据进行测试。然后,它告诉您此新数据中说明的方差百分比。当我看到这个时,我得到一个数字。 当我使用该predict()函数基于训练数据的模型拟合来预测测试数据的结果值时,并取这些值与测试数据的实际结果值之间的平方相关系数,得出一个不同的数字。这些值不匹配。 这是一些R代码来演示该问题。 # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a model to the training set (column …

1
为什么Mantel的考试比Moran的I更受青睐?
Mantel的测试广泛用于生物学研究中,以检查动物的空间分布(在空间中)与它们的遗传相关性,侵略率或其他属性之间的相关性。许多优秀的期刊正在使用它( PNAS,动物行为,分子生态学...)。 我捏造了一些自然界中可能出现的模式,但是Mantel的测试似乎无法检测到它们。另一方面,Moran's I的结果更好(请参见各图下的p值)。 为什么科学家们不使用莫兰的我呢?有一些我看不到的隐藏原因吗?如果有某种原因,我如何知道(必须以不同的方式构造假设)以适当地使用我测试的Mantel或Moran的?一个真实的例子会有所帮助。 想象这种情况:每棵树上都有一个乌鸦的果园(17 x 17棵树)。每个乌鸦的“噪音”级别都可用,您想知道乌鸦的空间分布是否由它们发出的噪音决定。 至少有5种可能性: “羽毛鸟聚集在一起。” 相似的乌鸦越多,它们之间的地理距离(单个簇)越小。 “羽毛鸟聚集在一起。” 同样,乌鸦越相似,它们之间的地理距离就越小(多簇),但是一簇嘈杂的乌鸦不知道第二簇的存在(否则它们会融合成一个大簇)。 “单调趋势。” “异性相吸。” 类似的乌鸦不能站在一起。 “随机模式。” 噪声水平对空间分布没有重大影响。 对于每种情况,我都创建了一个点图并使用Mantel检验来计算相关性(不足为奇的是,其结果不显着,我永远也不会尝试在这些点模式之间找到线性关联)。 示例数据:( 尽可能压缩) r.gen <- seq(-100,100,5) r.val <- sample(r.gen, 289, replace=TRUE) z10 <- rep(0, times=10) z11 <- rep(0, times=11) r5 <- c(5,15,25,15,5) r71 <- c(5,20,40,50,40,20,5) r72 <- c(15,40,60,75,60,40,15) r73 <- c(25,50,75,100,75,50,25) rbPal …

2
普通英语中的复合对称是什么?
我最近意识到,将混合模型的相关结构设置为复合对称性时,仅将主体作为随机因素而将其他因素作为固定因素的混合模型等效于ANOVA。 因此,我想知道在混合(即分裂图)方差分析的背景下复合对称是什么意思,充其量只能用简单的英语进行解释。 除了复合对称性以外,lme还提供其他类型的相关结构,例如 corSymm 通用相关矩阵,没有其他结构。 或不同类型的空间相关性。 因此,我有一个相关的问题,关于在设计实验的环境中(对象间和对象内的因素)建议使用其他类型的相关结构? 如果答案能指向一些针对不同相关结构的参考文献,那就太好了。

4
X和Y没有相关性,但是X是多元回归中Y的重要预测因子。这是什么意思?
X和Y不相关(-.01);但是,当我将X放入预测Y的多元回归中时,与其他三个(A,B,C)变量(相关)并列,X和另外两个变量(A,B)是Y的重要预测因子。请注意,另外两个( A,B)变量在回归之外与Y显着相关。 我应该如何解释这些发现?X可以预测Y的唯一方差,但是由于这些不相关(Pearson),因此难以解释。 我知道相反的情况(即,两个变量是相关的,但回归不显着),从理论和统计的角度来看,它们相对较容易理解。请注意,一些预测变量之间的相关性很高(例如,.70),但与我预期的实质多重共线性的程度不同。不过,也许我误会了。 注意:我之前曾问过这个问题,所以已经关闭了。合理的理由是,该问题与“ 回归如何显着而所有预测变量都不显着? ”这样的问题是多余的。“。也许我不理解另一个问题,但我认为这些问题在数学和理论上都是完全独立的问题。我的问题与“回归显着”是否完全独立。此外,有几个预测变量也很重要,而另一个问题包含的变量并不重要,因此我看不到重叠之处。如果由于我不理解的原因这些问题是多余的,请在关闭此问题之前插入一条评论。此外,我也希望向主持人关闭另一个问题,以避免相同的问题,但我找不到这样做的选择。

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
因变量乘积的方差
因变量乘积方差的公式是什么? 对于自变量,公式很简单: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 但是相关变量的公式是什么? 顺便问一下,如何根据统计数据找到相关性?


5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
相关矩阵的SVD应该是可加的,但似乎不是
我只是想复制以下论文中的主张,即从Gene Expression Data中找到相关的Biclusters,即: 命题4.如果。那么我们有:XIJ=RICTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} 一世。如果是具有加性模型的理想双齐群,则X I J是在列上具有相关性的理想双齐群; ii。如果C J是带加性模型的理想双齐群,则X I J是行相关的理想双齐群。 iii。如果R I和C J都是具有加性模型的理想双齐群,则X I J是理想的相关双齐群。RIRIR_{I}XIJXIJX_{IJ}CJCJC_JXIJXIJX_{IJ}RIRIR_ICJCJC_JXIJXIJX_{IJ} 这些主张很容易得到证明。 ...但是,当然,他们没有证明这一点。 我使用论文中的一些简单示例以及基本代码+自定义R代码来查看我是否可以演示该建议。 corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (来自表1F) 一些自定义代码,可以将标准X = svd形式转换为X = R C T,如本文所述:üdVŤüdVŤUdV^TX= R CŤX=[RCŤX=RC^{T} svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) { #convert standard SVD decomposed matrices UEV' …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.