Questions tagged «correlation»

一对变量之间线性关联程度的度量。

5
共线变量怎么办
免责声明:这是一个家庭作业项目。 我正在尝试根据几个变量提出最佳的钻石价格模型,到目前为止,我似乎已经有了一个很好的模型。但是我遇到了两个显然是共线的变量: >with(diamonds, cor(data.frame(Table, Depth, Carat.Weight))) Table Depth Carat.Weight Table 1.00000000 -0.41035485 0.05237998 Depth -0.41035485 1.00000000 0.01779489 Carat.Weight 0.05237998 0.01779489 1.00000000 Table和Depth相互依赖,但是我仍然希望将它们包括在我的预测模型中。我对钻石进行了一些研究,发现“表”和“深度”是指钻石的顶部长度和顶部至底部的距离。由于这些钻石的价格似乎与美感相关,而美感似乎与比例有关,因此,我将使用的比率来预测价格。这是处理共线变量的标准程序吗?如果没有,那是什么?Ť一个b 升ëd Ë p 吨ħŤ一种b升ËdËpŤH\frac{Table}{Depth} 编辑:这是深度〜表的图:

3
因子分析的假设是什么?
我想检查我是否真的了解[经典,线性] 因子分析(FA),尤其是在FA之前(以及之后)所做的假设。 某些数据应首先进行关联,并且它们之间可能存在线性关系。在进行因子分析之后,数据是正态分布的(每对的双变量分布),并且因子之间(通用变量和特异性变量之间)没有相关性,一个因子的变量与其他因子的变量之间也没有相关性。 这是正确的吗?


7
如果相关性并不意味着因果关系,那么知道两个变量之间的相关性有什么价值?
假设某位企业主(或市场营销人员或了解散点图的任何人)显示了两个变量的散点图:过去5年(或其他时间范围)的广告数量与每月产品销售数量的比较还有更多样本。我只是制作了一个)。 现在,他/她看到了散点图,并被告知相关系数(corr)为: 1或 0.5或 0.11或 0或 -0.75或 -1 基本上任何有效值 corr 问题:这甚至对散点图的决策者或任何消费者意味着什么?仅以此为基础就可以做出哪些决定? 即:看到任何两个变量之间的相关性有什么用?一个人可以孤立地处理这些信息吗?仅仅是看什么而不考虑将其包括在回归分析中还是有更实际的用途? 很好奇,我一直都在使用这种技术,但是有人告诉我,关联本身并没有多大用处-那么“ IS”有什么用?

3
为什么
有一个回归模型,其中且且,其相关系数为。Y=a+bXY=a+bXY = a + bXa=1.6a=1.6a = 1.6b=0.4b=0.4b=0.4r=0.60302r=0.60302r = 0.60302 如果随后将和切换,并且等式变为,其中和,则值为。XXXYYYX=c+dYX=c+dYX = c + dYc=0.4545c=0.4545c=0.4545d=0.9091d=0.9091d=0.9091rrr0.603020.603020.60302 我希望有人能解释为什么(d×b)0.5(d×b)0.5(d\times b)^{0.5}也是0.603020.603020.60302。

2
方差不相等的两个样本t检验的贝叶斯对应物是什么?
我正在寻找方差不相等的两个样本t检验的贝叶斯对应物(韦尔奇检验)。我也在寻找多变量检验,例如Hotelling的T统计量。参考文献表示赞赏。 对于多元情况,假设我们有和(z 1,⋯ ,z N),其中y i(resp z i)是样本均值,样本标准差和数量的捷径点。我们可以假设点数在整个数据集中是恒定的,所有y i的标准偏差都相同(resp z i),并且y i的样本均值(resp z i)(y1个,⋯ ,yñ)(y1,⋯,yN)(y_1,\cdots,y_N)(z1个,⋯ ,zñ)(z1,⋯,zN)(z_1,\cdots,z_N)ÿ一世yiy_iž一世ziz_iÿ一世yiy_iž一世ziz_iÿ一世yiy_iž一世ziz_i)是相关的。如果绘制样本均值,它们将彼此跟随并通过连接它们,您将获得平滑的变化函数。现在,在一些地方功能与同意ž功能,但别人没有,因为米Ë 一个ñ (Ÿ 我)- 米Ë 一个ñ (ž 我)yyyzzz变大。我想对此陈述进行量化。 mean(yi)−mean(zi)std(yi)+std(zi)mean(yi)−mean(zi)std(yi)+std(zi)\frac{mean(y_i)-mean(z_i)}{std(y_i)+std(z_i)}

1
高相关变量的和与差几乎不相关的参考
在我写的一篇论文中,我对和而不是和进行了随机建模,以有效消除和高度相关且方差相等(如在我的应用程序中)时出现的问题。裁判员希望我提供参考。我可以很容易地证明这一点,但是作为应用期刊,他们更喜欢引用简单的数学推导。X − Y XX+ YX+YX+YX- ÿX−YX-YXXXX YÿYYXXXÿYY 有没有人有适当建议的建议?我以为Tukey的EDA书(1977)中有关于总和与差异的内容,但我找不到。

4
由于Y和X的相关性,如何在解释方差中表示增益?
我正在寻找如何(直观地)向大一学生解释简单的线性相关性。 可视化的经典方法是给出带有直线回归线的Y〜X散点图。 最近,我想到了通过向图添加3张图像来扩展此类图形的想法,剩下的是:y〜1,然后是y〜x,resid(y〜x)〜x,最后是散点图残差(y〜x)〜1(以平均值为中心) 这是这种可视化的示例: 和产生它的R代码: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10)) plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y)) points(1,mean(y), col = 2, pch = 19, cex = 2) plot(y~x, ylab = "", ) abline(lm(y~x), col = 2, lwd = …

4
MANOVA与因变量之间的相关性:太强有多强?
MANOVA中的因变量不应“过强地相关”。但是相关性有多强呢?得到人们对此问题的看法将是很有趣的。例如,在以下情况下,您会继续使用MANOVA吗? Y1和Y2与和p &lt; 0.005r = 0.3r=0.3r=0.3p &lt; 0.005p&lt;0.005p<0.005 Y1和Y2与和p = 0.049r = 0.7r=0.7r=0.7p = 0.049p=0.049p=0.049 更新资料 回应@onestop的一些代表性报价: “ MANOVA在DV之间存在适度相关性的情况下效果很好”(来自旧金山州立大学的课程注释) “相关变量适用于Manova”(美国EPA Stats Primer) “因变量应该在概念上相关,并且应该在低到中等水平上相互关联。” (北亚利桑那大学的课程笔记) “相关的DV从大约0.3到大约0.7是合格的”(Maxwell,2001年,消费者心理学杂志) nb我不是指这样的假设,即Y1和Y2之间的互相关在所有自变量级别上都应该相同,只是关于互相关的实际大小的这个明显的灰色区域。

2
快速评估(可视化)R中有序分类数据之间的相关性?
我在调查中寻找不同问题的答案之间的相关性(“嗯,让我们看看问题11的答案是否与问题78的答案相关”)。所有答案都是分类的(大多数答案的范围是从“非常不高兴”到“非常高兴”),但是有几个答案却有所不同。它们中的大多数都可以视为序数,因此让我们在这里考虑这种情况。 由于我无权使用商业统计程序,因此必须使用R。 我尝试了Rattle(R的一个免费软件数据挖掘程序包,非常漂亮),但是不幸的是它不支持分类数据。我可以使用的一种技巧是在R中导入具有数字(1..5)的调查的编码版本,而不是“非常不高兴” ...“高兴”,并让Rattle相信它们是数字数据。 我当时想做一个散点图,并且使点的大小与每对数字的数量成正比。经过一番谷歌搜索后,我发现http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/,但是(对我来说)这似乎很复杂。 我不是统计学家(而是程序员),但是对此事有一定的了解,如果我理解正确的话,Spearman的观点是合适的。 因此,对于那些急着想解决问题的人来说,这是一个简短的问题:是否有办法快速将Spearman的rho绘制在R中?图形比数字矩阵更可取,因为它更易于观察,也可以包含在材料中。 先感谢您。 PS我考虑了一段时间,是将其发布在主要的SO网站还是此处。在两个网站上搜索R相关性后,我觉得这个网站更适合这个问题。

3
居中意味着减少协方差吗?
假设我有两个非独立的随机变量,并且想在不损失过多“信号”的情况下尽可能减小它们之间的协方差,这是否意味着居中?我在某处读到,意思是居中将相关性降低了一个重要因素,所以我认为对协方差也应如此。

4
相关矩阵特征值为零的充要条件
给定随机变量,其概率分布为,相关矩阵为正半定值,即其特征值是正数还是零。nnnXiXiX_iP(X1,…,Xn)P(X1,…,Xn)P(X_1,\ldots,X_n)Cij=E[XiXj]−E[Xi]E[Xj]Cij=E[XiXj]−E[Xi]E[Xj]C_{ij}=E[X_i X_j]-E[X_i]E[X_j] 我对上具有 零特征值所必需和/或足够的条件感兴趣。例如,一个充分的条件是随机变量不是独立的:对于某些实数。例如,如果,则为特征值为零的的特征向量。如果我们对此类型的具有独立的线性约束,则意味着零特征值。PPPCCCmmm∑iuiXi=0∑iuiXi=0\sum_i u_i X_i=0uiuiu_iP(X1,…,Xn)=δ(X1−X2)p(X2,…,Xn)P(X1,…,Xn)=δ(X1−X2)p(X2,…,Xn)P(X_1,\ldots,X_n)=\delta(X_1-X_2)p(X_2,\ldots,X_n)u⃗ =(1,−1,0,…,0)u→=(1,−1,0,…,0)\vec u=(1,-1,0,\ldots,0)CCCmmmXiXiX_immm 当对于某个(即)时,至少存在另外一种(但琐碎的)可能性,因为情况有一列和零行:。因为这并不是很有趣,所以我假设概率分布不是那种形式。一P (X 1,... ,X Ñ)α δ (X 一 - ë [ X 一 ] )ç 我Ĵ Ç 我一个 = C ^ 一个我 = 0 ,Xa=E[Xa]Xa=E[Xa]X_a=E[X_a]aaaP(X1,…,Xn)∝δ(Xa−E[Xa])P(X1,…,Xn)∝δ(Xa−E[Xa])P(X_1,\ldots,X_n)\propto\delta(X_a-E[X_a])CijCijC_{ij}Cia=Cai=0,∀iCia=Cai=0,∀iC_{ia}=C_{ai}=0,\,\forall i 我的问题是:线性约束是诱导零特征值的唯一方法(如果我们禁止上面给出的琐碎例外),还是对随机变量的非线性约束也可以生成零特征值?CCC

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
正弦和余弦之间的相关性
假设XXX均匀地分布在[ 0 ,2个π][0,2π][0, 2\pi]。让ÿ= 罪XY=sin⁡XY = \sin X和ž= cosXZ=cos⁡XZ = \cos X。证明ÿYY和之间的相关性žZZ为零。 看来我需要知道正弦和余弦的标准偏差及其协方差。我该如何计算? 我认为我需要假设XXX具有均匀的分布,然后看一下转换后的变量ÿ= 罪(X)Y=sin⁡(X)Y=\sin(X)和ž= cos(X)Z=cos⁡(X)Z=\cos(X)。然后潜意识统计学家的定律将给出期望值 Ë[ Y] = 1b − a∫∞- ∞罪(x )dXE[Y]=1b−a∫−∞∞sin⁡(x)dxE[Y] = \frac{1}{b-a}\int_{-\infty}^{\infty} \sin(x)dx和Ë[ Z] = 1b − a∫∞- ∞cos(x )dXE[Z]=1b−a∫−∞∞cos⁡(x)dxE[Z] = \frac{1}{b-a}\int_{-\infty}^{\infty} \cos(x)dx (密度是恒定的,因为它是均匀的分布,因此可以从积分中移出)。 但是,这些积分没有定义(但我认为柯西主值是零)。 我该如何解决这个问题?我想我知道解决方案(相关性为零,因为正弦和余弦具有相反的相位),但是我找不到如何导出它。

5
关于协方差定义的直觉
我试图更好地理解两个随机变量的协方差,并了解想到它的第一个人如何得出统计中通常使用的定义。我去了维基百科更好地了解它。从本文看来,良好候选度量或数量应具有以下属性:Co v (X,Y)Cov(X,Y)Cov(X,Y) 当两个随机变量相似时(即当一个随机变量增加另一个变量时,而当一个随机变量减小另一个变量时,它应具有正号)。 我们还希望当两个随机变量相反相似时(即,当一个随机变量增大时,另一个随机变量趋于减小),它具有负号。 最后,当两个变量彼此独立时(即它们彼此之间不互变),我们希望此协方差量为零(或可能很小?)。 根据以上属性,我们要定义。我的第一个问题是,对我来说,为什么C o v (X ,Y )= E [ (X - E [ X ] )(Y - E [ Y ] )]Co v (X,Y)Cov(X,Y)Cov(X,Y)Co v (X,Y)= E[ (X− E[ X] )(Y− E[ Y] )]Cov(X,Y)=E[(X−E[X])(Y−E[Y])]Cov(X,Y) = E[(X-E[X])(Y-E[Y])]满足这些特性。从我们拥有的属性来看,我希望更多的类似于“导数”的方程式是理想的选择。例如,更像是“如果X的变化为正,则Y的变化也应为正”。另外,为什么要从均值中减去差异才是“正确”的事情? 一个更切线但仍然有趣的问题,是否存在一个可以满足这些特性并且仍然有意义且有用的不同定义?我之所以这样问,是因为似乎没有人质疑我们为什么要首先使用此定义(感觉,它的“总是这样”,在我看来,这是一个可怕的原因,它阻碍了科学和技术的发展。数学的好奇心和思考)。公认的定义是否是我们可以拥有的“最佳”定义? 这些是我对为什么可接受的定义有意义的想法(它只是一个直观的论点): 让是变量X的一些差异(即,它从一些值改变为其他值在一段时间内)。类似地,对于定义Δ ÿ。ΔXΔX\Delta_XΔÿΔY\Delta_Y 对于某个时间实例,我们可以通过执行以下操作来计算它们是否相关: š 我克n (ΔX&CenterDot;&Δÿ)sign(ΔX⋅ΔY)sign(\Delta_X \cdot …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.