Questions tagged «correlation»

一对变量之间线性关联程度的度量。

3
生成均匀分布和相关的随机数对
我想生成一对具有一定相关性的随机数。但是,使用两个正态变量的线性组合的常用方法在这里无效,因为均匀变量的线性组合不再是均匀分布的变量。我需要两个变量要统一。 关于如何生成具有给定相关性的统一变量对的任何想法?

5
有没有检测异常值的简单方法?
我想知道是否有一种检测异常值的简单方法。 对于我的一个项目,基本上是受访者一周内参加体育锻炼的次数与一周内他们在家里吃饭(快餐)的次数之间的相关性,我画了一个散点图,从字面上删除了极端的数据点。(散点图显示负相关。) 这是基于价值判断(基于散点图,这些数据点显然是极端的)。我没有做任何统计检验。 我只是想知道这是否是一种处理异常值的好方法。 我有350个人的数据,因此丢失(说)20个数据点对我来说并不担心。

3
偏相关大于零阶相关是否有意义?
这可能表明根本缺乏对部分相关的工作原理的理解。 我有3个变量,x,y,z。当我控制z时,x和y之间的相关性会比不控制z时x和y之间的相关性增加。 这有意义吗?我倾向于认为,当控制第三个变量的效果时,相关性应该降低。 谢谢您的帮助!


1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?

1
距离相关性有直观的表征吗?
我一直在注视着维基百科页面上的距离相关性,该距离相关性似乎由如何计算来表征。虽然我可以进行计算,但仍在努力寻找距离相关量度以及为什么计算看起来像它们一样。 是否存在(或许多)更直观的距离相关特征,可以帮助我理解其测量结果? 我意识到要求直觉有点含糊,但是如果我知道我要的是哪种直觉,我可能一开始就不会要求。对于两个随机变量之间的距离相关情况(即使在两个随机向量之间定义了距离相关)的情况,我也很满意。

4
两个变量的总和如何比单个变量解释更多的方差?
当两个预测变量负相关时,我得到的总和与第三个变量的相关性令人困惑。是什么导致这些令人困惑的结果? 示例1:两个变量的总和与第三个变量之间的相关性 考虑Guildford 1965年文本第427页的公式16.23,如下所示。 困惑的发现:如果两个变量都将.3与第三个变量相关联,并且将-.7彼此相关联,则公式得出的值为.52。如果两个变量各自仅与第三个变量相关联为0.2,那么总和与第三个变量的相关性如何为0.52? 示例2:两个变量和第三个变量之间的多重相关性是什么? 考虑Guildford 1965年文本的404页上的公式16.1(如下所示)。 令人困惑的发现:情况相同。如果两个变量都将.3与第三个变量相关联,并将-.7彼此相关联,则公式得出的值为.52。如果两个变量各自仅与第三个变量相关联为0.2,那么总和与第三个变量的相关性如何为0.52? 我尝试了一个快速的蒙特卡洛模拟,它证实了吉尔福德公式的结果。 但是,如果两个预测变量各自预测第三个变量的方差的4%,那么它们之和如何能预测1/3的方差? 资料来源:《心理学和教育基础统计学》,第四版,1965年。 澄清说明 我正在处理的情况涉及基于现在衡量个人能力来预测他们的未来表现。 下面的两个维恩图显示了我对情况的理解,旨在澄清我的困惑。 该维恩图(图1)反映了x1和C之间的零阶r = .2。在我的领域中,有许多这样的预测变量可以适度地预测标准。 该维恩图(图2)反映了两个这样的预测变量x1和x2,每个预测变量在r = .2时预测C,并且两个预测变量呈负相关,r =-。7。 我不知所措,无法想象两个r = .2预测变量之间的关系,可以使它们一起预测C的25%的方差。 我寻求帮助来了解x1,x2和C之间的关系。 如果(有人回答我的问题建议)x2充当x1的抑制变量,那么第二维恩图中的哪个区域被抑制? 如果有一个具体的例子会有所帮助,我们可以认为x1和x2是两个人的能力,而C是四年后的四年制大学GPA。 我在设想抑制器变量如何导致两个r = .2零阶r的8%解释方差扩大并解释C的25%方差时遇到了麻烦。一个具体的示例将是一个非常有用的答案。


3
Fisher的z转换何时合适?
我想使用p值测试样本相关性的显着性,即[Rrr H0:ρ = 0 ,H1个:ρ ≠ 0。H0:ρ=0,H1:ρ≠0.H_0: \rho = 0, \; H_1: \rho \neq 0. 我了解我可以使用Fisher的z变换来计算 žÒ b 小号= n - 3-----√2ln(1 + r1 − r)zobs=n−32ln⁡(1+r1−r)z_{obs}= \displaystyle\frac{\sqrt{n-3}}{2}\ln\left(\displaystyle\frac{1+r}{1-r}\right) 然后通过找到p值 p = 2 P(Z> zÒ b 小号)p=2P(Z>zobs)p = 2P\left(Z>z_{obs}\right) 使用标准正态分布。 我的问题是:要使它适合转换,应将设为多少?显然,ñ必须大于3,我的教科书没有提到任何限制,但对幻灯片29 本演示它说,ň必须大于10.我会考虑数据较大,我会像5 ≤ ñ ≤ 10。ñnnñnnñnn5 ≤ Ñ ≤ 105≤n≤105 \leq n …

4
如何计算变量组之间/组之间的相关性?
我有一个包含1000个观察值和50个变量的矩阵,每个变量以5分制为单位。这些变量被组织成组,但是每个组中变量的数量并不相等。 我想计算两种类型的相关性: 变量组内的相关性(在特征之间):某种程度的变量,用于确定变量组内的变量是否在测量同一事物。 变量组之间的相关性:某种度量(假设每个组反映一个整体特征)是每个特征(组)如何与其他特征相关联。 这些特征先前已被分为几类。我对找到组之间的相关性很感兴趣-即假设组中的特征正在测量相同的基本特征(已在上面完成#1-Cronbach的alpha值),这些特征本身是否相关? 有人对从哪里开始有建议吗?

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

4
这些基于相关性的距离是否满足三角不等式?
对于分层聚类,我经常看到以下两个“量度”(它们并不是完全正确),用于测量两个随机变量和之间的距离: \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1(X,Y)&= 1- | \ Cor(X,Y)|,\\ d_2(X,Y)&= 1-(\ Cor(X,Y))^ 2 \ end {align} 中的一个一个满足三角不等式?如果是这样,除了进行暴力计算之外,我还应该证明它吗?如果它们不是指标,那么简单的反例是什么?XXXYYY\newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align}

1
使用互信息估计连续变量和分类变量之间的相关性
至于标题,其思想是在MI前后使用互信息来估计连续变量和分类变量之间的“相关性”(定义为“当我知道B时我对A有多少了解”)。稍后,我会告诉您我的想法,但在我建议您阅读CrossValidated上的其他问题/答案之前,因为它包含一些有用的信息。 现在,由于我们无法对分类变量进行积分,因此需要离散化连续变量。在R(这是我进行大多数分析时所用的语言)中,可以很容易地做到这一点。我更喜欢使用该cut函数,因为它也为值取别名,但也可以使用其他选项。问题的关键是,人们必须决定先验可以做任何离散化之前“箱”(离散状态)的数量。 但是,主要问题是另一个问题:MI的范围是0到∞,因为它是未标准化的度量,单位是位。这使得很难将其用作相关系数。这可以通过全局相关系数部分地解决,在这里和之后的GCC是MI的标准版本。GCC定义如下: 参考:该公式摘自AndreiaDionísio,Rui Menezes和Diana Mendes,2010年,《互助信息作为分析股市全球化的非线性工具》。 GCC的范围是0到1,因此可以轻松地用来估计两个变量之间的相关性。问题解决了吧?好吧,有点。因为所有这些过程在很大程度上取决于我们决定在离散化过程中使用的“箱”的数量。这是我的实验结果: 在y轴上有GCC,在x轴上有我决定用于离散化的“ bin”数。这两行指的是我对两个不同(尽管非常相似)的数据集进行的两个不同的分析。 在我看来,一般而言,尤其是GCC的MI用法仍存在争议。但是,这种混乱可能是我一方错误的结果。无论哪种情况,我都很想听听您对此事的看法(此外,您是否可以使用其他方法来估计分类变量和连续变量之间的相关性?)。

2
phi,Matthews和Pearson相关系数之间的关系
phi和Matthews相关系数是同一概念吗?它们如何与两个二元变量的皮尔逊相关系数相关或等效?我假设二进制值为0和1。 两个伯努利随机变量和y之间的皮尔逊相关性是:xxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}} 哪里 E[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11nE[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11n \mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] = \frac{n_{\bullet 1}}{n} \quad \text{Var}[y] …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.