Questions tagged «correlation»

一对变量之间线性关联程度的度量。

4
校正与测试相关的多个测试的p值(遗传)
我从很多测试中获得了p值,并且想知道在对多个测试进行校正后是否确实存在一些重要的东西。并发症:我的测试不是独立的。我正在考虑的方法(Fisher's Product Method的一个变体,Zaykin等,Genet Epidemiol,2002)需要p值之间的相关性。 为了估计这种相关性,我目前正在考虑引导情况,运行分析并使p值的结果向量相关联。有谁有更好的主意吗?甚至对我的原始问题有一个更好的主意(更正相关测试中的多个测试)? 背景:我正在逻辑上回归我的受试者是否因其基因型(AA,Aa或aa)与协变量之间的相互作用而患有某种疾病。但是,该基因型实际上是很多(30-250)单核苷酸多态性(SNP),它们肯定不是独立的,而是连锁不平衡。

3
如何测试残差的自相关?
我有一个包含两列的矩阵,这两列具有很多价格(750)。在下图中,我绘制了线性回归的残差: lm(prices[,1] ~ prices[,2]) 看图像,似乎是残差的很强的自相关。 但是,如何测试这些残差的自相关性是否强?我应该使用什么方法? 谢谢!


2
根据变量之间的相关性对变量进行聚类
问题: 我有一个很大的相关矩阵。除了将各个相关性聚类之外,我还想根据变量之间的相关性对变量进行聚类,即,如果变量A和变量B与变量C到Z具有相似的相关性,则A和B应该属于同一聚类。一个很好的现实例子是不同的资产类别-资产类别内的关联高于资产间类别的关联。 我也在考虑变量之间的跨度关系聚类,例如,当变量A和B之间的相关性接近于0时,它们或多或少地独立发挥作用。如果突然一些基本条件发生变化,并且出现了很强的相关性(正或负),我们可以认为这两个变量属于同一集群。因此,与其寻找正相关,不如寻找关系而不是关系。我猜比喻可能是带正电和带负电的粒子簇。如果电荷降为0,则粒子将从簇中漂移。但是,正电荷和负电荷都将粒子吸引到相关的簇中。 如果其中一些内容不太清楚,我深表歉意。请让我知道,我将澄清具体细节。

2
自相关时间的定义(有效样本量)
我在文献中为弱固定时间序列的自相关时间找到了两个定义: τ一种= 1 + 2 ∑k = 1∞ρķ与τb= 1 + 2 ∑k = 1∞| ρķ|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| 其中是滞后的自相关。 kρķ= Cov [ XŤ,X吨+ 小时]变量[ XŤ]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}ķkk 自相关时间的一种应用是找到“有效样本量”:如果您对一个时间序列有观测值,并且知道它的自相关时间,那么您可以假装您拥有τñnnττ\tau ñ效= nτneff=nτ n_\text{eff} = \frac{n}{\tau} 为了找到平均值,独立样本而不是相关样本。从数据中估计并非易事,但有几种方法可以做到这一点(请参阅Thompson 2010)。τñnnττ\tau 没有绝对值的定义在文献中似乎更常见;但它承认的可能性。使用R和“ coda”包:τ 一个 &lt; 1τ一种τa\tau_aτ一种&lt; 1τa&lt;1\tau_a<1 require(coda) …


1
使用相关性作为距离度量(用于层次聚类)
我想对数据进行分层聚类,但我不想使用欧几里得距离,而是想使用相关性。此外,由于相关系数的范围从-1到1,用在我的研究都在-1和1表示“共同调控”,我治疗既-1和1为d = 0。因此,我的计算ð = 1 - | r | d=1−|r| d=1−|r|\ d = 1-|r| 我读了一个单独的问题(关于k均值聚类),您应该使用余弦定理将r转换为真正的欧几里得d:d=2(1−r)−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 将相关性转换为距离以进行层次聚类的最准确方法是什么?

2
收缩 vs无偏:估计量
关于皮尔逊相关系数总体值的两种估计量,我的头脑有些困惑。 A. Fisher(1915)表明,对于二元正态总体,经验是的负偏差估计量,尽管该偏差实际上仅对于小样本量()才是相当可观的。样本在某种意义上低估了,因为它比更接近于。(除非后者为或,否则是无偏的。)已经提出了几种几乎无偏的估计量,最好的估计可能是Olkin和Pratt(1958)r[RrÑ &lt; 30 [R ρ 0 ρ 0 ± 1 - [Rρρ\rhon&lt;30ñ&lt;30n<30r[Rrρρ\rho000ρρ\rho000±1±1个\pm 1r[Rrρρ\rho更正的:r[Rr runbiased=r[1+1−r22(n−3)][R无偏见的=[R[1个+1个-[R22(ñ-3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.据说在回归中观察到高估了相应的总体R平方。或者,通过简单的回归,就是高估了。基于这一事实,我见过很多文章说,是正相关偏向于,这意味着绝对值:是从更远的比(?是说法正确)。文本说这与通过样本值高估标准偏差参数是同样的问题。有许多公式可以“调整”观察到的使其更接近人口参数Wherry's(1931)- [R 2 ρ 2 - [RR2[R2R^2r2[R2r^2ρ2ρ2\rho^2r[Rr[R 0 ρ - [R 2ρρ\rhor[Rr000ρρ\rhoR2[R2R^2 R2adj[R调整2R_\text{adj}^2是最著名的(但不是最好的)。调整后的的根称为收缩:r2adj[R调整2r_\text{adj}^2 r[Rr rshrunk=±1−(1−r2)n−1n−2−−−−−−−−−−−−−−√[R压缩=±1个-(1个-[R2)ñ-1个ñ-2r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}} 当前是两个不同的估计量。非常不同的:第一个膨胀,第二放气。如何调和他们?在哪里使用/报告,在另一个地方?ρρ\rhor[Rrr[Rr 特别是,“收缩”的估计量也(几乎)是无偏的,就像“无偏”的估计一样,但仅在不同的上下文中-在回归的非对称上下文中,这是真的吗?因为,在OLS回归中,我们认为一侧(预测变量)的值是固定的,因此每个样本之间都没有随机误差吗?(要补充一点,回归不需要双变量正态性。)

2
使用给定的样本协方差矩阵生成数据
给定协方差矩阵,如何生成数据,使其具有样本协方差矩阵\ hat {\ boldsymbol \ Sigma} = \ boldsymbol \ Sigma_s?ΣsΣs\boldsymbol \Sigma_sΣ^=ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s 更笼统地说:我们经常对从密度f(x \ vert \ boldsymbol \ theta)生成数据感兴趣f(x|θ)f(x|θ) f(x \vert \boldsymbol\theta) ,其中数据xxx给出了一些参数矢量θθ\boldsymbol\theta。这产生了一个样本,然后我们可以据此再次估计值θ^θ^\boldsymbol{\hat\theta}。我感兴趣的是一个反向问题:如果给我们一组参数θsθs\boldsymbol\theta_{s},并且我们想生成一个样本xxx例如\ boldsymbol {\ hat \ theta} = \ boldsymbol,该怎么办?\ theta_ {s}θ^=θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s}。 这是一个已知问题吗?这样的方法有用吗?有可用的算法吗?

2
良好的在线资源,其中包含有关在各种条件下绘制两个数值变量之间关系的图形的提示
内容: 一段时间以来,我获得了一系列启发式方法,可以有效地绘制两个数字变量之间的关联。我想大多数处理数据的人都会有一套相似的规则。 此类规则的示例可能是: 如果变量之一正偏,请考虑在对数刻度上绘制该轴。 如果数据点很多(例如n&gt; 1000),则采用其他策略,例如使用某种形式的部分透明性或对数据进行采样; 如果变量之一属于有限数量的离散类别,请考虑使用抖动或向日葵图; 如果存在三个或更多变量,请考虑使用散点图矩阵; 拟合某种形式的趋势线通常很有用; 将绘图字符的大小调整为样本大小(对于较大的n,使用较小的绘图字符); 等等。 题: 我希望能够引导学生访问一个网页或网站,该网站或网站解释了这些技巧和其他技巧,以有效地绘制两个数值变量之间的关联(也许带有示例)。 互联网上有没有做得很好的页面或站点?


3
多重删失数据的协方差矩阵的无偏估计
环境样品的化学分析通常低于报告限值或各种检测/定量限值。后者通常可以与其他变量的值成比例地变化。例如,可能需要稀释一种化合物的高浓度样品进行分析,从而导致该样品中同时分析的所有其他化合物的检测限按比例膨胀。再举一个例子,有时化合物的存在会改变测试对其他化合物的响应(“基质干扰”)。当实验室检测到这种情况时,它将相应地提高其报告限值。 我正在寻找一种实用的方法来估算此类数据集的整个方差-协方差矩阵,尤其是当许多化合物经历了超过50%的检查时,这种情况经常发生。传统的分布模型是(真实)浓度的对数呈多态正态分布,这在实践中似乎很合适,因此针对这种情况的解决方案将很有用。 (“实用”是指一种方法,该方法可以在至少一个普遍可用的软件环境(例如R,Python,SAS等)中可靠地进行编码,并且其执行速度足以支持迭代的重新计算(例如多次插补),且这种情况相当稳定[这就是为什么我不愿探索BUGS实现的原因,尽管通常欢迎使用贝叶斯解决方案]。 预先非常感谢您对此事的想法。

1
常用统计检验为线性模型
(更新:我对此进行了更深入的研究,并将结果发布在此处) 命名统计测试的列表非常庞大。许多常见检验依赖于简单线性模型的推论,例如,单样本t检验只是y =β+ε,它是针对零模型y =μ+ε进行检验的,即β=μ,其中μ为零值-通常为μ= 0。 我发现这对教学目的比死记硬背地学习命名模型,何时使用它们以及它们的假设好像它们之间没有任何关系相比更具启发性。这种方法促进并不能增进理解。但是,我找不到一个很好的资源来收集这些信息。我对基本模型之间的等效性感兴趣,而不是对它们的推断方法感兴趣。尽管据我所知,所有这些线性模型的似然比检验得出的结果与“经典”推论相同。 下面是我已经了解迄今为止等价,忽略误差项ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim \mathcal N(0, \sigma^2),并假设所有零假设是的效果由于缺少: 单样本t检验: y=β0H0:β0=0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0。 配对样本t检验: y2−y1=β0H0:β0=0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 这与成对差异的一样本t检验相同。 两样本t检验: y=β1∗xi+β0H0:β1=0y=β1∗xi+β0H0:β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0 其中x是指标(0或1)。 Pearson相关: y=β1∗x+β0H0:β1=0y=β1∗x+β0H0:β1=0y = \beta_1 * x …

4
相关性假设与显着性回归斜率检验之间的假设差异
我的问题来自与@whuber的讨论,涉及另一个问题的评论。 具体来说,@ whuber的评论如下: 您可能会感到惊讶的一个原因是,相关检验和回归斜率检验所基于的假设是不同的,因此,即使我们了解到相关性和斜率确实在衡量同一事物,为什么它们的p值也应该相同?这表明,与简单地确定和在数值上是否相等相比,这些问题要深得多。β[R[Rrββ\beta 这引起了我的思考,我遇到了许多有趣的答案。例如,我发现了这个问题“ 相关系数的假设 ”,但是看不到如何澄清上面的评论。 我在简单的线性回归中找到了有关Pearson的和斜率的关系的更有趣的答案(例如,请参见此处和此处),但它们似乎都没有回答@whuber在他的评论中所指的内容(至少不明显)。对我来说)。β[R[Rrββ\beta 问题1:相关性检验和回归斜率检验的假设是什么? 对于我的第二个问题,请考虑以下输出R: model &lt;- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min 1Q Median 3Q Max -1.4362 -0.9740 0.2021 0.5531 1.9048 Coefficients: Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 8.3807 4.4224 1.895 …

2
什么时候距离协方差不如线性协方差合适?
刚刚(模糊地)向我介绍了Brownian /距离协方差/相关性。在测试依赖性时,它在许多非线性情况下似乎特别有用。但是,尽管协方差/相关经常用于非线性/混沌数据,但它似乎并不经常使用。 这使我认为距离协方差可能存在一些缺点。那么它们是什么?为什么每个人都不总是使用距离协方差?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.