Questions tagged «correlation»

一对变量之间线性关联程度的度量。

2
平均相关系数的意义
免责声明:如果您发现这个问题与另一个问题过于相似,我很高兴将其合并。但是,我在其他任何地方都找不到满意的答案(并且还没有“声誉”来发表评论或投票),所以我认为最好自己问一个新问题。 我的问题是这个。对于12个人类受试者中的每一个,我已经计算出自变量X的6个水平与因变量Y的相应观察值之间的相关系数(斯皮尔曼Rho)。(注意:受试者之间X的水平不相等。)零假设是,在一般人群中,这种相关性等于零。我用两种方法检验了这个假设: 对我的12个受试者获得的相关系数进行一次样本t检验。 通过将我的X水平和Y观测值居中,使得每个参与者的均值(X)= 0和均值(Y)= 0,然后计算汇总数据之间的相关性(72个X水平和72个Y观测值) 。 现在,从阅读有关使用相关系数(在这里和其他地方)的知识开始,我开始怀疑第一种方法是否有效。特别是,我看到以下方程式在几个地方突然出现,(显然)表示为平均相关系数的t检验: t=rSEr=n−2−−−−−√1−r2−−−−−√Ť=[R小号Ë[R=ñ-21个-[R2t = \frac{r}{SE_{r}} = \frac{\sqrt{n-2}}{\sqrt{1-r^{2}}} 其中,是平均相关系数(假设我们首先使用每个对象系数的Fisher变换获得了该系数),是观察数。直觉上,这对我来说似乎是错误的,因为它不包含任何受试者间变异性的度量。换句话说,如果我具有3个相关系数,则无论它们是[0.1、0.5、0.9]还是[0.45 0.5 0.55]还是任何均值相同(且)的值,我都会得到相同的t统计量n n = 3r[Rrnñnn=3ñ=3n=3 因此,我怀疑上面的方程式在检验相关系数平均值的显着性时实际上不适用,而在基于2个变量的观察值检验单个相关系数的显着性时实际上并不适用。nñn 在座的任何人都可以确认这种直觉或解释为什么错了吗?另外,如果此公式不适用于我的情况,是否有人知道正确的方法?也许我自己的测试编号2已经有效?非常感谢您的任何帮助(包括指向我可能遗漏或误解的先前答案的指针)。

2
比较相关系数
我有两组数据,其中78个和35个样本的值约为250.000。一些样本是一个家庭的成员,这可能会影响数据。我已经计算了成对相关性,它在0.7到0.95之间变化,但是我想知道家庭内部和家庭之间的相关系数是否存在显着差异?做这个的最好方式是什么?谢谢

1
为什么LKJcorr是相关矩阵的先验?
I'm阅读中(第13章“冒险协方差” 高超)一书统计反思理查德McElreath在那里,他提出以下层次模型: (R是一个相关矩阵) 作者解释说,这LKJcorr是信息量较弱的先验,可作为相关矩阵的正则化先验。但是为什么会这样呢?LKJcorr分布具有什么特征,使其成为相关矩阵的先验?相关矩阵在实践中还使用了哪些其他先验条件?


2
两个卡片组之间的相关性?
我编写了一个程序来模拟手牌洗牌。 每张卡都有编号,西装CLUBS, DIAMONDS, HEARTS, SPADES的等级从2到10,然后是Jack,Queen,King和Ace。因此,两家具乐部的个数为1,三家具乐部的个数为2 .... A俱乐部数为13,黑桃A为52。 确定卡片混洗程度的方法之一是将其与未混洗的卡片进行比较,并查看卡片的顺序是否相关。 也就是说,我可能拥有这些卡,并使用未洗牌的卡进行比较: Unshuffled Shuffled Unshuffled number Shuffled number Two of Clubs Three of Clubs 1 2 Three of Clubs Two of Clubs 2 1 Four of Clubs Five of Clubs 3 4 Five of Clubs Four of Clubs 4 3 皮尔森法的相关性为:0.6 使用大量的卡片(共52张),您可能会看到图案出现。我的假设是,经过更多的改组,您将获得更少的相关性。 但是,有很多方法可以测量相关性。 …

4
您如何找到数据中的因果关系?
可以说我有一个带有列“ A”,“ B”的表 是否有统计方法确定“ A”是否导致“ B”发生?一个人不能真正使用Pearson的r,因为: 它仅测试值之间的相关性 相关不是因果关系 皮尔森的r只能使线性关系相关 那么我在这里还有其他选择吗?

5
如何比较2个非平稳时间序列以确定相关性?
我有两个数据系列,绘制了随时间推移的死亡中位数。这两个系列都显示出随着时间的推移死亡年龄会增加,但比另一个低得多。我想确定较低样本的死亡年龄增加是否与较高样本的死亡年龄明显不同。 以下是按年份(从1972年到2009年,包括1972年)排序的数据,四舍五入到小数点后三位: Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983 Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 …

1
对特征向量的视觉解释感到困惑:视觉上不同的数据集如何具有相同的特征向量?
许多统计教科书提供了一个直观的说明协方差矩阵的特征向量是: 向量u和z形成本征向量(本征轴)。这是有道理的。但是令我困惑的一件事是,我们从相关矩阵中提取特征向量,而不是原始数据。此外,完全不同的原始数据集可以具有相同的相关矩阵。例如,以下两个都具有以下相关矩阵: [ 10.970.971个][10.970.971]\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right] 因此,它们的特征向量指向相同的方向: [ .71.71− .71.71][.71−.71.71.71]\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right] 但是,如果对特征向量在原始数据中的哪个方向应用相同的视觉解释,则会得到指向不同方向的向量。 有人可以告诉我我哪里出问题了吗? 第二次编辑:如果我这么大胆,下面给出了出色的答案,我就能够弄清混乱并作了说明。 视觉解释与以下事实相吻合:从协方差矩阵提取的特征向量是不同的。 协方差和特征向量(红色): [ 11个1个1个] [ .7.72− .72.7][1111][.7−.72.72.7]\left[\begin{array}{} 1 & 1 \\ 1 & 1\end{array}\right] \left[\begin{array}{} .7 & -.72 \\ .72 & .7\end{array}\right] 协方差和特征向量(蓝色): [ .25.5.51个] [ …

2
两个*相关*正态变量的总和不正常的示例
我知道一些相关的随机变量对的很好的例子,它们在边际上是正常的,但在联合上不是正常的。见这个答案由迪利普Sarwate,和这一个由红衣主教。 我也知道两个总和不正常的普通随机变量的例子。见这个答案的宏。但是在这个例子中,两个随机变量是不相关的。 是否存在两个具有非零协方差且总和不正常的普通随机变量的示例?还是有可能证明任何两个相关正态随机变量的和(即使它们不是二元正态)也必须是正态的? [上下文:我有一个作业问题,要求的分布,其中和是具有相关标准法线。我认为该问题旨在说明它们是双变量正态的。但是我想知道,如果没有非零的额外假设,是否可以X ÿ ρ ρaX+bYaX+bYaX+bYXXXYYYρρ\rhoρρ\rho 谢谢!




1
统计人员为什么不使用相互信息来衡量关联?
我看过一些非统计学家的谈话,他们似乎在使用互信息而不是回归(或等效/密切相关的统计检验)来重新发明相关度量。 我认为统计学家不采用这种方法是有充分理由的。我的外行人的理解是,熵/互信息的估计量往往有问题且不稳定。因此,我认为功能也是有问题的:他们声称自己没有使用参数测试框架来尝试解决此问题。通常,这种工作不会影响功效计算,甚至不会影响置信度/可信度区间。 但是,采取恶魔的拥护者立场,当数据集非常大时,慢速收敛是否有那么大的意义呢?同样,有时这些方法似乎在某种意义上是“有效的”,即关联性已通过后续研究验证。反对使用互信息来衡量关联的最佳批评是什么?为什么不将其广泛用于统计实践中? 编辑:此外,是否有涵盖这些问题的好论文?

2
探索许多变量的散点图矩阵
我正在分析具有许多参数(例如50-200)的数据集,并且我对查看变量之间的关系感兴趣(例如,根据2变量散点图或2d直方图)。但是,对于这种数量的参数,绘制200x200的绘图阵列似乎是不可行的(除非我将其打印并挂在墙上)。 另一方面,仅执行相关矩阵并不能给出有关2变量关系的所有信息。 有没有一种方法(库或工作流)来探索许多变量的2变量关系? 我特别想向他人展示结果(也许经过一些数据预处理之后)。例如,在JavaScript中具有交互性的东西,可以看到相关矩阵中选定字段的散点图矩阵。 通过散点图矩阵,我的意思是这样的: (摘自pandasplotting博客;在Python / Pandas,R,D3.js等中可用)。

1
广义最小二乘:从回归系数到相关系数?
对于具有一个预测变量的最小二乘法: y=βx+ϵy=βx+ϵy = \beta x + \epsilon 如果和在拟合之前已标准化(即),则:xxxyyy∼N(0,1)∼N(0,1)\sim N(0,1) ββ\beta与皮尔逊相关系数。rrr ββ\beta在反射回归中相同:x=βy+ϵx=βy+ϵx = \beta y + \epsilon 对于广义最小二乘(GLS),是否同样适用?即,如果我将数据标准化,是否可以直接从回归系数中获得相关系数? 通过对数据的实验,反射的GLS得出不同的系数,而且我不确定我是否认为回归系数与我的相关期望值相符。我知道人们引用了GLS相关系数,所以我想知道他们是如何得出的,它们的真正含义是什么?ββ\beta

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.