Questions tagged «correlation»

一对变量之间线性关联程度的度量。


1
具有许多零值的时间序列分析
这个问题实际上是关于火灾探测的,但是它与某些放射性衰变探测问题非常相似。观察到的现象既是零星的,也是高度可变的;因此,时间序列将由被可变值中断的零个长字符串组成。 目的不仅是捕获事件(零中断),而且是事件本身的定量表征。但是,传感器受到限制,因此即使“真实性”为非零,有时也会记录为零。因此,比较传感器时必须包括零。 传感器B可能比传感器A更为敏感,我希望能够从统计角度进行描述。对于此分析,我没有“真相”,但是我有一个独立于传感器A&B的传感器C。因此,我的期望是A / B与C之间更好的协议表示与“真相”的更好协议。(这似乎有些不稳定,但您必须相信我-根据其他有关传感器的研究,我在这里站稳了脚跟)。 因此,问题在于如何量化“时间序列的更好一致性”。相关性是显而易见的选择,但是会受到所有这些零(不能遗漏)的影响,当然也会受到最大值的不成比例的影响。也可以计算RMSE,但在接近零的情况下,RMSE的权重将强于传感器的行为。 问题1:将对数缩放应用于非零值然后在时序分析中与零组合的最佳方法是什么? 问题2:对于这种类型的时间序列分析,您可以推荐哪些“最佳实践”,其中非零值的行为是重点,但是零值占主导地位并且不能被排除?

1
对数正态随机变量可获得的相关性
考虑具有和的对数正态随机变量和。X1个X1个X_1X2X2X_2日志(X1个)〜Ñ(0 ,1 )日志⁡(X1个)〜ñ(0,1个)\log(X_1)\sim \mathcal{N}(0,1)日志(X2)〜Ñ(0 ,σ2)日志⁡(X2)〜ñ(0,σ2)\log(X_2)\sim \mathcal{N}(0,\sigma^2) 我正在尝试为\ rho(X_1,X_2)计算和\ rho _ {\ min}。给定解决方案中的一个步骤是:ρ最高ρ最高\rho_{\max}ρ分ρ分\rho_{\min}ρ (X1个,X2)ρ(X1个,X2)\rho (X_1,X_2) ρ最高= ρ (exp(Z),exp(σž))ρ最高=ρ(经验值⁡(ž),经验值⁡(σž))\rho_{\max}=\rho (\exp(Z),\exp(\sigma Z))和 ρ分= ρ (exp(Z),exp(- σž))ρ分=ρ(经验值⁡(ž),经验值⁡(-σž))\rho_{\min}=\rho (\exp(Z),\exp(-\sigma Z)), 但是他们提到了同调性和反共声性。我希望有人能帮助我了解他们之间的关系。(我知道如何从一般表达式中获得此信息,但想具体了解共调性部分在说什么。)


4
相关性的非传递性:性别与大脑大小之间以及大脑大小与智商之间的相关性,但性别与智商之间没有相关性
我在博客上找到了以下解释,我想获得有关相关性的非传递性的更多信息: 我们有以下不争的事实: 平均而言,男性和女性的大脑容量存在差异 智商与大脑大小之间存在相关性。相关系数为0.33,因此相当于智商变异性的10% 从这些前提1和2看来,逻辑上是这样的:女性平均智商比男性低。但这是谬论!在统计中,相关性不是传递的。证明是,您只需要查看智商测试的结果,即可证明男人和女人的智商平均没有差异。 我想更深入地了解这种相关性。 如果智商与大脑大小之间的相关性是0.9(我知道不是(1)),那么推断女性平均智商比男性低会仍然是谬论吗? 拜托,我不是在这里谈论智商(以及测试的局限性),性别歧视,女性刻板印象,自大等(2)。我只想了解谬论背后的逻辑推理。 (1)据我所知并非如此:尼安德特人的大脑比智人的大脑更大,但并不聪明。 (2)我是一个女人,总的来说,我不认为自己,或者其他女人不如男人聪明,我不在乎智商测试,因为什么才是人们的价值所在,而不是基于人的价值。智力能力。 法语原文: 毫无疑问,顽固的杀手iv: 女人与女人之间的差异 气质与体积的关系 相关系数估计为0.33,对应的变量为10% 《预案》第1期和第2期,以“découlerdécouler”的形式进行质问:“ les femmes ont en moyenne un QIinférieuraux hommes”。 Mais c'est une erreur de raisonnement!从统计上看,所有关联都没有和解。拉普里夫(La Preuve),最令人心动的媒体,无意为QI进行测试的人,以及ceux-ci montrent QUE homs et des femmes nediffèrentpas en moyenne。

1
在多元回归中如何处理预测变量之间的高度相关性?
我在类似这样的文章中找到了参考: 根据Tabachnick&Fidell(1996),双变量相关性大于.70的自变量不应包含在多元回归分析中。 问题:我在多元回归设计中使用了3个> .80的变量,VIF在.2-.3左右,公差〜4-5。我不能排除其中的任何变量(重要的预测变量和结果)。当我对两个相关系数为.80的结果进行回归分析时,它们均保持显着性,每个预测重要方差,并且在包含的所有10个变量中,这两个变量具有最大的部分和半部分的相关系数(5个对照组)。 问题:尽管相关性很高,我的模型仍然有效吗?任何引用都非常欢迎! 感谢您的回答! 我没有使用Tabachnick和Fidell作为准则,而是在一篇涉及预测变量之间高共线性的文章中找到了此参考。 因此,基本上,对于模型中预测变量的数量,我的案例太少了(许多分类的,伪编码的控制变量-年龄,任期,性别等)-72个案例中的13个变量。所有控件都在其中时,条件索引为〜29,而没有控件时则为〜23(5个变量)。 我不能删除任何变量或使用阶乘分析来组合它们,因为从理论上讲,它们具有自身的意义。现在获取更多数据为时已晚。由于我是在SPSS中进行分析的,因此也许最好是找到岭回归的语法(尽管我以前没有做过,对结果的解释对我来说是新的)。 如果很重要,当我进行逐步回归时,相同的2个高度相关的变量仍然是结果的唯一重要预测指标。 而且我仍然不明白这些变量中每个变量的偏相关性是否重要,这可以解释为什么我将它们保留在模型中(以防无法进行岭回归)。 您是否会说“回归诊断:确定共线性的影响数据和来源/ David A. Belsley,Edwin Kuh和Roy E. Welsch,1980”将有助于理解多重共线性?还是其他参考可能有用?

5
实际使用哪些健壮的相关方法?
我计划进行一次仿真研究,在其中比较几种具有不同分布(偏斜,离群值等)的鲁棒相关技术的性能。对于稳健,我的意思是对a)偏斜分布,b)离群值和c)重尾稳健的理想情况。 除了将Pearson相关性作为基准外,我还想包括以下更可靠的措施: 斯皮尔曼的ρρ\rho 折弯百分比(Wilcox,1994,[1]) 最小体积椭圆形,最小协方差行列式(cov.mve/ cov.mcd与cor=TRUE选项) 温莎相关 当然,还有更多选择(特别是如果您还包括强大的回归技术),但是我想将自己局限于使用最多/很有希望的方法。 现在,我有三个问题(可以只回答一个问题): 我可以/应该包括其他健壮的相关方法吗? 您的领域实际上 使用了 哪些强大的相关技术?(谈到心理研究:除了Spearman的,我从未在技术论文之外见过任何健壮的关联技术。自举技术越来越受欢迎,但到目前为止,其他健壮的统计数据或多或少不存在)。ρρ\rho 您是否已经知道多种相关技术的系统比较? 也可以随意评论上面给出的方法列表。 [1] Wilcox,RR(1994)。百分比弯曲相关系数。心理疗法,59,601-616。

4
在线性回归中更改零假设
我有一些高度相关的数据。如果我运行线性回归,则会得到一条斜率接近1(= 0.93)的回归线。我想做的是测试此斜率是否与1.0明显不同。我的期望不是。换句话说,我想将线性回归的零假设从零的斜率更改为一的斜率。这是明智的做法吗?我也非常感谢您可以在回答中包含一些R代码,以便我可以实现此方法(或您建议的更好的方法!)。谢谢。

4
我可以简单地删除两个高度线性相关的预测变量之一吗?
使用Pearson的相关系数,我有几个高度相关的变量(模型中2对变量的和)。ρ = 0.978ρ=0.978\rho = 0.978ρ = 0.989ρ=0.989\rho = 0.989 的原因的一些变量是高度相关的,因为是一个变量的使用的计算为另一个变量。 例: B = V/ 3000B=V/3000B = V / 3000和 Ë= V* DE=V∗DE = V * D 乙BB和具有ËEEρ = 0.989ρ=0.989\rho = 0.989 我有可能只是“扔掉”其中一个变量吗?

4
ACF和PACF公式
我想创建一个用于从时间序列数据中绘制ACF和PACF的代码。就像从minitab生成的图一样(如下)。 我已经尝试搜索该公式,但是我仍然不太了解它。 您介意告诉我该公式以及如何使用它吗? 上面的ACF和PACF图上的水平红线是什么?公式是什么? 谢谢,


11
在这个独裁者游戏的例子中,您可以根据相关性推断因果关系吗?
我刚刚参加了考试,我们看到了两个变量。在一个独裁者游戏中,一个独裁者得到100美元,并且可以选择自己寄出或保留多少钱,在年龄和参与者决定保留多少钱之间存在正相关。 我的想法是,您不能由此推断因果关系,因为您不能从相关性推断因果关系。我的同学认为您可以,因为,例如,如果您将参与者分成三个单独的组,您可以看到他们在保留的人数和共享的人数上有何不同,因此得出结论,年龄会导致他们保留更多的人数。谁是正确的,为什么?

3
非零相关是否意味着依赖?
我们知道零相关并不意味着独立。我对非零相关性是否隐含依赖关系很感兴趣-即,如果对于一些随机变量X和Y的,我们能否总体上说f X ,Y(x ,y )≠ f X(x )f Y(y )?Corr(X,Y)≠0Corr(X,Y)≠0\text{Corr}(X,Y)\ne0XXXYYYfX,Y(x,y)≠fX(x)fY(y)fX,Y(x,y)≠fX(x)fY(y)f_{X,Y}(x,y) \ne f_X(x) f_Y(y)

3
关联因果关系的真实例子
我正在寻找从关联证据中不恰当地推断因果关系的具体真实案例。 具体来说,我对满足以下条件的示例感兴趣: 因果关系的存在被广泛接受为足以产生显着影响(对公共政策,话语,个人决定等)的事实。 仅根据相关证据(也许伴随着一个连贯但未经证实的因果机制)推断出这种联系。 因果关系已被客观地伪造或至少引起了严重的怀疑。 我想到的两个例子并不理想: 钠的摄入量和血压:据我所知,从那时起已经确定,盐的摄入仅会增加钠敏感的个体的血压。有效因果关系的存在(尽管与最初接受的因果关系不同)使此示例的吸引力降低。 疫苗和自闭症:我可能有错误的背景知识,但我认为这种联系是根据相关性和(欺诈性)实验证据得出的。存在(伪)直接证据的事实削弱了这个例子。 注意:我已经看到了类似的问题: 教学示例:相关并不意味着因果关系 我的问题的主要不同之处在于,它关注的是实际的著名示例,而不关注因果关系明显缺失的示例(例如,体重和音乐技巧)。

3
3个变量的Pearson相关性的类比
我对三个变量的“相关性”是否有意义感兴趣,如果是什么,这将是什么? 皮尔逊积矩相关系数 E{(X−μX)(Y−μY)}Var(X)Var(Y)−−−−−−−−−−−−√E{(X−μX)(Y−μY)}Var(X)Var(Y)\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)\}}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}} 现在是3个变量的问题:是 E{(X−μX)(Y−μY)(Z−μZ)}Var(X)Var(Y)Var(Z)−−−−−−−−−−−−−−−−−−√E{(X−μX)(Y−μY)(Z−μZ)}Var(X)Var(Y)Var(Z)\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)(Z-\mu_Z)\}} {\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)\mathrm{Var}(Z)}} 有什么事吗 在R中似乎可以解释: > a <- rnorm(100); b <- rnorm(100); c <- rnorm(100) > mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c)) [1] -0.3476942 给定固定的第三个变量的值,我们通常查看2个变量之间的相关性。有人可以澄清吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.