Questions tagged «correlation»

一对变量之间线性关联程度的度量。

1
使用openMx在相同和异卵双胞胎的SEM概念模型中选择路径权重
我正在审查R包OpenMx进行遗传流行病学分析,以了解如何指定和拟合SEM模型。我对此很陌生,所以请多多包涵。我正在遵循《OpenMx用户指南》第59页上的示例。他们在这里绘制以下概念模型: 在指定路径时,他们将潜在的“一个”节点对显示的bmi节点“ T1”和“ T2”的权重设置为0.6,因为: 感兴趣的主要路径是从每个潜在变量到相应观察变量的路径。还估算了这些值(因此将它们全部设置为空),获得的起始值为0.6,并带有适当的标签。 # path coefficients for twin 1 mxPath( from=c("A1","C1","E1"), to="bmi1", arrows=1, free=TRUE, values=0.6, label=c("a","c","e") ), # path coefficients for twin 2 mxPath( from=c("A2","C2","E2"), to="bmi2", arrows=1, free=TRUE, values=0.6, label=c("a","c","e") ), 的0.6的值来自的估计的协方差bmi1和bmi2(严格的单合子双胞胎)。我有两个问题: 当他们说路径的“开始”值为0.6时,是否像在估计GLM时那样设置具有初始值的数值积分例程? 为什么严格根据单卵双胞胎估算这个值?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
乍一看数据集
请原谅我的无知,但是... 我不断遇到自己设法找到的大量新数据的情况。这些数据通常看起来像这样: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 通常乍一看,我真的无法分辨这里是否有任何趋势。各个列之间的相关性可能不是很重要,但是如果我不必为每种可能的列/类别组合手动创建图,我将感到非常高兴。 是否有工具可以接受数据表以及信息,哪些列应被视为数字,日期和类别,然后进行绘制: 每两个数值列之间的相关性 每两个数值列之间的相关性,每个类别具有单独的趋势线 每个数字列作为时间序列, 每个数字列都是一个时间序列,按类别分开, 等等 最后,这将生成大量图,其中大多数图仅显示噪声。理想情况下,该工具可以通过相关性对图进行评分,最后显示从得分最高的图开始的幻灯片显示。这将是非常不完美的,但乍一看对数据集很有用。 所以?是否有每个人都使用的工具,而我对此却一无所知,还是我们需要制作此工具?


3
相关系数的阈值,以指示相关矩阵中相关的统计意义
我已经计算出包含455个数据点的数据集的相关矩阵,每个数据点包含14个特征。因此,相关矩阵的维数为14 x 14。 我想知道相关系数的值是否存在阈值,该阈值指出其中两个特征之间存在显着的相关性。 我的价值介于-0.2到0.85之间,我一直认为重要的是那些高于0.7的价值。 是否为阈值考虑了相关系数的一般值,或者仅仅是上下文取决于我正在研究的数据类型?

4
什么测试可以比较社区组成?
希望这个新手问题是该网站的正确问题: 假设我想比较两个地点A,B的生态群落组成。我知道这三个地点都有狗,猫,牛和鸟,因此我在每个地点都采样了它们的丰度(我实际上没有“每个位置的每个动物的预期“数量”)。 如果我算一下,每个位置的每只动物有五只,那么A和B非常“相似”(实际上,它们是“相同”)。 但是,如果我在A站点发现100条狗,5只猫,2头牛和3只鸟。在B站点发现5条狗,3只猫,75头牛和2只鸟。那么我会说A和B站点“不同” ,即使它们具有完全相同的物种组成。 (我阅读了Sorensen's和Bray-Curtis指数,但看起来他们只考虑狗,猫等的不在/在场,而不考虑它们的丰度。) 是否有统计检验确定这一点?

3
如何显示缺少条目的相关矩阵?
我想在到目前为止收集的文章中获得相关性的图形表示,以方便地探索变量之间的关系。我曾经画过一个(混乱的)图,但是现在数据太多了。 基本上,我有一张桌子,上面有: [0]:变量1的名称 [1]:变量2的名称 [2]:相关值 “总体”矩阵不完整(例如,我具有V1 * V2,V2 * V3,但没有V1 * V3的相关性)。 有没有办法以图形方式表示这一点?

1
如何将两个时间序列与间隔和不同的时基相关联?
我在StackOverflow上提出了这个问题,建议在这里提出。 我有两个时间序列的3D加速度计数据,它们具有不同的时基(时钟在不同的时间开始,在采样时间中有一些非常小的蠕变),并且包含许多不同大小的间隙(由于与写入分开相关的延迟)闪存设备)。 我使用的加速度计是便宜的GCDC X250-2。我正在以最高增益运行加速度计,因此数据的本底噪声很大。 每个时间序列都有大约200万个数据点(以512个样本/秒的速度在一小时内),并且包含大约500个感兴趣的事件,其中典型事件跨越100-150个样本(每个200-300 ms)。这些事件中的许多事件都受到闪存写入期间数据中断的影响。 因此,数据不是原始的,甚至不是非常漂亮。但是我的眼球检查表明它清楚地包含了我感兴趣的信息。(如果需要,我可以发布图表。) 加速度计处于类似的环境中,但耦合程度适中,这意味着我可以通过肉眼分辨出每个加速度计匹配了哪些事件,但是到目前为止,我在软件中还是没有成功。由于物理限制,这些设备还以不同的方向安装,这些位置的轴不匹配,但它们尽可能接近正交。因此,例如,对于3轴加速度计A和B,+ Ax映射到-By(上下),+ Az映射到-Bx(左右),而+ Ay映射到-Bz(前后) 。 我的最初目标是关联垂直轴上的震动事件,尽管我最终希望a)自动发现轴映射,b)关联映射的ace上的活动,以及c)提取两个加速度计之间的行为差​​异(例如扭曲)或弯曲)。 时间序列数据的性质使Python的numpy.correlate()无法使用。我也看过R's Zoo套件,但是并没有取得进展。我曾在信号分析的不同领域寻求帮助,但没有取得任何进展。 有人对我可以做什么或应该研究的方法有任何线索吗? 2011年2月28日更新:此处添加了一些显示数据示例的图表。

1
如何量化功能冗余?
我具有用于解决分类问题的三个功能。最初,这些功能产生布尔值,因此我可以通过查看正向分类和负向分类重叠多少来评估其冗余度。现在,我扩展了功能以生成实际值(分数),并且我想再次分析其冗余度,但是我完全不知道该怎么做。谁能为我提供有关如何实现此目标的指示或想法? 我知道这个问题很模糊,这是因为我对统计数据没有很强的掌握。因此,如果您对我没有答案,也许您有一些问题可以帮助我更好地理解自己。 编辑:我目前正在浏览有关该主题的维基百科,我感觉我想要的是相关系数,但是我仍然不确定这是否是正确的方法,以及许多可用系数中的哪个合适。 编辑2:在布尔型情况下,我首先为每个功能创建了真实的样本集。那么,两个特征之间的相关性就是这些集合的交集大小超过这些集合的并集大小。如果此值为1,则它们是完全冗余的,因为始终相同。如果为0,则它​​们永远不会相同。

1
为什么主成分分数不相关?
假设是均值数据矩阵。矩阵为,具有m个不同的特征值,特征向量\ mathbf s_1,\ mathbf s_2 ... \ mathbf s_m正交。S = cov (A)m × m m s 1 s 2 s m一个一个\mathbf AS =cov( A)小号=冠状病毒(一个)\mathbf S=\text{cov}(\mathbf A)米× 米米×米m\times m米米ms1个s1个\mathbf s_1s2s2\mathbf s_2smsm\mathbf s_m 第iii个主要成分(有人称其为“分数”)是向量 zi=Asizi=Asi\mathbf z_i = \mathbf A\mathbf s_i。换句话说,它是\ mathbf A的列的线性组合AA\mathbf A,其中系数是\ mathbf S的第iii个特征向量的分量。SS\mathbf S 我不明白为什么zizi\mathbf z_i和zjzj\mathbf z_j对于所有i \ neq j都不相关i≠ji≠ji\neq …

1
标准化变量的协方差是否具有相关性?
我有一个基本问题。说我有两个随机变量,和。我可以通过减去平均值并除以标准偏差来对它们进行标准化,即。XXXYYYXstandardized=(X−E(X))(SD(X))Xstandardized=(X−E(X))(SD(X))X_{standardized} = \frac{(X - E(X))}{(SD(X))} 是的相关和,,一样的标准版本的协方差和?也就是说,吗?ÿ Ç ø - [R (X ,ÿ )X ý Ç ø - [R (X ,ÿ )= c ^ Ö v (X 小号吨一个Ñ ð 一个[R d 我Ž ë d,ÿ 小号吨一个Ñ d 一- [R d 我ž e d)XXXYYYCor(X,Y)Cor(X,Y)Cor(X, Y)XXXÿÿYCØr(X,Y)=Co v (X小号Ťand一个rdizË d,Y小号Ť 一nd一个rd一世zË d)Co[R(X,ÿ)=CØv(XsŤ一个ñd一个[Rd一世žËd,ÿsŤ一个ñd一个[Rd一世žËd)Cor(X, Y) = Cov(X_{standardized}, …

4
相关矩阵中随机变量的最小相关子集
我有一个相关矩阵,它是通过Matlab的corrcoef()使用Pearson线性相关系数获得的。尺寸为100x100的相关矩阵,即我针对100个随机变量计算了相关矩阵。AAA 在这100个随机变量中,我想找到10个随机变量,它们的相关矩阵包含尽可能少的“相关性”(请参阅量化相关矩阵A与相关矩阵B相比要测量的指标多少)相关矩阵中的整体相关性)。我只关心成对相关。 是否有好的方法可以在合理的时间内找到这10个随机变量(例如,我不想尝试(10010)(10010)\binom{100}{10}组合)?近似算法是可以的。

5
使用十分位找到相关性是一种统计上有效的方法吗?
我有一个1,449个不相关的数据点的样本(r平方0.006)。 在分析数据时,我发现通过将自变量值分为正向和负向组,每组因变量的平均值似乎存在显着差异。 使用自变量值将点分成10个bin(十分位数),十分位数与平均因变量值之间的相关性似乎更强(r平方0.27)。 我对统计信息了解不多,因此这里有几个问题: 这是有效的统计方法吗? 有没有找到最佳箱数的方法? 这种方法的正确用语是什么,以便我可以使用Google? 有哪些入门资源可用于学习这种方法? 我可以使用哪些其他方法来查找此数据中的关系? 这是十进制数据供参考:https : //gist.github.com/georgeu2000/81a907dc5e3b7952bc90 编辑:这是数据的图像: 行业动量是自变量,入口点质量是因变量


4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.