Questions tagged «cross-correlation»

在相同或不同时间不同时间序列之间的相关性度量。

8
如果A和B与C相关,为什么A和B不一定相关?
我凭经验知道情况就是如此。我刚刚开发了遇到这个难题的模型。我也怀疑这不一定是是/否答案。我的意思是,如果A和B都与C相关,那么这可能对A和B之间的相关性有一定的暗示。但是,这种暗示可能很弱。这可能只是一个指示方向,仅此而已。 这就是我的意思。假设A和B与C的相关性均为0.5。鉴于此,A和B之间的相关性很可能为1.0。我认为也可能是0.5甚至更低。但是,我认为这不太可能是负面的。你同意吗? 另外,如果您正在考虑使用标准的皮尔逊相关系数或斯皮尔曼(秩)相关系数,是否有暗示?我最近的经验观察与Spearman相关系数有关。

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
R中的多元时间序列。如何找到滞后相关性并建立预测模型
我是该页面的新手,而统计学和R则是新手。我正在为一个大学项目,目的是发现河流中的雨水和水位之间的相关性。一旦证明了相关性,我便要对其进行预测/预测。 数据 我有一组数年的数据(每隔5分钟)包含特定的河流: 毫米降水 河流流量,立方米每秒 这条河没有积雪,因此该模型仅基于降雨和时间。有时会有冻结的温度,但是我正在考虑将这些时间段从异常数据中删除,因为这种情况超出了我项目的范围。 示例 在这里,您有几个示例数据图,这些数据来自几个小时后的降雨和水位上升。 红线是河流流量。橙色是雨。您可以看到总是下雨,然后河里的水上升。在时间序列结束时会再次下雨,但稍后会影响河流流量。 相关性在那里。这是我在R中所做的,以证明在R中使用ccf的相关性: 互相关 前导变量 滞后 这是我的R线用于第二个示例(一个降雨期): ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain") 我的解释是: 降雨导致(首先发生), 有一个显着的相关性,其峰值为(我可以检查确切的数字,我知道该部分)。≈ 450≈450\approx 450 我不知道如何找出相关性影响河流流量的时间,我认为这个名称是“保留”。我看到的是,雨后河水流失时,该图遵循第一个图的相同形状。我不能以此为依据说保留时间从持续到(我可以在返回的数据框中创建的对象中检查此值,看看水位何时恢复到该值)。是“下雨前”吗?有没有更好的方法来找到保留物?≈ 450≈450\approx 450≈ 800≈800\approx 800ccf 我对吗? 关于时间序列。此时间序列没有周期性或季节性。随时可能下雨并造成影响。夏季确实会减少,但仍然会发生,这是一个常年下雨的地区。 模型和预测。 我不知道如何创建一个模型来进行预测,该预测告诉我在下雨后河流会增加多少流量。我一直在尝试一些arima,auto arima但是还没有很成功。我应该使用Arima,vars或其他不同的多变量模型?任何指向示例的链接都会有很大帮助。 请让我知道,如果您知道创建此预测的最佳方法,则应使用哪种模型。我正在考虑做其他一些事情,但是为了简单起见,将它们从解释中删除。如果需要,我可以共享一些数据。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
点过程之间的互相关分析
我想对我使用的一种分析方法提出建议,以了解它在统计上是否合理。 我已经测量了两个点过程和,我想确定如果中的事件以某种方式与T ^ 2中的事件相关。 T 2=t 2 1,t 2 2,...。。。,t 2 m T 1T1=t11,t12,...,t1nT1=t11,t21,...,tn1T^1 = t^1_1, t^1_2, ..., t^1_nT2=t21,t22,...,t2mT2=t12,t22,...,tm2T^2 = t^2_1, t^2_2, ..., t^2_mT1T1T^1T2T2T^2 我在文献中发现的一种方法是构造互相关直方图:对于每个t1ntn1t^1_n我们发现在给定的时间范围内(前后),所有T ^ 2事件的延迟t ^ 1_n),然后我们构建所有这些延迟的直方图。T2T2T^2t1ntn1t^1_n 如果两个过程不相关,那么我会期待一个平坦的直方图,因为在T ^ 1中的某个事件之后(或之前),T2T2T^2某个事件在所有延迟下的发生概率均相等。另一方面,如果直方图中有一个峰值,则表明两点过程在某种程度上相互影响(或至少具有一些共同的输入)。T1T1T^1 现在,这很好,但是我如何确定直方图是否确实有一个峰值(我必须说,对于我的特定数据集,它们显然是平坦的,但是采用统计方式仍会很好确认)? 因此,在这里,我已经完成了:我已经重复了多次生成直方图的过程,将保持原样,并使用了的“改组”版本。为了改组我计算了所有事件之间的间隔,将它们改组并求和以重新构成新的积分过程。在RI中,只需执行以下操作:T 2 T 2T1T1T^1T2T2T^2T2T2T^2 times2.swp <- cumsum(sample(diff(times2))) 因此,我得到了1000个新的直方图,向我展示了中事件的密度与相比。 T 1T2∗T2∗T^{2*}T1T1T^1 对于这些直方图的每个bin(它们都以相同的方式进行了装箱),我计算了95%的直方图密度。换句话说,例如,在5 ms的时间延迟中,在95%的改组点过程中,在的事件之后在中找到事件的概率为x 。 T 1T2∗T2∗T^{2*}T1T1T^1 然后,我将所有时间延迟都采用此95%的值,并将其用作某个“置信度极限”(可能这不是正确的术语),以便在原始直方图中超过该极限的任何值都可以视为“真”峰”。 问题1:此方法在统计上是否正确?如果没有,您将如何解决这个问题? …


3
我可以使用哪种算法查找事件之间的相关性?
我是机器学习的新手,因此我正在尝试查找一些文献,但是我什至不确定要做什么。我的数据具有以下形式: User A performs Action P User B performs Action Q User C performs Action R ... User C performs Action X User A performs Action Y User B performs Action Z ... 每个动作具有某些特征(日期,时间,客户等)的地方。大约有300个用户,我们有大约20,000个操作。 问题: 我想找出用户操作之间是否存在因果关系。例如,“每次用户E执行动作T,两天后用户G执行动作V”。但是在这两者之间,可能会有许多其他用户执行许多其他操作,并且可能找不到关联。有些用户可能是相关的,而其他用户则是完全独立的。这是机器学习能够为我找到的东西吗?是否有特定的算法或一组算法可以帮助我? 我一直在阅读关联分析和Apriori算法,但我认为这不能满足我的需要,因为它似乎需要已知的,定界的数据集作为输入,而我似乎只有一堆看似随机的用户动作。关于看什么的任何建议将不胜感激!

2
比较相关系数
我有两组数据,其中78个和35个样本的值约为250.000。一些样本是一个家庭的成员,这可能会影响数据。我已经计算了成对相关性,它在0.7到0.95之间变化,但是我想知道家庭内部和家庭之间的相关系数是否存在显着差异?做这个的最好方式是什么?谢谢

1
异步(不规则)时间序列分析
我正在尝试分析两个股票价格的时间序列之间的提前期。在定期的时间序列分析中,我们可以进行VECM(格兰杰因果关系)的Cross Correlaton。但是,如何在不规则间隔的时间序列中处理相同的内容。 假设是其中一种工具领先于另一种。 我的两个符号的数据都以微秒为单位。 我查看了RTAQ软件包,并尝试应用VECM。RTAQ在单变量时间序列上更多,而VECM在这些时间尺度上不重要。 > dput(STOCKS[,])) structure(c(29979, 29980, 29980, 29980, 29981, 29981, 29991, 29992, 29993, 29991, 29990, 29992), .Dim = c(6L, 2L), .Dimnames = list(NULL, c("Pair_Bid", "Calc_Bid" )), index = structure(c(1340686178.55163, 1340686181.40801, 1340686187.2642, 1340686187.52668, 1340686187.78777, 1340686189.36693), class = c("POSIXct", "POSIXt"), tzone = ""), class = "zoo")

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
互相关与互信息
互相关和互信息有什么区别。使用这些措施可以解决什么样的问题,何时才适合使用一个问题。 感谢您的评论。为了澄清,这个问题是由对图像分析而不是时间序列分析的兴趣提示的,尽管对该领域的任何启发也将受到赞赏。

1
如何进行“啤酒和尿布”的相关分析
我的数据等于: shopper_1 = ['beer', 'eggs', 'water',...] shopper_2 = ['diapers', 'beer',...] ... 我想对此数据集进行一些分析,以获得一个具有相似含义的相关矩阵:如果您购买了x,则很可能会购买y。 使用python(或者除MATLAB以外的其他任何东西),我该如何处理?一些基本准则或指向我应该去哪里的指针将有所帮助。 谢谢, 编辑-我学到的东西: 这些类型的问题称为关联规则发现。维基百科上有一篇很好的文章,介绍了一些常用的算法。这样做的经典算法似乎是Apriori,原因是Agrawal等。等 这使我想到了Orange,这是一个python接口的数据挖掘程序包。对于Linux,最好的安装方式似乎是使用提供的setup.py从源代码安装 默认情况下,橙色读取来自文件的输入,格式为几种受支持的方式之一。 最后,一个简单的先验关联规则的学习是简单的橙色。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.