统计和大数据 change-point

3

我想知道是否仅对因变量（无论是因变量还是自变量）还是仅对自变量进行了对数转换，在解释上是否有所不同。考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长，但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

1

时态网络中的链路异常检测

我碰到了一篇使用链接异常检测来预测趋势主题的论文，并且发现它非常有趣：该论文是“通过链接异常检测在社交流中发现新兴主题”。我想将其复制到不同的数据集上，但是我对如何使用它们的方法并不熟悉。假设我有六个月的一系列节点网络快照。节点具有长尾度分布，大多数节点只有几个连接，而有些则有很多。新节点将在此时间段内出现。我如何实现本文中使用的顺序折算归一化的最大似然计算来检测我认为可能是爆发的先兆的异常链接？还有其他更合适的方法吗？我在理论上和实践上都在问。如果有人可以指出我用python或R实现该方法的方法，那将非常有帮助。任何人？我知道你们那里的聪明人有一些开始思考的答案，

32 time-series machine-learning outliers python change-point

5

用于更改点分析的Python模块

我正在寻找一个在时间序列上执行变更点分析的Python模块。有很多不同的算法，我想探索其中一些算法的有效性，而不必手动滚动每种算法。理想情况下，我需要R中的一些模块，例如bcp（贝叶斯变更点）或strucchange软件包。我希望在Scipy中找到一些模块，但是我无法打开任何东西。我很惊讶其中没有任何设施： statsmodels.tsa：时间序列统计分析工具 scikits.timeseries：扩展scipy的时间序列分析工具 scipy.signal：scipy中的信号处理工具 Python中是否有带有变更点检测算法的模块？

24 time-series python change-point

4

如何将新向量投影到PCA空间上？

执行主成分分析（PCA）之后，我想将一个新向量投影到PCA空间上（即在PCA坐标系中找到其坐标）。我已经使用R计算了R语言的PCA prcomp。现在，我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

5

检测时间序列的变化（R示例）

我想检测通常具有相同形状的时间序列数据的变化。到目前为止，我已经使用changepointR和cpt.mean(), cpt.var()and cpt.meanvar()函数的软件包。cpt.mean()当数据通常保持在一个级别时，使用PELT方法的效果很好。但是，我也想检测下降期间的变化。我要检测的一个变化示例是黑色曲线突然下降而实际上应遵循示例性红色虚线的部分。我已经尝试过cpt.var（）函数，但是无法获得良好的结果。您是否有任何建议（不必使用R）？这是具有更改的数据（作为R对象）： dat.change <- c(12.013995263488, 11.8460207231808, 11.2845153487846, 11.7884417180764, 11.6865425802022, 11.4703118125303, 11.4677576899063, 11.0227199625084, 11.274775836817, 11.03073498338, 10.7771805591742, 10.7383206158923, 10.5847230134625, 10.2479315651441, 10.4196381241735, 10.467607842288, 10.3682422713283, 9.7834431752935, 9.76649842404295, 9.78257968297228, 9.87817694914062, 9.3449034905713, 9.56400153361727, 9.78120084558148, 9.3445162813738, 9.36767436354887, 9.12070987223648, 9.21909859069157, 8.85136359917466, 8.8814423003979, 8.61830163359642, 8.44796977628488, 8.06957847272046, 8.37999165387824, 7.98213210294954, 8.21977468333673, 7.683960439316, 7.73213584532496, 7.98956476021092, 7.83036046746187, 7.64496198988985, 4.49693528397253, 6.3459274845112, 5.86993447552116, …

18 r time-series change-point structural-change

2

使用R的nls（）进行变更点分析

我正在尝试实现“变化点”分析或nls()在R中使用的多阶段回归。这是我制作的一些虚假数据。我想用来拟合数据的公式是： ÿ= β0+ β1个x + β2最大（0 ，X - δ）ÿ=β0+β1个X+β2最大值（0，X-δ）y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) 这应该做的是使数据具有特定的截距和斜率（β0β0\beta_0和β1个β1个\beta_1），直到特定点，然后在某个x值（δδ\delta）之后，将斜率增加β2β2\beta_2。这就是整个最大事情。在δδ\delta点之前，它等于0，并且β2β2\beta_2将被清零。因此，这是我的功能： changePoint <- function(x, b0, slope1, slope2, delta){ b0 + (x*slope1) + (max(0, x-delta) * slope2) } 我尝试以这种方式拟合模型 nls(y ~ changePoint(x, b0, slope1, slope2, delta), data = data, start = c(b0 = 50, …

16 r regression change-point nls

6

如何检测由于“政策”变更而导致的时间序列数据的重大变更？

我希望这是张贴此文章的正确地点，我考虑过将其张贴在怀疑论者身上，但我认为他们只是说这项研究在统计上是错误的。我对这个问题的另一面感到好奇，那就是如何正确地做到这一点。作者在网站Quantified Self上发布了一项实验结果，该实验是对一段时间内自己测量的一些输出指标进行比较，并比较了突然停止喝咖啡前后的比较。对结果进行了主观评估，作者认为他有证据表明时间序列有变化，并且与政策的变化有关（饮用咖啡）这让我想起了经济模型。我们只有一个经济体（目前正在关注），因此经济学家通常基本上在进行n = 1个实验。因此，几乎可以肯定的是，随着时间的推移数据是自相关的。美联储表示，经济学家通常在观察其启动一项政策的过程，并试图确定时间序列是否发生变化，这有可能是由于该政策造成的。根据数据确定时间序列是增加还是减少的适当测试是什么？我需要多少数据？存在哪些工具？我最初的谷歌搜索建议使用马尔可夫切换时间序列模型，但并不是我的谷歌搜索技能让我无法使用该技术的名称来做任何事情。

15 time-series change-point

4

允许不连续的黄土

是否有像LOESS这样的建模技术这样允许零个，一个或多个不连续性，而这些不连续性的时间先验未知？如果存在一种技术，R中是否存在现有的实现？

14 r regression curve-fitting change-point loess

4

用R中的随机效应估计折断的棒/分段线性模型中的断点[包括代码和输出]

当我还需要估计其他随机效应时，有人可以告诉我如何让R估计分段线性模型中的断裂点（作为固定或随机参数）吗？我在下面提供了一个玩具示例，该示例适合曲棍球杆/折断的杆回归，其随机点的斜率变化和y轴截距的随机变化为4的断裂点。我想估算断裂点而不是指定断裂点。它可以是随机效果（最好）或固定效果。 library(lme4) str(sleepstudy) #Basis functions bp = 4 b1 <- function(x, bp) ifelse(x < bp, bp - x, 0) b2 <- function(x, bp) ifelse(x < bp, 0, x - bp) #Mixed effects model with break point = 4 (mod <- lmer(Reaction ~ b1(Days, bp) + b2(Days, bp) + (b1(Days, …

14 r mixed-model lme4-nlme change-point piecewise-linear

8

如何对多个未知结进行分段线性回归？

是否有任何软件包可以进行分段线性回归，从而可以自动检测多个结？谢谢。当我使用strucchange包时。我无法检测到更改点。我不知道它如何检测更改点。从地块中，我可以看到有一些要点可以帮助我挑选出来。有人可以在这里举个例子吗？

14 regression change-point

6

如何表征突然的变化？

这个问题可能太基础了。对于数据的时间趋势，我想找出发生“突变”变化的点。例如，在下面显示的第一个图中，我想使用某种统计方法找出更改点。我想在变化点不明显的其他一些数据中使用这种方法（例如第二张图）。

13 time-series trend change-point

1

确定时间序列中的变化是否具有统计意义

我拥有每周收到的电话总数，并将其绘制在图表上，可以追溯到近3年。肉眼看来，圣诞节期间下降了很多，似乎还没有恢复，似乎请求量有了很大的变化。我可以做一个可以量化这种差异的测试吗？干杯本

11 time-series statistical-significance change-point

2

检测时间序列的变化

我遇到了一张应用程序原型的图片，该原型发现了交通数据中的重大变化（“趋势”，而不是峰值/离群值）：我想编写一个能够做到这一点的程序（Java，或者可选的R）-但是由于我的统计技能有点生锈，因此我需要再次深入探讨该主题。因此，我应该使用/研究什么方法/算法？

11 time-series change-point

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

Questions tagged «change-point»