Questions tagged «trend»

数据中的可观察模式。


2
使用R的时间序列的STL趋势
我是R和时间序列分析的新手。我试图找到较长的(40年)每日温度时间序列的趋势,并尝试采用不同的近似值。第一个只是简单的线性回归,第二个是Loess的时间序列的季节性分解。 在后者看来,季节性成分大于趋势。但是,如何量化趋势?我只想说一说这个趋势有多强。 Call: stl(x = tsdata, s.window = "periodic") Time.series components: seasonal trend remainder Min. :-8.482470191 Min. :20.76670 Min. :-11.863290365 1st Qu.:-5.799037090 1st Qu.:22.17939 1st Qu.: -1.661246674 Median :-0.756729578 Median :22.56694 Median : 0.026579468 Mean :-0.005442784 Mean :22.53063 Mean : -0.003716813 3rd Qu.:5.695720249 3rd Qu.:22.91756 3rd Qu.: 1.700826647 Max. :9.919315613 …
27 r  time-series  trend 

1
设置STL窗口宽度的标准
使用R进行STL分解,s.window控制如何快速的季节性成分可以改变。较小的值允许更快速的更改。将季节性窗口设置为无穷大等效于将季节性分量强制为周期性(即跨年相同)。 我的问题: 如果我有一个每月的时间序列(即频率等于),应该使用什么标准设置?121212s.window 那和时间序列频率之间有联系吗?

2
时间序列和异常检测
我想建立一种算法来检测时间序列中的异常,并且我打算为此使用聚类。 为什么我应该使用距离矩阵而不是原始时间序列数据进行聚类?, 为了检测异常,我将使用基于密度的聚类(一种作为DBscan的算法),在这种情况下行得通吗?是否有在线版本的流数据? 我想在异常发生之前就对其进行检测,因此,使用趋势检测算法(ARIMA)是一个不错的选择吗?

2
了解R的增强Dickey Fuller测试中的k滞后
我在R中进行了一些单位根测试,但我不完全确定k lag参数的含义。我使用了tseries软件包中的增强Dickey Fuller测试和Philipps Perron测试。显然,默认的参数(用于)仅取决于序列的长度。如果选择不同的我得到的结果将完全不同。拒绝null:ķķkadf.testķķk Dickey-Fuller = -3.9828, Lag order = 4, p-value = 0.01272 alternative hypothesis: stationary # 103^(1/3)=k=4 Dickey-Fuller = -2.7776, Lag order = 0, p-value = 0.2543 alternative hypothesis: stationary # k=0 Dickey-Fuller = -2.5365, Lag order = 6, p-value = 0.3542 alternative hypothesis: stationary # k=6 加上PP测试结果: …
15 r  time-series  trend 


1
什么时候需要在回归模型中包括因变量的滞后,哪个滞后?
我们要用作因变量的数据如下所示(它是计数数据)。我们担心,由于它具有周期性成分和趋势结构,因此回归会以某种方式出现偏差。 如果有帮助,我们将使用负二项式回归。数据是一个平衡面板,每个人(状态)一个虚拟。所示图像显示了所有状态的因变量之和,但仅大多数状态具有类似的行为。我们正在考虑一种固定效应模型。因变量之间的相关性不是很高,研究的一部分是在这些变量之间找到一个意料之外的关系,因此弱关系实际上是件好事。 不包括因变量的滞后变量的确切风险是什么? 如果需要包括一个,是否有测试可以知道哪个。 正在R中执行。 注意:我确实阅读了这篇文章,但对我们的问题没有帮助。

6
如何表征突然的变化?
这个问题可能太基础了。对于数据的时间趋势,我想找出发生“突变”变化的点。例如,在下面显示的第一个图中,我想使用某种统计方法找出更改点。我想在变化点不明显的其他一些数据中使用这种方法(例如第二张图)。

1
漂移序列与趋势序列之间的差异
可以将具有漂移的序列建模为 ,其中是漂移(常数),并且。 yt=c+ϕyt−1+εtyt=c+ϕyt−1+εty_t = c + \phi y_{t-1} + \varepsilon_tcccϕ=1ϕ=1\phi=1 可以将具有趋势的序列建模为,其中是漂移(常数),是确定的时间趋势,。yt=c+δt+ϕyt−1+εtyt=c+δt+ϕyt−1+εty_t = c + \delta t + \phi y_{t-1} + \varepsilon_tcccδtδt\delta tϕ=1ϕ=1\phi=1 这两个系列都是,我认为两者都表现出越来越高的行为。I(1)I(1)I(1) 如果我有一个表现出越来越高的表现的新系列,我怎么知道这个系列是具有漂移或趋势的系列? 我可以做两个ADF测试: ADF测试1:零假设是级数为具有漂移的I(1)I(1)I(1) ADF测试2:零假设是具有趋势的序列I(1)I(1)I(1) 但是,如果两个测试的原假设都不被拒绝怎么办?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
统计测试,以验证两个相似的时间序列何时开始偏离
从标题开始,我想知道是否存在统计测试,可以帮助我确定两个相似时间序列之间的重大差异。具体来说,看下图,我想检测到序列在时间t1开始发散,即它们之间的差异开始显着。此外,我还将检测系列之间的差异何时不显着。 有任何有用的统计检验可以做到这一点吗?

2
时间序列集比较
我要比较三组时间序列数据。他们在大约12天的3个不同时期服用。它们是在决赛周期间在大学图书馆中记录的平均,最大和最小人数。我必须做平均值,最大值和最小值,因为每小时的人头计数不是连续的(请参阅时间序列中的常规数据空白)。 现在数据集看起来像这样。每个晚上有一个数据点(平均,最大或最小),持续12个晚上。仅在所关注的12天之内,收集了3个学期的数据。因此,例如,2010年春季,2010年秋季和2011年5月每个都有12点。这是一个示例图表: 我已经覆盖了整个学期,因为我想看看每个学期的模式如何变化。但是,正如我在链接线程中所知,将两个学期并排拍打不是一个好主意,因为它们之间没有数据。 问题是:我可以使用哪种数学方法来比较每个学期的出勤模式? 我必须对时间序列进行任何特殊处理,还是可以简单地采用百分比差异?我的目标是说这几天的图书馆使用量正在上升或下降。我只是不确定应该使用哪种技术来显示它。

6
可疑地使用信号处理原理来识别趋势
我建议尝试在一些非常嘈杂的长期数据中找到趋势。数据基本上是在大约8个月的时间内每周对大约5mm的物体进行测量。数据精确到1毫米,并且非常嘈杂,每周定期更改+/- 1或2毫米。我们只有到最接近毫米的数据。 我们计划使用一些具有快速傅立叶变换的基本信号处理来从原始数据中分离出噪声。基本的假设是,如果我们镜像数据集并将其添加到现有数据集的末尾,则可以创建数据的完整波长,因此我们的数据将以快速傅立叶变换显示,我们希望可以将其分离出来。 考虑到这对我来说有点怀疑,这是值得推荐的方法,还是镜像和附加我们的数据集的方法在某种程度上有根本性的缺陷?我们正在寻找其他方法,例如也使用低通滤波器。

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
朴素贝叶斯是否变得越来越受欢迎?为什么?
这是2004年1月至2017年4月从“朴素贝叶斯”短语获得的Google趋势结果(链接)。根据此数字,2017年4月“朴素贝叶斯”的搜索率比整个时间段内的最高值高出约25%。这是否意味着这种简单而古老的方法正在获得更多关注?为什么? 一个合理的解释(根据Sycorax的评论)是,这种流行是对机器学习的日益关注的间接影响。但是,似乎某些方法(例如朴素贝叶斯)比其他方法(例如决策树和SVM)获得了更多关注。从下图可以清楚地看出:

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.