Questions tagged «time-series»

时间序列是随时间(连续时间或离散时间段)观察到的数据。

3
如何处理不存在或缺失的数据?
我尝试了一种预测方法,并想检查我的方法是否正确。 我的研究正在比较不同种类的共同基金。我想使用GCC指数作为其中一个的基准,但问题是GCC指数于2011年9月停止,我的研究时间是2003年1月至2014年7月。因此,我尝试使用另一个指数MSCI指数,进行线性回归,但问题在于MSCI指数缺少2010年9月以来的数据。 为了解决这个问题,我做了以下工作。这些步骤有效吗? MSCI指数缺少2010年9月到2012年7月的数据。我通过应用五个观察值的移动平均值来“提供”该数据。这种方法有效吗?如果是这样,我应该使用多少个观测值? 在估计了缺失的数据之后,我对相互可用期间(从2007年1月到2011年9月)的GCC指数(作为因变量)与MSCI指数(作为自变量)进行了回归,然后针对所有问题对模型进行了校正。对于每个月,我将其余时间段的x替换为MSCI索引中的数据。这有效吗? 以下是逗号分隔值格式的数据,其中包含按行的年和按列的月。也可以通过此链接获得数据 。 系列GCC: ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2002,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,117.709 2003,120.176,117.983,120.913,134.036,145.829,143.108,149.712,156.997,162.158,158.526,166.42,180.306 2004,185.367,185.604,200.433,218.923,226.493,230.492,249.953,262.295,275.088,295.005,328.197,336.817 2005,346.721,363.919,423.232,492.508,519.074,605.804,581.975,676.021,692.077,761.837,863.65,844.865 2006,947.402,993.004,909.894,732.646,598.877,686.258,634.835,658.295,672.233,677.234,491.163,488.911 2007,440.237,486.828,456.164,452.141,495.19,473.926,492.782,525.295,519.081,575.744,599.984,668.192 2008,626.203,681.292,616.841,676.242,657.467,654.66,635.478,603.639,527.326,396.904,338.696,308.085 2009,279.706,252.054,272.082,314.367,340.354,325.99,326.46,327.053,354.192,339.035,329.668,318.267 2010,309.847,321.98,345.594,335.045,311.363,299.555,310.802,306.523,315.496,324.153,323.256,334.802 2011,331.133,311.292,323.08,327.105,320.258,312.749,305.073,297.087,298.671,NA,NA,NA 系列MSCI: ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2007,NA,NA,NA,NA,1000,958.645,1016.085,1049.468,1033.775,1118.854,1142.347,1298.223 2008,1197.656,1282.557,1164.874,1248.42,1227.061,1221.049,1161.246,1112.582,929.379,680.086,516.511,521.127 2009,487.562,450.331,478.255,560.667,605.143,598.611,609.559,615.73,662.891,655.639,628.404,602.14 2010,601.1,622.624,661.875,644.751,588.526,587.4,615.008,606.133,NA,NA,NA,NA 2011,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA 2012,NA,NA,NA,NA,NA,NA,NA,609.51,598.428,595.622,582.905,599.447 2013,627.561,619.581,636.284,632.099,651.995,651.39,687.194,676.76,694.575,704.806,727.625,739.842 2014,759.036,787.057,817.067,824.313,857.055,805.31,873.619,NA,NA,NA,NA,NA

6
解释R的ur.df(Dickey-Fuller单位根测试)结果
我正在使用软件包中的ur.df()功能在时间序列上运行以下单位根测试(Dickey-Fuller)urca。 该命令是: summary(ur.df(d.Aus, type = "drift", 6)) 输出为: ############################################### # Augmented Dickey-Fuller Test Unit Root Test # ############################################### Test regression drift Call: lm(formula = z.diff ~ z.lag.1 + 1 + z.diff.lag) Residuals: Min 1Q Median 3Q Max -0.266372 -0.036882 -0.002716 0.036644 0.230738 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) …

1
多元时间序列的块引导程序的替代方法
我目前使用以下过程来引导R中的多元时间序列: 确定块大小-运行包中的函数b.star,该函数np将为每个系列生成块大小 选择最大块大小 tsboot使用选定的块大小在任何系列上运行 使用引导输出中的索引来重构多元时间序列 有人建议使用meboot软件包作为块引导程序的替代方法,但是由于我没有使用整个数据集来选择块大小,因此,我不确定如果要使用通过在运行meboot时创建的索引来保持序列之间的相关性。一个系列。如果有人在多变量环境下使用过meboot,我将不胜感激有关此过程的建议。

1
在时间序列模型中使用R平方有什么问题?
我已经读过,对时间序列使用R平方是不合适的,因为在时间序列上下文中(我知道还有其他上下文),R平方不再是唯一的。为什么是这样?我试图进行查找,但没有找到任何东西。通常,在评估模型时,我不会对R平方(或调整R平方)进行任何评估,但是我的许多同事(例如,商务专业)绝对喜欢R平方,因此我希望能够向他们解释为什么R-Squared在时间序列的背景下不合适。

3
联立方程模型与结构方程模型之间的差异
有人可以帮我理解同时方程模型和结构方程模型(SEM)之间的区别吗?如果有人可以向我提供一些有关它的文献,那就太好了。 另外,是否有文献在时间序列环境中使用过SEM?我得到的文献大部分是在横截面数据上下文中解释的SEM。 谢谢!

2
在R中拟合多元线性回归:自相关残差
我正在尝试使用以下方程式估算R中的多元线性回归: regr <- lm(rate ~ constant + askings + questions + 0) 问和问题是按季度构建的季度数据时间序列askings <- ts(...)。 现在的问题是我得到了自相关残差。我知道可以使用gls函数拟合回归,但是我不知道如何识别必须在gls函数中实现的正确的AR或ARMA错误结构。 我现在尝试再次估算, gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) 但是很遗憾,我既不是R专家也不是统计学专家来确定p和q。 如果有人可以给我一个有用的提示,我将很高兴。提前非常感谢您! 乔

2
来自汉密尔顿的ARMA(p,q)的状态空间表示
r=max(p,q+1)r=max(p,q+1)r = \max(p,q+1)yt−μ=ϕ1(yt−1−μ)+ϕ2(yt−2−μ)+...+ϕ3(yt−3−μ)+ϵt+θ1ϵt−1+...+θr−1ϵt−r+1.yt−μ=ϕ1(yt−1−μ)+ϕ2(yt−2−μ)+...+ϕ3(yt−3−μ)+ϵt+θ1ϵt−1+...+θr−1ϵt−r+1. \begin{aligned} y_t -\mu &= \phi_1(y_{t-1} -\mu) + \phi_2(y_{t-2} -\mu) + ... + \phi_3(y_{t-3} -\mu) \\ &+ \epsilon_t + \theta_1\epsilon_{t-1} + ... + \theta_{r-1}\epsilon_{t-r+1}. \end{aligned} ξt+1=⎡⎣⎢⎢⎢⎢ϕ11⋮0ϕ20⋮0…………ϕr−1001ϕr000⎤⎦⎥⎥⎥⎥ξt+⎡⎣⎢⎢⎢⎢ϵt+10⋮0⎤⎦⎥⎥⎥⎥ξt+1=[ϕ1ϕ2…ϕr−1ϕr10…00⋮⋮…0000…10]ξt+[ϵt+10⋮0] \xi_{t+1} = \begin{bmatrix} \phi_1 & \phi_2 & \dots & \phi_{r-1} & \phi_r \\ 1 & 0 & \dots & 0 & 0 …


1
如何解释TBATS模型结果和模型诊断
我有一个半小时的需求数据,这是一个多个季节的时间序列。我在R的package中使用tbats过forecast,并得到如下结果: TBATS(1, {5,4}, 0.838, {<48,6>, <336,6>, <17520,5>}) 这是否意味着该序列不一定要使用Box-Cox变换,并且误差项是ARMA(5,4),而6、6和5项则用来解释季节性?阻尼参数0.8383表示什么,也用于转换吗? 以下是模型的分解图: 我想知道该怎么做level并slope讲述该模型。“坡度”告诉趋势,那又如何level呢?如何获得更清晰的情节session 1和session 2,它们分别是每天和每周的季节性。 tbats除了RMSE值,我还知道如何进行模型诊断以评估模型。正常方法是检查错误是否为白噪声,但此处的错误应该是ARMA系列的。我绘制了错误的'acf'和'pacf',但我认为它看起来不像ARMA(5,4)。这是否意味着我的模型不好? acf(resid(model1),lag.max = 1000) pacf(resid(model1),lag.max=1000) 最后一个问题RMSE是通过使用拟合值和真实值来计算的。如果我使用预测值fc1.week$mean和真实值来评估模型RMSE怎么办,它仍被称为?或者,还有这个名字吗? fc1.week <-forecast(model1,h=48*7) fc1.week.demand<-fc1.week$mean

1
我什么时候停止寻找模特?
我正在寻找能源价格与天气之间的模型。我有在欧洲国家之间购买的MWatt的价格,以及很多天气值(Grib文件)。每5小时(2011-2015)的小时数。 价格/天 这是每天的一年。我有这个5年的每小时。 天气示例 3D散点图,用开尔文表示,一个小时。我每小时每个数据有1000个值,还有klevin,风,地势等200个数据。 我正在尝试预测兆瓦每小时的平均价格。 我的天气数据非常密集,每小时超过10000个值,因此相关性很高。这是一个简短的大数据问题。 我尝试了套索,脊线和SVR方法,将MWatt的平均价格作为结果,而将天气数据作为收入。我将70%作为训练数据,将30%作为测试。如果我的测试数据是非预测性的(在我的训练数据中的某处),则我的预测很好(R²= 0.89)。但是我想对我的数据进行预测。 因此,如果测试数据按时间顺序排在我的训练数据之后,则它什么也不能预测(R²= 0.05)。我认为这很正常,因为它是时间序列。并且存在很多自相关。 我以为我必须使用ARIMA这样的时间序列模型。我计算了方法的顺序(序列是固定的)并进行了测试。但这没用。我的意思是预测的r²为0.05。我对测试数据的预测完全不在我的测试数据上。我尝试将ARIMAX方法用作回归天气。说它不会添加任何信息。 ACF / PCF,测试/训练数据 所以我每天和每周做一次季节性裁员 天 第一周趋势 如果可以预见股价趋势,就可以拥有: 蓝色是我的预测,红色是真正的价值。 我将进行回归分析,将天气的滚动平均值作为收入,将股价趋势的趋势作为结果。但是到目前为止,我还没有找到任何关系。 但是,如果没有互动,我怎么知道什么都没有?也许只是我没有找到它。

4
时间序列中的异常值检测:如何减少误报?
我想自动离群值在时间序列检测和我使用的罗布海德门提出的解决方案的修改在这里。 假设我衡量来自各个国家/地区的网站的每日访问量。对于某些日访问量只有几百或几千的国家,我的方法似乎工作合理。 但是,在一个国家每天只进行1或2次访问的情况下,该算法的范围非常狭窄(例如1±0.001),因此这2次访问被认为是异常值。我如何自动检测此类情况,以及如何处理它们以识别异常值?我不想设置一个手动的阈值,例如每天100次访问。 谢谢!

1
您如何从其样本路径检查随机过程的遍历性?
如何从其样本路径检查广义平稳随机过程的遍历性? 我们可以从单个样本路径检查遍历性吗?还是我们需要多个样本路径? 检查遍历性的一种动机是在时间序列中,以确保您可以安全地将样本路径随时间的平均值用作总体平均值的估计值?

2
时间序列分类-非常差的结果
我正在研究时间序列分类问题,其中输入的是手机帐户前21天的时间序列语音使用数据(以秒为单位)。相应的目标变量是该帐户是否在35-45天范围内被取消。因此,这是一个二进制分类问题。 到目前为止,我尝试过的所有方法(在不同程度上)的效果都非常差。首先,我尝试了k-NN分类(进行了各种修改),但结果却非常糟糕。这使我从时间序列中提取特征-即均值,方差,最大值,最小值,总零天,总尾随零天,上半年平均值与下半年平均值之间的差等,而最具预测性的特征似乎是总计零天和总尾随零天(使用几种分类算法)。这表现最好,但是性能仍然不是很好。 我的下一个策略是对我的训练集中的负面实例进行过度采样,因为它们很少。这导致更正确的抵消预测,但以更多的假阳性为代价。 我开始认为,时间序列使用情况数据本身可能并不能很好地预测(尽管常识认为应该如此)。也许有些潜在的变量我没有考虑。查看数据还显示出一些奇怪的行为。即,一些示例显示很少使用或减少使用(有时甚至根本不使用)并且不取消,而一些示例显示使用取消的使用量增加。也许这种矛盾的行为不会为分类器产生非常清晰的决策边界。 另一个可能的错误来源是许多训练示例都很稀疏(即许多天使用0的事实)。我还没有尝试过的一个想法是将时间序列分成多个部分并以这种方式生成一些功能,但是我并不抱有很大希望。

1
基于月收益率方差的年收益率方差
我试图了解财务回报的时间序列中的全部方差/标准差错误,但我觉得很棘手。我有一系列的月度股票回报数据(我们称其为),其预期值为1.00795,差异为0.000228(标准偏差为0.01512)。我正在尝试计算年收益率的最坏情况(假设期望值减去标准误差的两倍)。哪种方法是最好的方法?一。计算一个月(),然后将其自身乘以12倍(= 0.7630)。乙。假设月份是独立的,则将 12次,求出其期望值μ X - 2 ⋅ σ X = 0.977 Ŷ = X ⋅ X ⋅ 。。。⋅ X ë [ Ý ] = (ë [ X ] )12XXX μX-2 ·&σX= 0.977μX-2⋅σX=0.977\mu_X-2\cdot \sigma_X=0.977 ÿ= X⋅ X⋅ 。。。⋅Xÿ=X⋅X⋅。。。⋅XY=X\cdot X\cdot ...\cdot XË[ Y] = (E[ X] )12Ë[ÿ]=(Ë[X])12E[Y]=(E[X])^{12})和方差。在这种情况下,标准的开发是0.0572,和预期值减去STD。dev的两次是0.9853。ç。乘以每月的std。dev的与获得年度之一。用它来查找最坏的情况下每年的值(),结果为0.9949, 哪一个是正确的?如果您仅知道每月数据的这些属性,则计算预期年值减去标准差两倍的正确方法是什么? ?(通常-如果 12次并且,变种[ Y] = …

2
时间序列数据的空间自相关
我有一个20年数据集,其中包含一组多边形(约200个不规则形状的连续多边形)的物种丰富度的年度计数。我一直在使用回归分析来推断每个多边形的趋势(每年计数变化),以及基于管理边界的多边形数据汇总。 我确信数据中存在空间自相关,这肯定会影响汇总数据的回归分析。我的问题是-如何对时间序列数据进行SAC测试?我是否需要查看每年回归分析中残差的SAC(全局Moran's I)?还是我可以全年进行一次测试? 一旦我测试了是的,那么就有SAC了,解决这个问题容易吗?我的统计资料背景很少,我在时空建模方面阅读的所有内容听起来都很复杂。我知道R具有距离加权自协变量函数-这一点简单易用吗? 我真的很困惑如何评估/添加SAC来解决此问题,非常感谢任何建议,链接或参考。提前致谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.