考虑到过去的观察,我想在流数据(多维时间序列)的上下文中使用二进制逻辑回归模型,以便预测刚刚到达的数据(即行)的因变量的值。据我所知,逻辑回归通常用于事后分析,因为每个因变量均已设置(通过检查或研究性质)。
但是在时间序列的情况下会发生什么,我们要根据历史数据(例如,在最后秒的时间窗口中)(当然是前一个)动态地对因变量进行预测估计因变量?
并且,如果您随着时间的推移看到上述系统,应该如何构建它才能使回归正常工作?我们是否必须首先通过标记数据的前50行(即将因变量设置为0或1)来训练它,然后使用向量的当前估计值来估计它的新概率?因变量是刚到达的数据的0或1(即刚添加到系统的新行)?
为了使我的问题更清楚,我尝试建立一个系统来逐行解析数据集,并在给定所有先前因果关系或解释性知识(观察或估计)的情况下,对二进制结果(因变量)进行预测到达固定时间窗口的变量。我的系统在Rerl中,并使用R进行推断。
5
您可以假设数据具有相关性吗?您的情况是带有logit链接的GLMM的特例,但是必须正确建模时间序列数据中的相关结构才能获得合理的答案。
—
suncoolsu 2011年
当您说时间序列时,与有某种关系。还是可以假设它是独立的?y t − 1
—
suncoolsu 2011年
能否请您简要说明您的数据,以便我提出具体解决方案?您的问题可以得到解决,例如stat.ethz.ch/pipermail/r-sig-mixed-models/2010q4/004530.html
—
suncoolsu 2011年
我有以下形式的网络流量时间序列:协议,SrcIP SrcPort,DestIP,DestPort,TimeSec,Timeusec,PackLength TCP,200.80.199.105、3523、207.216.233.144、9658、11223344、941818、62 UDP,142.144.155.120 ,1751,244.72.151.2,1935,11223344,941843,60我想通过使用标记数据集中的知识来构建一个自训练模型来估计一个数据包(或一组数据包)是否是恶意的。我所谈论的平均应用于上述指标,以便给出一定程度的聚合,并使系统对于大流量更实用。
—
Regressor 2011年
这听起来确实像是支持向量机的工作。我想念什么吗?如果您确实担心数据的自相关或时间序列结构,则可以尝试ARIMA和/或多层纵向模型。在纵向模型上,我推荐Willet和Singer的《应用纵向数据分析》,在UCLA ATS网站上有R代码示例。
—
ashaw 2011年