特征提取技术-汇总数据序列


11

我经常在建立一个模型(分类或回归)时,在该模型中有一些序列预测变量,我一直在寻找技术建议,以便以最佳方式将其总结为预测变量。

举一个具体的例子,假设正在建立一个模型来预测客户是否会在未来90天内离开公司(t和t + 90之间的任何时间;因此是二进制结果)。可用的预测因素之一是时段t_0至t-1期间客户的财务余额水平。也许这代表了前12个月的每月观测值(即12次测量值)。

我正在寻找构建本系列文章功能的方法。我使用每个客户系列的描述,例如均值,高,低,标准差,拟合OLS回归来得出趋势。是他们计算特征的其他方法吗?其他衡量变化或波动的方法吗?

加:

就像在下面的回复中提到的那样,我也考虑过(但忘记在此处添加)动态时间规整(DTW),然后在所得的距离矩阵上进行分层聚类-创建一些聚类,然后使用聚类成员身份作为功能。评分测试数据可能必须遵循对新案例和聚类质心进行DTW的过程-将新数据系列与其最接近的质心进行匹配...

Answers:


7

希望看到一个书面的方框,该方框收集了有关特征工程/提取的案例研究

请告知这是否有帮助

  1. 时间序列数据的离散化 http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf

  2. 为知识发现优化时间序列离散化 https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. 体验SAX:时间序列的新颖符号表示 http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. 大数据系列交互式探索索引 http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. 用于时间序列数据中结构模式识别的广义特征提取 http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. 在R中计算和可视化动态时间扭曲对齐:dtw软件包 https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

您在此处尝试做的是减小特征的尺寸。您可以搜索降维以获得多种选择,但是一种非常流行的技术是主成分分析(PCA)。主要组件无法像您提到的选项那样解释,但是它们在汇总所有信息方面做得很好。


我对此答案的担心是,PCA无法识别序列t和t + 1之间的明显依存关系。
B_Miner 2014年

如果t和t + 1依赖关系是趋势或季节性,请考虑将其提取并处理其余的独立变量。
迭戈

2

特征提取一直是一个挑战,在文学中很少涉及,因为它广泛地依赖于应用程序。

您可以尝试一些想法:

  • 每天测量的原始数据。为了使不同长度的时间线具有可比性,这带有一些含义和额外的预处理(规范化)是显而易见的。
  • 更高的力矩:偏度,峰度等
  • 衍生产品:进化的速度
  • 时间跨度不是很大,但是也许值得尝试一些时间序列分析功能,例如自相关。
  • 一些自定义功能(例如,将时间轴分成几周,并分别测量您每周已测量的数量)。然后,非线性分类器将能够结合例如第一周特征和最后一周特征,以便及时了解进化。

不错的建议!您可以充实使用衍生工具吗?
B_Miner 2014年

我完全同意你的第一句话。我希望看到一个书面的方框,该方框收集了有关特征工程/提取的案例研究。谚语是,在预测模型性能方面,特征创建比最新的最佳算法重要得多。
B_Miner 2014年

2

乍一看,您需要从时间序列(x-12)-x中提取特征。一种可能的方法是计算汇总指标:平均值,离散度等。但是,这样做会丢失所有与时间序列有关的信息。但是,从曲线形状中提取的数据可能非常有用。我建议你通过看这个文章,其中作者提出的算法时间序列聚类。希望这会有用。除此类集群外,您还可以将摘要统计信息添加到功能列表中。


感谢您的链接。我还考虑过使用DTW和分层聚类。我已经尝试过DWT的R包。jstatsoft.org/v31/i07/paper
B_Miner 2014年

1
我考虑过专门创建n个群集,并使用群集成员身份作为功能。
B_Miner 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.