我经常在建立一个模型(分类或回归)时,在该模型中有一些序列预测变量,我一直在寻找技术建议,以便以最佳方式将其总结为预测变量。
举一个具体的例子,假设正在建立一个模型来预测客户是否会在未来90天内离开公司(t和t + 90之间的任何时间;因此是二进制结果)。可用的预测因素之一是时段t_0至t-1期间客户的财务余额水平。也许这代表了前12个月的每月观测值(即12次测量值)。
我正在寻找构建本系列文章功能的方法。我使用每个客户系列的描述,例如均值,高,低,标准差,拟合OLS回归来得出趋势。是他们计算特征的其他方法吗?其他衡量变化或波动的方法吗?
加:
就像在下面的回复中提到的那样,我也考虑过(但忘记在此处添加)动态时间规整(DTW),然后在所得的距离矩阵上进行分层聚类-创建一些聚类,然后使用聚类成员身份作为功能。评分测试数据可能必须遵循对新案例和聚类质心进行DTW的过程-将新数据系列与其最接近的质心进行匹配...