Answers:
A)在预处理数据上花费大量时间。预处理是您工作的90%。
B)为时间序列选择适当的相似性度量。例如,阈值穿越距离可能是一个不错的选择。除非您具有不同的时区,否则您可能不希望动态时间规整距离。越过阈值可能更适合于检测时间模式,同时不注意实际大小(这可能因公司而异)。
C)使用可以与任意距离函数配合使用的方法(如层次聚类或DBSCAN )聚类所得的不相似矩阵。
您可能需要查看每天,每周和每年的周期性的每小时时间序列预测有关每小时数据的讨论,其中涉及每日数据和节假日/回归指标。您拥有5年的数据,而其他讨论则涉及883个每日价值。我的建议是,您可以建立每小时的预测,并结合诸如星期几之类的回归指标。一年中的一周和节假日使用每日总计作为其他预测指标。这样,您将为3,000个公司中的每个公司拥有24个模型。现在您想要做的是按小时计算,使用通用的ARIMAX结构估算3,000个模型,其中考虑了每个回归指标,周几,周几变化的响应模式参数和每周指标,同时隔离异常值。然后,您可以使用所有3000家公司在全球范围内估算参数。执行Chow测试http://en.wikipedia.org/wiki/Chow_test为了保持参数的稳定性和在拒绝时将公司分成同类组。我将其称为一维聚类分析。由于SPSS在时间序列上的功能非常有限,因此您可能需要在此处查找其他软件。