我有活动频率的时间数据。我想识别数据中的群集,这些群集指示具有相似活动级别的不同时间段。理想情况下,我想在不先验指定集群数量的情况下识别集群。
什么是合适的聚类技术?如果我的问题没有足够的信息来回答,那么确定适当的聚类技术需要提供哪些信息?
以下是我正在想象的数据/集群类型的说明:
我有活动频率的时间数据。我想识别数据中的群集,这些群集指示具有相似活动级别的不同时间段。理想情况下,我想在不先验指定集群数量的情况下识别集群。
什么是合适的聚类技术?如果我的问题没有足够的信息来回答,那么确定适当的聚类技术需要提供哪些信息?
以下是我正在想象的数据/集群类型的说明:
Answers:
从我自己的研究看来,高斯隐马尔可夫模型似乎是一个很好的选择:http : //scikit-learn.org/stable/auto_examples/plot_hmm_stock_analysis.html#example-plot-hmm-stock-analysis-py
似乎确实发现了不同的活动情节。
小波可以帮助您识别具有不同属性的期间。但是,我不确定是否有方法可以将您的时间序列分为多个离散周期。似乎有很多理论要经过,我才刚刚开始。我期待阅读其他建议。
您是否看到过以下页面:UCR时间序列分类/聚类页面?
在那里,您可以找到两者:用于实践的数据集和已发布的结果-比较您自己的实现的性能(在知名机器学习技术的已知性能上也有链接)。此外,此页面引用了大量论文,您可以从中继续进行研究,以找到适合您的问题,数据或需求的最佳方法。
此外,还有另一种方法(可能)通过应用sequitur http:// sequitur.info来执行此操作。如果您能够很好地对数据进行规范化/近似化,它将使您的那些“具有类似活动水平的不同时间段”的语法参见本文并搜索另一篇文章,因为我无法添加更多链接...