在隐马尔可夫模型中选择“最佳”模型的标准


12

我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的:

for( i in 2 : max_number_of_states ){ 
    ...
    calculate HMM with i states
    ...
    optimal_number_of_states = "model with smallest BIC"
    ...
}

现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?

Answers:


11

我在这里假设您的输出变量是分类的,尽管事实并非如此。但是,通常情况下,当我看到使用HMM时,状态数是预先知道的,而不是通过调整来选择的。通常,它们对应于一些偶然发现的,易于理解的变量。但这并不意味着您无法尝试。

使用BIC(和AIC)的危险在于,模型中自由参数数量的k值随着状态数量的增加而平方增加,因为您拥有带有Px(P-1)参数的转移概率矩阵(对于P状态),以及给出每个状态的输出的每个类别的输出概率。因此,如果正确计算了AIC和BIC,则k应该会快速上升。

如果您有足够的数据,我建议您使用一种更软的方法来调整状态数,例如对保留样本进行测试。您可能还希望仅查看可能性统计数据,并从视觉上看到其稳定的时间点。另外,如果您的数据很大,请记住,这会将BIC推向较小的模型。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.