给定一个输入序列,我需要确定此序列是否具有某些所需的属性。该属性只能为true或false,也就是说,一个序列只能属于两个可能的类。
序列与属性之间的确切关系尚不清楚,但我认为它是非常一致的,应该将其用于统计分类。我可能会在很多情况下对分类器进行训练,尽管这可能会有点嘈杂,但从某种意义上来说,在此训练集中,序列被分配了错误的类别的可能性很小。
训练数据示例:
Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...
粗略地说,属性由序列中的一组值(例如,出现“ 11”表示该属性几乎肯定为假)以及值的顺序(例如,“ 21 7 5 ”会大大增加该属性为真的机会)。
训练后,我应该能够给分类器一个以前看不见的序列,例如(1 21 7 5 3)
,它应该输出对属性为true的信心。是否存在用于使用这种输入/输出训练分类器的著名算法?
我已经考虑过朴素的贝叶斯分类器(它实际上并不适合于顺序很重要的事实,至少在不严重破坏输入是独立的假设的情况下如此)。我还研究了隐马尔可夫模型方法,该方法似乎不适用,因为只有一个输出可用,而不是每个输入一个输出。我错过了什么?