我有一个问题,就是将大量句子按其含义分组。当您有很多句子并想按其含义对它们进行分组时,这类似于一个问题。
建议使用什么算法来做到这一点?我不知道簇的数量(随着更多数据的到来,簇也可以改变),通常用什么特征来表示每个句子?
我现在正在尝试使用最简单的功能,将单词列表和句子之间的距离定义为:
(A和B是句子A和B中的相应单词集)
真的有道理吗?
我正在尝试将scikit库中的Mean-Shift算法应用于此距离,因为它不需要预先提供多个簇。
如果有人会建议解决问题的更好方法/方法,将不胜感激,因为我还是这个话题的新手。