我计划使用scikit线性支持向量机(SVM)分类器对包含100万个带标签文档的语料库进行文本分类。我打算做的是,当用户输入某个关键字时,分类器将首先将其分类为一个类别,然后在该类别目录的文档中进行后续的信息检索查询。我有几个问题:
- 如何确认分类不会花费太多时间?我希望用户不必花时间等待分类完成才能获得更好的结果。
- 使用适用于网站/ Web应用程序的Python的scikit库适合吗?
- 有谁知道亚马逊或翻车如何对用户查询进行分类,或者他们使用完全不同的逻辑?
您可以预先对所有关键字进行分类,然后从索引中提取类别。
—
ffriend 2014年
@ffriend似乎是一个单词查询的答案。但是,如果搜索查询包含更多单词..或单词组合..我必须为所有组合创建索引!!!
—
user3498
SVC速度很快,因此,如果要在中等负载的应用程序中将其用于查询分类,它将可以使用。但是在大多数情况下,用单个(甚至几个单词)进行分类是个坏主意。以歧义词为例:如果某个词属于两个类别且概率差异很小,该怎么办?您是否要将可能的类别从搜索中删除一些?您最可能想要的是在搜索时对公式进行排名的附加术语,而不是完全拒绝可能性较小的类别。
—
ffriend