我正在寻找有关如何整理停用词列表的一些提示。有人知道/可以推荐一个好方法从数据集中提取停用词列表以进行预处理和过滤吗?
数据:
数年来,大量的可变长度的人类文本输入(搜索词和整个句子(最多200个字符))。文本中包含大量垃圾邮件(例如来自机器人的机器输入,单个单词,愚蠢的搜索,产品搜索等),似乎只有几%有用。我意识到有时候(很少)人们会问一些很酷的问题来搜寻我的身边。这些问题是如此的酷,以至于我认为有必要更深入地研究它们,以了解人们随着时间的流逝如何搜索以及人们对使用我的网站感兴趣的主题。
我的问题:
是我真的在预处理方面苦苦挣扎(即丢弃垃圾邮件)。我已经从网络上尝试过一些停用词列表(NLTK等),但是这些并不能真正满足我对这个数据集的需求。
感谢您的想法和讨论!
stop words
。停止wrods是在一些语言最常用的词,例如一个列表I
,the
,a
等等。您只需从文本中删除这些单词,然后再开始训练算法,尝试确定哪个文本是垃圾邮件。它并不能帮助您确定哪个文本是垃圾邮件,它可以使您的学习算法有所改进。