我正在寻找有关如何处理词汇主题的一些投入和理论。
假设我有一个字符串集合,可能只是一个句子,也可能是多个句子。我想将这些字符串解析为最重要的单词,并用分数表示该单词重要的可能性。
让我们看一些我的意思的例子。
范例1:
“我真的很想要Keurig,但我买不起!”
这是一个非常基本的示例,只有一个句子。作为一个人,我很容易看到“ Keurig”在这里是最重要的词。另外,“ afford”相对重要,尽管显然不是句子的重点。“我”一词出现了两次,但根本不重要,因为它并没有真正告诉我们任何信息。我可能希望看到像这样的单词/分数哈希:
"Keurig" => 0.9
"afford" => 0.4
"want" => 0.2
"really" => 0.1
etc...
范例2:
“这是我一生中最好的游泳习惯之一。希望我能保持自己的时光来参加比赛。要是我想起要带上我的非防水手表,那就可以了。”
这个例子有多个句子,因此在整个过程中会有更多重要的单词。如果不重复示例1的重点练习,我可能希望看到其中有两个或三个非常重要的词:“游泳”(或“游泳练习”),“竞争”,“观看”(或“防水”)手表”或“非防水手表”,具体取决于连字符的处理方式)。
举几个这样的例子,您将如何做类似的事情?编程中是否有任何现有的(开源)库或算法已经做到了这一点?