3
如何为给定域构建语义搜索
我们正在尝试解决一个问题,即我们想对数据集进行语义搜索,即我们拥有特定领域的数据(例如:谈论汽车的句子) 我们的数据只是一堆句子,我们想要的是给出一个短语并取回以下句子: 类似于该短语 句子的一部分与短语相似 具有上下文相似含义的句子 让我尝试举一个例子,假设我搜索短语“ Buying Experience”,我应该得到如下句子: 我从没想过汽车购买可以花费不到30分钟的时间进行签名和购买。 我找到了我喜欢的汽车,购买过程 简单明了 我绝对讨厌去购物,但今天我很高兴 我想强调的事实是,我们正在寻找上下文相似性,而不仅仅是蛮力的单词搜索。 如果句子使用不同的单词,那么它也应该能够找到它。 我们已经尝试过的事情: 开放式语义搜索我们面临的问题是从我们拥有的数据中生成本体,或者为此而从我们感兴趣的不同领域中搜索可用的本体。 弹性搜索(BM25 + Vectors(tf-idf)),我们尝试了一下,它给出了一些句子,但精度却不高。准确性也很差。我们尝试使用人类策划的数据集,该数据集只能获得大约10%的句子。 我们尝试了不同的嵌入,例如曾经在句子变形器中提到的嵌入,并且还通过了示例,并尝试根据我们人类策划的集合进行评估,而且准确性也很低。 我们尝试了ELMO。这比我们预期的要好,但准确性仍然较低,并且存在决定余弦值的认知负担,低于该值我们不应考虑这些句子。这甚至适用于第3点。 任何帮助将不胜感激。非常感谢您的提前帮助