数据科学 text

句子相似度预测

我正在寻求解决以下问题：我有一组句子作为我的数据集，并且我希望能够键入一个新句子，并找到该新句子与数据集中最相似的句子。一个示例如下所示：新句子：“ I opened a new mailbox” 基于数据集的预测： Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% 我已经读到余弦相似度可以用来解决与tf-idf配对的这类问题（RNN不应对基本方法带来重大改进），或者word2vec也可以用于相似的问题。那些在这种特定情况下实际可行吗？是否有其他技术/算法可以解决此问题（最好使用Python和SKLearn，但我也愿意学习TensorFlow）？

15 python nlp scikit-learn similarity text

您如何将SMOTE应用于文本分类？

综合少数族裔过采样技术（SMOTE）是用于不平衡数据集问题的过采样技术。到目前为止，我已经知道如何将其应用于通用的结构化数据。但是可以将其应用于文本分类问题吗？您需要对数据的哪一部分进行超采样？已经有另一个问题，但是没有答案。我在哪里可以学习入门呢？

13 unbalanced-classes text smote

Questions tagged «text»