Answers:
实际上,由于许多文本分类任务处理不平衡问题(例如垃圾邮件过滤,侮辱性评论检测,文章分类等),因此NLP是最常见的需要数据重采样的领域之一。但是出于某些原因,SMOTE在这里似乎有问题:
因此,我可以为您提出两种方法:
1)假设您要使用3-NN将次要类的数据样本加倍。忽略主要班级,仅保留次要班级样本。
2)为特征空间中的每个采样点选择5个最近的邻居。然后随机选择3个(不是很复杂吗?如果我不想解释原始算法,我会说选择3个邻居!)
3)对于每个维度,计算样本与邻居之间的距离,并将其乘以0-1之间的随机数,并将其与该维度中样本的原始值相加。(这个复杂的段落只是意味着对于每个维度,请在原始样本和该邻居之间选择一个随机值!)
如果要添加更多文本/句子转换数据,则可以使用预训练的词嵌入。像这样的预训练模型可以提供每个字典单词的单词矢量表示。它还提供“ most_smiliar”字样。
您可以简单地使用示例句子并通过对每个单词中与TOP_N个相似度最高的单词进行置换来生成新的示例。
例如,如果句子中有3个单词,并且每个单词选择3个最相似的单词,则可以上采样27次。