Questions tagged «text-mining»

指与通过识别模式从文本形式的数据中提取信息有关的数据挖掘的子集。文本挖掘的目标通常是自动地将给定文档分类为多个类别之一,并动态地提高此性能,使其成为机器学习的一个示例。此类文本挖掘的一个示例是用于电子邮件的垃圾邮件过滤器。

1
如何确定英语句子的复杂性?
我正在开发一个应用程序,以帮助人们学习英语作为第二语言。我已经证实句子可以通过提供额外的上下文来帮助学习语言。我是通过在60名学生的教室中进行小型研究来做到这一点的。 我已经从Wikipedia挖掘了十万多个用于各种英语单词的句子(包括Barrons的800个单词和1000个最常见的英语单词) 整个数据可从https://buildmyvocab.in获得 为了保持内容的质量,我过滤掉了超过160个字符的句子,因为这些句子可能很难理解。 下一步,我希望能够以易于理解的顺序自动化对该内容进行排序的过程。我本人不是英语母语者。我想知道我可以使用哪些功能将简单句子与困难句子分开。 另外,您认为这可能吗?

1
word2vec需要多少训练数据?
我想比较不同来源提到的同一单词之间的差异。也就是说,作者在使用诸如“民主”之类的定义不清的单词时有何不同。 一个简短的计划是 以提及“民主”一词的书籍为纯文本 在每本书中,替换democracy为democracy_%AuthorName% word2vec在这些书上训练模型 计算之间的距离democracy_AuthorA,democracy_AuthorB和“民主”的其他提及重新标记 因此,每个作者的“民主”都有自己的载体,用于比较。 但是,似乎word2vec需要远远超过几本书(每个重新标记的单词仅在一部分书中出现)来训练可靠的向量。在官方网页推荐数据集,包括数十亿字。 我只是想问一问word2vec,如果有的话,一个作者的书集的子集应该有多大?

2
使用什么机器/深度学习/ nlp技术将给定单词分类为名称,手机号码,地址,电子邮件,州,县,城市等
我正在尝试生成一个智能模型,该模型可以扫描一组单词或字符串,并使用机器学习或深度学习将它们分类为名称,手机号码,地址,城市,州,国家和其他实体。 我一直在寻找方法,但是不幸的是我没有找到任何方法。我曾尝试用词袋模型和嵌入的手套词来预测字符串是名称还是城市等。 但是,我的单词袋模型并没有成功,在GloVe中,嵌入示例中没有涉及很多名称:-劳伦出现在手套中,而劳伦娜则没有 我确实在这里找到了这篇文章,该文章的答案很合理,但是除了使用NLP和SVM来解决这个问题之外,我无法采用该方法来解决该问题。 任何建议表示赞赏 致谢,Sai Charan Adurthi。

4
建议文本分类器训练数据集
我可以使用哪些免费数据集来训练文本分类器? 我们正在尝试通过向用户推荐最相关的内容来增强用户的参与度,因此我们认为,如果我们根据预定义的单词袋对内容进行分类,那么我们可以通过获取用户对已经分类的随机帖子数量的反馈来向其推荐内容之前。 我们可以使用此信息为他推荐标有这些类别的豆类。但是我们发现,如果使用与内容无关的预定义词袋,则特征向量将充满零,类别也可能与内容不相关。因此出于这些原因,我们尝试了另一种解决方案,该解决方案将内容分类而不是对其进行分类。 谢谢 :)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.