数据科学 nlp

2

我有数千个字符串列表，每个列表都有大约10个字符串。给定列表中的大多数字符串都非常相似，尽管某些字符串（很少）与其他字符串完全无关，而某些字符串包含不相关的单词。可以将它们视为规范字符串的嘈杂变化。我正在寻找一种算法或库，可以将每个列表转换为该规范字符串。这是一个这样的清单。星球大战：第四集新希望 StarWars.com 星球大战第四集-新希望（1977）星球大战：第四集-新希望-烂番茄观看星球大战：第四集-免费在线新希望星球大战（1977）-最伟大的电影 [REC] 4个海报承诺通过舷外发动机致死-SciFiNow 对于此列表，任何与正则表达式匹配的字符串^Star Wars:? Episode IV (- )?A New Hope$都是可以接受的。我在Coursera上看过Andrew Ng的机器学习课程，但是找不到类似的问题。

10 nlp similarity information-retrieval

1

如何确定英语句子的复杂性？

我正在开发一个应用程序，以帮助人们学习英语作为第二语言。我已经证实句子可以通过提供额外的上下文来帮助学习语言。我是通过在60名学生的教室中进行小型研究来做到这一点的。我已经从Wikipedia挖掘了十万多个用于各种英语单词的句子（包括Barrons的800个单词和1000个最常见的英语单词）整个数据可从https://buildmyvocab.in获得为了保持内容的质量，我过滤掉了超过160个字符的句子，因为这些句子可能很难理解。下一步，我希望能够以易于理解的顺序自动化对该内容进行排序的过程。我本人不是英语母语者。我想知道我可以使用哪些功能将简单句子与困难句子分开。另外，您认为这可能吗？

10 machine-learning classification nlp text-mining

5

如何创建一个好的停用词列表

我正在寻找有关如何整理停用词列表的一些提示。有人知道/可以推荐一个好方法从数据集中提取停用词列表以进行预处理和过滤吗？数据：数年来，大量的可变长度的人类文本输入（搜索词和整个句子（最多200个字符））。文本中包含大量垃圾邮件（例如来自机器人的机器输入，单个单词，愚蠢的搜索，产品搜索等），似乎只有几％有用。我意识到有时候（很少）人们会问一些很酷的问题来搜寻我的身边。这些问题是如此的酷，以至于我认为有必要更深入地研究它们，以了解人们随着时间的流逝如何搜索以及人们对使用我的网站感兴趣的主题。我的问题：是我真的在预处理方面苦苦挣扎（即丢弃垃圾邮件）。我已经从网络上尝试过一些停用词列表（NLTK等），但是这些并不能真正满足我对这个数据集的需求。感谢您的想法和讨论！

9 data-mining nlp information-retrieval language-model

1

将Vowpal Wabbit用于NER

Vowpal Wabbit（VW）显然通过SEARN支持序列标记功能。问题是我无法在任何地方找到带有说明和一些示例的详细参数列表。我能找到的最好的例子是Zinkov的博客文章，其中有一个非常简短的例子。该主wiki页面几乎没有提到SEARN。在签出的源代码中，我找到了带有一些NER示例数据的演示文件夹。不幸的是，运行所有测试的脚本没有显示如何在此数据上运行。至少了解一下期望的格式是足够有用的：与标准VW数据格式几乎相同，除了条目之间用空白行分隔（这很重要）。我目前的理解是运行以下命令： cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \ --searn_passes_per_policy 2 -b 30 -f twpos.vw 哪里 --searn 25 -NER标签总数（？） --searn_task sequence -序列标记任务（？） --searn_passes_per_policy 2 -不知道它做什么其他参数是大众的标准配置，无需其他说明。也许还有更多特定于SEARN的参数？它们的重要性和影响是什么？如何调整它们？有什么经验法则吗？任何指向示例的指针将不胜感激。

9 machine-learning nlp

Questions tagged «nlp»