Questions tagged «text-analysis»

3
词干比小种机
自然语言处理(NLP)(尤其是英语)已经发展到一个阶段,如果存在“完美”的词义修饰符,词干将成为古老的技术。这是因为词干将词/令牌的表面形式更改为一些毫无意义的词干。 然后,由于完全不同的NLP任务将需要不同程度的词法化,因此“完美”词法化器的定义还是有问题的。例如,在动词/名词/形容词形式之间转换单词。 词干 [in]: having [out]: hav 脱胶机 [in]: having [out]: have 所以问题是,英语词干今天是否有用?由于我们有大量的英语非母语化工具 如果不是,那么我们应该如何着手构建强大的lemmatizers可以取nounify,verbify,adjectify和adverbify 预处理? 词形化任务如何轻松地扩展到具有与英语相似的词法结构的其他语言?

4
如何从一系列文本输入中提取常用/重要短语
我有一系列文本项-来自MySQL数据库的原始HTML。我想在这些条目中找到最常用的短语(而不是单个最常用的短语,理想情况下,不强制单词对单词的匹配)。 我的示例是Yelp.com上的任何评论,其中以给定餐厅的数百条评论显示了3个摘要,格式为: “尝试汉堡”(共44条评论) 例如,此页面的“评论重点”部分: http://www.yelp.com/biz/sushi-gen-los-angeles/ 我已经安装了NLTK,并且已经对其进行了一些尝试,但是老实说,这些选择让他们不知所措。这似乎是一个相当普遍的问题,我无法通过在此处搜索找到简单的解决方案。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.