单词列表来源


11

我正在寻找几种语言的名词,副词,形容词和动词的来源。

我希望这些列表被拆分,而不必通过手工重新创建所述列表来进行OED(和非英语等效)的检查。

我并不真正在乎定义,而且我知道有些单词可能是词性的多个部分-很好-像“许多”这样的单词可以是名词或形容词,并且可以出现在两个列表中。

这里有人知道这样的消息吗?如果没有,也许有人可以指出正确的方向?

我可以采用以下任何一种格式(如果人们有想法,也可以使用类似格式):

  • CSV: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • 纯文本文件,例如“名词”,“动词”等
  • mysql表
  • 等等

Answers:



4

我不知道这可能根本没有帮助。但是MediaWiki有一个API,用于列出属于某个类别的所有页面。您可以尝试在Wiktionary.org上使用它。

笔记:

  • 每个查询仅返回500个结果。但是,最后,它还指定了一个参数,该参数将在另一个查询中使用以获得下一个500个结果。
  • 它包括指定类别中的所有内容,甚至包括其他子类别。
  • 结果似乎是按字母顺序排列的,尽管所有以大写字母开头的内容都在小写字母之前。

例子:

希望这会有所帮助,这就是我能想到的。


1

我将第二次推荐@teknikqa对wordnet的建议,但我建议您检查一下他们的API;

故事时间:我有一门AI课程,其中包含语言分析部分;我使用了wordnet的perl API来自动查找最常见的三种定义类型,并以接近实时的方式对其中的措辞进行分类

很多语言的 API

仅供参考:该项目获得了A +

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.