我需要一个包含英语中每个有效单词的数据库。我检查了/usr/share/dict/words
文件,它包含少于100k个单词。维基百科说英语有47.5万个单词。在哪里可以获得完整列表(美国拼写)?
此外,是否有一个网站还提供其他语言的单词,包括亚洲和欧洲语言?
编辑:忘记添加,我不需要名称等,只是有效的英文单词。
wc -l /usr/share/dict/words
在Mac上是235,886个单词(2014年7月-OSX Mavericks
我需要一个包含英语中每个有效单词的数据库。我检查了/usr/share/dict/words
文件,它包含少于100k个单词。维基百科说英语有47.5万个单词。在哪里可以获得完整列表(美国拼写)?
此外,是否有一个网站还提供其他语言的单词,包括亚洲和欧洲语言?
编辑:忘记添加,我不需要名称等,只是有效的英文单词。
wc -l /usr/share/dict/words
在Mac上是235,886个单词(2014年7月-OSX Mavericks
Answers:
WordNet数据库可能会有所帮助。我曾经研究过Firefox附加组件,该附加组件处理单词以及单词与事物之间各种简单到复杂的关联。看起来WordNet对您将非常有用。
这里是MySQL格式。并且这个(网络存档链接)使用Wordnet v3.0数据,而不是较旧的Wordnet 2.0数据。
您可以在infochimps.org上找到所需的内容。
他们提供了350,000个简单(即非复合)单词的列表,可以免费下载。
关于其他语言,您可能想在Wiktionary上四处浏览。这是所有数据库备份的链接-信息的组织性不太可能,但是如果它们具有语言,则可以SQL格式下载数据。
我看不到这里提到的http://wordlist.sourceforge.net/,但是如果我正在寻找类似的东西(那是我偶然发现的问题),那就是我的起点。
如果找不到您想要的东西,并且想要的只是英文单词列表,那么您可能应该花一些额外的时间来描述如何识别想要的东西。
没有“完整”列表之类的东西。不同的人有不同的测量方法-例如,他们可能包括语,新词,多词短语,令人反感的术语,外来词,动词变位等。甚至有人数百万字!因此,您必须决定要在单词列表中找到的内容。
您可以检查Mozilla,OpenOffice和许多其他软件使用的*spell
en-GB词典。
/usr/share/dict/words
有479829个单词,所以这里可能有一些变化(可能适合其他人)。