如何获得英语单词数据库?[关闭]


148

我需要一个包含英语中每个有效单词的数据库。我检查了/usr/share/dict/words文件,它包含少于100k个单词。维基百科说英语有47.5万个单词。在哪里可以获得完整列表(美国拼写)?

此外,是否有一个网站还提供其他语言的单词,包括亚洲和欧洲语言?

编辑:忘记添加,我不需要名称等,只是有效的英文单词。


9
我的/usr/share/dict/words有479829个单词,所以这里可能有一些变化(可能适合其他人)。
marshall.ward 2013年

4
wc -l /usr/share/dict/words在Mac上是235,886个单词(2014年7月-OSX Mavericks
10.9.4

2
我已经找到了最佳的名单: raw.githubusercontent.com/docdis/english-words/master/...。感谢@nelsonic。
james.garriss 2015年


Answers:


75

WordNet数据库可能会有所帮助。我曾经研究过Firefox附加组件,该附加组件处理单词以及单词与事物之间各种简单到复杂的关联。看起来WordNet对您将非常有用。

这里是MySQL格式。并且这个(网络存档链接)使用Wordnet v3.0数据,而不是较旧的Wordnet 2.0数据。


他们也有可下载的列表吗?

1
是的,他们为您提供了下载多种格式的数据库的工具-CSV,MySQL数据库等。甚至还有可以通过.Net,Java等使用的API。这是下载页面-wordnet.princeton .edu / wordnet / download
user266803


我没有亲自下载它,但是当我开始编码时就已经准备好了。所以我不知道哪些文件将在哪个下载中。我只知道您可以下载不同的格式。如果可以告诉我您想要哪种格式,我可能会为您提供帮助。
user266803 2010年

看起来确实是一个非常有趣的项目。
Wim Hollebrandse'2

36

您可以在infochimps.org上找到所需的内容

他们提供了350,000个简单(即非复合)单词的列表,可以免费下载。

单词列表-350,000个以上简单的英语单词

关于其他语言,您可能想在Wiktionary上四处浏览。这是所有数据库备份的链接-信息的组织性不太可能,但是如果它们具有语言,则可以SQL格式下载数据。


6
下载链接已经改变- infochimps.com/datasets/...
克里斯崃

36
烦人的infochimps文件是.xls(一个Excel文件,单词分成6个工作表!)...我已经将所有354986个单词提取到txt文件中github.com/nelsonic/english-words
nelsonic 2014年

@nelsonic非常感谢,infochimps链接为404

1
@ChrisRae两个链接均不起作用
garg10may

5
似乎它们包含诸如Technology之类的拼写错误的单词-大概是因为它们收集了网络上显示的所有内容。因此,这对密码破解/验证很有用,但对需要真实单词的应用程序(例如拼写检查器等)却不利。
最大

13

我看不到这里提到的http://wordlist.sourceforge.net/,但是如果我正在寻找类似的东西(那是我偶然发现的问题),那就是我的起点。

如果找不到您想要的东西,并且想要的只是英文单词列表,那么您可能应该花一些额外的时间来描述如何识别想要的东西。


1
我希望这些更广泛的列表包含标点符号的单词,例如“ C ++”或“ C#”,但找不到任何单词。因此,如果这是短路后的后果,则可以跳过此步骤(以及其他答案中较窄的列表)。
滚刀

9

没有“完整”列表之类的东西。不同的人有不同的测量方法-例如,他们可能包括语,新词,多词短语,令人反感的术语,外来词,动词变位等。甚至有人数百万字!因此,您必须决定要在单词列表中找到的内容。


3
感谢您的链接。一本非常有启发性的文章,讲述了英语中有多少个单词,以及试图确定它们的确切数量是徒劳的。对于更简洁和最新的阅读,还有以下内容:en.oxforddictionaries.com/explore/language-questions/…
Prometheus


3

您没有说出此列表的用途。如果用作密码检查黑名单的东西足够,cracklib可能对您有益。它包含超过150万个单词。


1
不,不是黑名单。我正在做某种文字游戏/图形。

这有很多“垃圾词”,但是我还是很感谢您在这里输入-非常适合搜索其他词典没有的特定词(例如救火车)
kangalioo
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.