/ usr / share / dict / words中的单词从何而来?


10

/usr/share/dict/words包含很多单词。此列表是如何生成的?不同Unices中的内容是否相同?是否有任何标准规定必须包含什么?

到目前为止,我所能做的就是在Ubuntu / Debian上,该列表来自wordlist包,但是它们的描述不提供有关列表实际生成方式的线索。

Answers:


10

您在问多个问题,但我认为主要问题是:

是否有任何标准规定必须包含什么?

据我所知,不。

鉴于此,您的相关问题:

此列表是如何生成的?不同Unices中的内容是否相同?

回答“这取决于每个不同的Unix”。

包含单词列表作为操作系统一部分的约定来自spell(1)实用程序,该实用程序将其用于原始拼写检查过程。

拼写检查程序在1982年由Bell Labs的MD McIlroy发表的学术论文“拼写列表的开发”中进行了描述。

您应该检查操作系统的程序包管理器,以了解拼写列表的来源,如何生成拼写列表以及可用的替代方法。

例如,在Debian GNU + Linux上:

  • /usr/share/dict/words文件是使用Debian“替代”系统管理的符号链接。
  • 提供该链接的常见单词列表包就是该wamerican包。
  • wamerican声明其单词列表的软件包文档来自SCOWL(面向拼写检查器的单词列表)项目。

可以安装许多其他单词列表软件包。他们每个人都有“提供:单词列表”字段:

$ aptitude search '?provides(wordlist)' | wc -l
34

在不同的Unices上,您需要查看软件包系统和文档以了解单词列表的来源和替代形式。


2
FWIW:在最小的Centos 7 x64安装(没有word文件的情况)上,yum install words为我完成了窍门。
Wossname
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.