我正在尝试收集有关在软件项目中使用的英语字符或单词序列的统计信息。
在哪里可以获得大量(涵盖多个GB的)涵盖不同主题的英文纯文本?
我正在尝试收集有关在软件项目中使用的英语字符或单词序列的统计信息。
在哪里可以获得大量(涵盖多个GB的)涵盖不同主题的英文纯文本?
Answers:
您可以使用Wikipedia的数据转储。仅包含当前修订的英语维基百科的XML数据转储大约为31 GB,因此我想这将是您研究的一个好的开始。数据转储很大,因此您应该考虑使用SAX解析器从XML提取文本。WikiXMLJ是为Wikipedia调整的便捷Java API。
然后,当然总会有Stack Exchange数据转储。在最新一期包括所有的公共非测试堆栈Exchange站点和相应的元点,直到2011年9月但是,自然堆叠交换职位都集中在各个站点的范围,所以可能不是为全身如你所愿。不过,元信息更为笼统,因此您可以在Wikipedia之外考虑这些信息。
我认为您找不到更好的选择,尤其是纯文本格式。通过数据中心可以使用几个开放的数据集,但是我认为英语Wikipedia数据转储与您要寻找的非常接近。
Google有一组数据集,可用于确定n-gram概率。检查他们的二元组(2克)数据集应该会给您带来一幅好图像。还有许多其他的corpi,已经对其进行了分析。
古腾堡计划(Project Gutenberg)具有大量英语文本,已经是文本形式。
古登堡计划(Project Gutenberg)提供超过42,000种免费电子书:在免费的电子书,免费的kindle书中选择,下载或在线阅读。
我们拥有高质量的电子书:我们以前所有的电子书都是由真诚的出版商发行的。在数以千计的志愿者的帮助下,我们将其数字化并进行了认真的校对。
对于统计信息,您可能正在查看“英语中的Bigram频率”。看看:Wiki-Bigram统计信息
至于查找大文本,请注意,频率会因文本类型而有所偏差。例如,如果您分析地址,则与分析报纸故事会得到不同的结果。如果您只想测试,则可以使用任何书籍的PDF文件(最好不是数学,编程或医学书籍)并将其转换为文本,然后运行测试。您还可以将报纸网页转换为文本并进行处理。