在哪里可以获取各种示例文本?[关闭]


14

我正在尝试收集有关在软件项目中使用的英语字符或单词序列的统计信息。

在哪里可以获得大量(涵盖多个GB的)涵盖不同主题的英文纯文本?


3
我以某种方式感到您会特别喜欢这些 插图
yannis'2

@Yannis Rizos这些很棒:D。
JSideris

@Yannis Rizos哦,他们很漂亮……
sevenseacat 2012年

@YannisRizos几年前关闭。我终于开始编辑问题,以使它对QA格式更加具体和更好。我现在可以关闭它吗?(您是此线程上唯一仍是主持人的人)。
JSideris

Answers:


19

您可以使用Wikipedia的数据转储。仅包含当前修订的英语维基百科XML数据转储大约为31 GB,因此我想这将是您研究的一个好的开始。数据转储很大,因此您应该考虑使用SAX解析器从XML提取文本。WikiXMLJ是为Wikipedia调整的便捷Java API。

然后,当然总会有Stack Exchange数据转储。在最新一期包括所有的公共非测试堆栈Exchange站点和相应的元点,直到2011年9月但是,自然堆叠交换职位都集中在各个站点的范围,所以可能不是为全身如你所愿。不过,元信息更为笼统,因此您可以在Wikipedia之外考虑这些信息。

我认为您找不到更好的选择,尤其是纯文本格式。通过数据中心可以使用几个开放的数据集,但是我认为英语Wikipedia数据转储与您要寻找的非常接近。


1
那些是很酷的资源。
hanzolo'2

Stack的内容虽然广泛,但将覆盖非常狭窄的论述领域(根据需要),因此它们可能无法很好地概括。
2012年

哦,天哪,这些文件很大!一旦找到打开它们并过滤掉所有xml废话的方法,这应该就很好了。谢谢!
JSideris

1
@Bizorke很高兴我可以提供帮助。完成后,您应该使用研究链接更新问题。
yannis '02

5

Google有一组数据集,可用于确定n-gram概率。检查他们的二元组(2克)数据集应该会给您带来一幅好图像。还有许多其他的corpi,已经对其进行了分析。


3
只是在写同样的东西。
jcmeloni 2012年

@jcmeloni好主意!
2012年

5

古腾堡计划(Project Gutenberg)具有大量英语文本,已经是文本形式。

古登堡计划(Project Gutenberg)提供超过42,000种免费电子书:在免费的电子书,免费的kindle书中选择,下载或在线阅读。

我们拥有高质量的电子书:我们以前所有的电子书都是由真诚的出版商发行的。在数以千计的志愿者的帮助下,我们将其数字化并进行了认真的校对。


1
我想到了古腾堡计划,但找不到集中的数据转储。对于要包含的书籍,它的版权必须终止,这通常意味着自书籍首次出版以来已经过去了50至70年。因此,我认为作为数据集,古腾堡计划不能代表当今使用的语言。
yannis

1
如果您想要“代表今天使用的语言”的内容,请尝试YouTube评论。悲伤但真实。
约尔格W¯¯米塔格

@JörgWMittag-哎呀。真正困扰我的是您是多么没错。
Michael Kohne'2

@JörgW Mittag可能,但是特定于youtube的某些单词会经常出现,例如:YO UT TU UB BE,或更糟的是:FA AK KE AN ND GA AY
JSideris 2012年

1

对于统计信息,您可能正在查看“英语中的Bigram频率”。看看:Wiki-Bigram统计信息

至于查找大文本,请注意,频率会因文本类型而有所偏差。例如,如果您分析地址,则与分析报纸故事会得到不同的结果。如果您只想测试,则可以使用任何书籍的PDF文件(最好不是数学,编程或医学书籍)并将其转换为文本,然后运行测试。您还可以将报纸网页转换为文本并进行处理。


2
是的,我知道结果将是有偏见的。我需要涵盖尽可能多学科的资源。我考虑过下载一堆电子书,主要问题是将它们全部转换为文本。但是查找一些双字母组统计数据不会有任何伤害(我不知道这就是所谓的2字母组合)。
JSideris

感谢您的评论。您可以使用ADOBE PDF阅读器中的文件->另存为文本将PDF转换为文本。此链接可能也很有价值:data-compression.com/english.html
NoChance 2012年

@EmmadKareem OP要求输入几GB的文本。您是否在认真建议他使用Adobe Reader从PDF提取文本?
yannis

@YannisRizos,我没有注意到有几个GB是强制性要求。在这种情况下,可以使用更好的工具。感谢您指出了这一点。
NoChance
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.