在哪里可以找到大型文本语料库?[关闭]


16

我正在寻找要下载的大型(> 1000)文本语料库。最好是带有国际新闻或某种报道。我只找到一个拥有专利的产品。有什么建议么?


该话题似乎不在主题之列。参见meta.stats.stackexchange.com/questions/1032/…
ub

这个问题似乎离题,因为它是关于寻找数据集,而不是进行统计分析
彼得·弗洛姆-恢复莫妮卡

2
嗯,这很尴尬,因为此问答非常有用。
秀节目Bob

@guaka,请勿对此类旧帖子进行此类细微修改,尤其是已关闭的帖子。的确,我们的风格偏好不是“感谢”,但对于这个较小的事物,我们将保留它。
gung-恢复莫妮卡

Answers:




6

路透社文本语料库是该领域的经典著作,可以在这里找到


它不是最有趣的(或多样化的)语料库。该许可相对于Wikileaks(美国公共领域的文档)或wikinews也具有限制性。
阿里德尔2013年

@ariddell我同意,但是它在NLP入门示例中很常用,它足够大,可以用于学习,但是足够小,可以在好的笔记本电脑上进行分析。
richiemorrisroe



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.