非正式文本中用于命名实体识别的数据集

18

我目前正在搜索带标签的数据集，以训练模型以从非正式文本中提取命名实体（类似于推文）。由于我的数据集中的文档中经常缺少大写字母和语法，因此我要寻找的域外数据比新闻和期刊条目更“非正式”，而当今的许多最新技术称为实体识别系统训练有素。

有什么建议吗？到目前为止，我只能从这里发布的Twitter上找到5万个令牌。

dataset nlp

— 麦迪逊·梅
source

2

推荐要求对opendata.stackexchange.com

— 航

@麦迪逊·梅您找到数据集了吗？我正在寻找类似的东西。谢谢。

— 2014年

我必须处理来自华盛顿特区的twitter ner语料库（链接到原始帖子）。

— 麦迪逊

— Franck Dernoncourt

有相关的注释好的英语语料库吗？

— Achyuta nanda sahoo

6

据我了解，这些是您在样本数据集中寻找的属性：

以下是一些建议：

来自SpamAssassin语料库的电子邮件-请注意，“火腿”（非垃圾邮件）和垃圾邮件数据集均可用
来自UCI的microblogPCU数据集，该数据集是从新浪微博用户的微博中抓取的数据-请注意，原始文本数据是中文和英文的混合（您可以执行中文的机器翻译，仅过滤为英文或使用它原样）
Amazon Commerce评论来自UCI的数据集
在bag-o-words数据集中，尝试使用Enron电子邮件
在二十新闻组数据集
这个不错的短信垃圾邮件集合
您总是可以从Internet上抓取（提取）您自己的文本数据。我不知道哪种语言，或者你正在使用统计软件包，但基于XPath的软件包可以在R（，rvest，scrapeR等）和Python来完成这个

— 哈克
source

1

但是，这些数据集中是否有任何带有命名实体的注释？我相信这就是OP所寻找的。

— 菲尔先生

3

检查这些：

DBpedia：http ://wiki.dbpedia.org/Downloads32 （镜像）

链接更新：

— Sreejithc321
source

1

请更新这些链接，因为它们都不再起作用。

— 菲尔先生

0

我使用过的一些资料：

我认为这些数据集将对您的任务有很大帮助

— 吉安·兰詹（Gyan Ranjan）
source