非正式文本中用于命名实体识别的数据集


18

我目前正在搜索带标签的数据集,以训练模型以从非正式文本中提取命名实体(类似于推文)。由于我的数据集中的文档中经常缺少大写字母和语法,因此我要寻找的域外数据比新闻和期刊条目更“非正式”,而当今的许多最新技术称为实体识别系统训练有素。

有什么建议吗?到目前为止,我只能从这里发布的Twitter上找到5万个令牌。


2

@麦迪逊·梅 您找到数据集了吗?我正在寻找类似的东西。谢谢。
2014年

我必须处理来自华盛顿特区的twitter ner语料库(链接到原始帖子)。
麦迪逊


有相关的注释好的英语语料库吗?
Achyuta nanda sahoo

Answers:


6

据我了解,这些是您在样本数据集中寻找的属性:

  1. 文字数据
  2. 它应该是非正式的,即有错别字,语,并且基本上是未经专业编辑的东西
  3. Twitter以外的东西(我不怪你,Twitter是文本挖掘中有用但过度使用的示例数据源)

以下是一些建议:

  1. 来自SpamAssassin语料库的电子邮件-请注意,“火腿”(非垃圾邮件)和垃圾邮件数据集均可用
  2. 来自UCI的microblogPCU数据集,该数据集是从新浪微博用户的微博中抓取的数据-请注意,原始文本数据是中文和英文的混合(您可以执行中文的机器翻译,仅过滤为英文或使用它原样)
  3. Amazon Commerce评论来自UCI的数据集
  4. bag-o-words数据集中,尝试使用Enron电子邮件
  5. 二十新闻组数据集
  6. 这个不错的短信垃圾邮件集合
  7. 您总是可以从Internet上抓取(提取)您自己的文本数据。我不知道哪种语言,或者你正在使用统计软件包,但基于XPath的软件包可以在R( ,rvestscrapeR等)和Python来完成这个

1
但是,这些数据集中是否有任何带有命名实体的注释?我相信这就是OP所寻找的。
菲尔先生


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.