我目前正在搜索带标签的数据集,以训练模型以从非正式文本中提取命名实体(类似于推文)。由于我的数据集中的文档中经常缺少大写字母和语法,因此我要寻找的域外数据比新闻和期刊条目更“非正式”,而当今的许多最新技术称为实体识别系统训练有素。
有什么建议吗?到目前为止,我只能从这里发布的Twitter上找到5万个令牌。
2
推荐要求对opendata.stackexchange.com
—
航
@麦迪逊·梅 您找到数据集了吗?我正在寻找类似的东西。谢谢。
—
2014年
我必须处理来自华盛顿特区的twitter ner语料库(链接到原始帖子)。
—
麦迪逊
有相关的注释好的英语语料库吗?
—
Achyuta nanda sahoo