Questions tagged «nlp»

自然语言处理(NLP)是计算机科学,人工智能和语言学领域中与计算机和人类(自然)语言之间的交互相关的领域。因此,自然语言处理与人机交互领域有关。NLP中的许多挑战涉及自然语言理解,即使计算机能够从人类或自然语言输入中获取含义,而其他挑战则涉及自然语言生成。

4
潜在Dirichlet分配与分层Dirichlet过程
潜在Dirichlet分配(LDA)和Hierarchical Dirichlet Process(HDP)都是主题建模过程。主要区别在于LDA要求指定主题数,而HDP则不需要。为什么会这样?两种主题建模方法的优缺点是什么?
49 nlp  topic-model  lda 


1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
我应该使用什么算法来基于简历数据进行工作分类?
请注意,我正在R中做所有事情。 问题如下: 基本上,我有一份简历列表。有些候选人以前有工作经验,有些则没有。这里的目标是:基于简历的文字,我想将其分类为不同的工作领域。在候选人没有任何经验/是学生的情况下,我尤其如此,我想做出一个预测,以分类该候选人毕业后最有可能属于哪个工作领域。 问题1:我知道机器学习算法。但是,我以前从未做过NLP。我在互联网上遇到了潜在的Dirichlet分配。但是,我不确定这是否是解决我的问题的最佳方法。 我的初衷是: 使这成为有监督的学习问题。假设我们已经有大量带标签的数据,这意味着我们已经正确标记了职位列表中的求职者。我们使用ML算法(即最近的邻居...)对模型进行训练,并输入那些没有工作经验的候选人/没有学生的未标记数据,并尝试预测他们将属于哪个工作领域。 更新 问题2:通过提取简历中的所有内容并在文本文件中打印这些数据来创建文本文件,这样每个简历都与一个包含非结构化字符串的文本文件相关联,是一个好主意吗?将文本挖掘技术应用于文本文件,并使数据结构化,甚至创建文本文件中使用的术语频率矩阵?例如,文本文件可能看起来像这样: I deployed ML algorithm in this project and... Skills: Java, Python, c++ ... 这就是我所说的“非结构化”的意思,即将所有内容折叠成一个单行字符串。 这种方法是错误的吗?如果您认为我的方法有误,请纠正我。 问题3:棘手的部分是:如何识别和提取关键字?tm在R中使用包?tm 软件包基于什么算法?我应该使用NLP算法吗?如果是,我应该看什么算法?请为我指出一些很好的资源以供参考。 任何想法都很棒。


4
Word2Vec用于命名实体识别
我正在寻找使用Google的word2vec实现来构建命名实体识别系统。我听说具有通过结构的反向传播的递归神经网络非常适合命名实体识别任务,但是我无法为该类型的模型找到像样的实现或像样的教程。因为我使用的是非典型语料库,所以NLTK和类似工具中的标准NER工具的效果非常差,看起来我必须训练自己的系统。 简而言之,有哪些资源可用于解决此类问题?是否有可用的标准递归神经网络实现?


3
变压器模型中的位置编码是什么?
我是ML的新手,这是我在这里的第一个问题,对不起,如果您的问题很傻,对不起。 我正在尝试阅读和理解本文注意,您所需要的只是其中的一幅图片: 我不知道什么是位置编码。通过听一些youtube视频,我发现它是一个嵌入词,在其中具有单词的含义和位置,并且与sin(x)sin(x)sin(x)或cos(x)cos(x)cos(x) 但我不知道它到底是什么以及它到底在做什么。所以我在这里寻求帮助。提前致谢。

3
对Word2Vec更好的输入是什么?
这更像是一般的NLP问题。训练单词嵌入即Word2Vec的适当输入是什么?属于文章的所有句子是否应该是语料库中的单独文档?还是每个文章都应该是所述语料库中的文档?这只是使用python和gensim的示例。 语料库按句子拆分: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] 语料库按文章划分: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article.", "second", …

3
如何使用Gensim加载FastText预训练模型?
我试图从这里的Fasttext模型加载fastText预训练模型。我正在使用wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) 但是,它显示以下错误 Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) UnicodeDecodeError: 'utf-8' codec can't decode byte …
21 nlp  gensim 

2
使用Word2vec模型预测单词
给出一个句子:“当我打开??门时,它会自动开始加热” 我想获得??中可能的单词的列表 很有可能。 word2vec模型中使用的基本概念是根据周围环境“预测”单词。 一旦建立模型,什么是正确的上下文向量运算以对新句子执行我的预测任务? 它仅仅是线性和吗? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

4
如何衡量单词的语义相似性?
找出单词语义相似性的最佳方法是什么?Word2Vec可以,但不理想: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 NLTK的Wordnet方法似乎只是放弃: In [25]: …

3
如何根据初始关键字来增加相关单词的列表?
我最近看到了一个很棒的功能,该功能曾经在Google表格中提供:您可以在连续的单元格中编写一些相关的关键字,例如:“蓝色”,“绿色”,“黄色”,它会自动生成类似的关键字(在这种情况下, ,其他颜色)。观看此YouTube视频中的更多示例。 我想在自己的程序中重现此内容。我正在考虑使用Freebase,并且它可以像这样直观地工作: 检索Freebase中给定单词的列表; 找到他们的“公分母”,并以此为基础构建距离度量; 根据与原始关键字的“距离”对其他概念进行排名; 显示下一个最接近的概念。 由于我不熟悉该领域,因此我的问题是: 有一个更好的方法吗? 每个步骤都有哪些工具可用?

3
非正式文本中用于命名实体识别的数据集
我目前正在搜索带标签的数据集,以训练模型以从非正式文本中提取命名实体(类似于推文)。由于我的数据集中的文档中经常缺少大写字母和语法,因此我要寻找的域外数据比新闻和期刊条目更“非正式”,而当今的许多最新技术称为实体识别系统训练有素。 有什么建议吗?到目前为止,我只能从这里发布的Twitter上找到5万个令牌。
18 dataset  nlp 

4
如何用元数据注释文本文档?
拥有大量文本文档(自然语言,非结构化),用一些语义元数据注释它们的可能方法是什么?例如,考虑一个简短的文档: I saw the company's manager last day. 为了能够从中提取信息,必须使用附加数据对其进行注释,以减少歧义。查找此类元数据的过程不成问题,因此假定它是手动完成的。问题是如何以一种可以更方便/有效地进行进一步分析的方式存储这些数据? 一种可能的方法是使用XML标记(请参见下文),但似乎太冗长了,也许有更好的方法/准则将这种元数据存储在文本文档中。 <Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s manager <Time value="2014-5-29">last day</Time>.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.