Questions tagged «text-mining»

指与通过识别模式从文本形式的数据中提取信息有关的数据挖掘的子集。文本挖掘的目标通常是自动地将给定文档分类为多个类别之一,并动态地提高此性能,使其成为机器学习的一个示例。此类文本挖掘的一个示例是用于电子邮件的垃圾邮件过滤器。


1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
我应该使用什么算法来基于简历数据进行工作分类?
请注意,我正在R中做所有事情。 问题如下: 基本上,我有一份简历列表。有些候选人以前有工作经验,有些则没有。这里的目标是:基于简历的文字,我想将其分类为不同的工作领域。在候选人没有任何经验/是学生的情况下,我尤其如此,我想做出一个预测,以分类该候选人毕业后最有可能属于哪个工作领域。 问题1:我知道机器学习算法。但是,我以前从未做过NLP。我在互联网上遇到了潜在的Dirichlet分配。但是,我不确定这是否是解决我的问题的最佳方法。 我的初衷是: 使这成为有监督的学习问题。假设我们已经有大量带标签的数据,这意味着我们已经正确标记了职位列表中的求职者。我们使用ML算法(即最近的邻居...)对模型进行训练,并输入那些没有工作经验的候选人/没有学生的未标记数据,并尝试预测他们将属于哪个工作领域。 更新 问题2:通过提取简历中的所有内容并在文本文件中打印这些数据来创建文本文件,这样每个简历都与一个包含非结构化字符串的文本文件相关联,是一个好主意吗?将文本挖掘技术应用于文本文件,并使数据结构化,甚至创建文本文件中使用的术语频率矩阵?例如,文本文件可能看起来像这样: I deployed ML algorithm in this project and... Skills: Java, Python, c++ ... 这就是我所说的“非结构化”的意思,即将所有内容折叠成一个单行字符串。 这种方法是错误的吗?如果您认为我的方法有误,请纠正我。 问题3:棘手的部分是:如何识别和提取关键字?tm在R中使用包?tm 软件包基于什么算法?我应该使用NLP算法吗?如果是,我应该看什么算法?请为我指出一些很好的资源以供参考。 任何想法都很棒。


3
使用深度学习库从文本中提取关键字/短语
也许这太广泛了,但是我正在寻找有关如何在文本摘要任务中使用深度学习的参考。 我已经使用标准的词频方法和句子排序来实现文本摘要,但是我想探索使用深度学习技术来完成此任务的可能性。我还通过使用卷积神经网络(CNN)进行情感分析,在wildml.com上进行了一些实现;我想知道如何使用TensorFlow或Theano等库进行文本汇总和关键字提取。自从我开始尝试神经网络以来已经过去了大约一周的时间,我非常高兴地看到这些库的性能与我以前解决此问题的方法相比如何。 我特别在寻找一些有趣的论文和与使用这些框架进行文本汇总有关的github项目。谁能提供一些参考资料给我?



3
如何根据初始关键字来增加相关单词的列表?
我最近看到了一个很棒的功能,该功能曾经在Google表格中提供:您可以在连续的单元格中编写一些相关的关键字,例如:“蓝色”,“绿色”,“黄色”,它会自动生成类似的关键字(在这种情况下, ,其他颜色)。观看此YouTube视频中的更多示例。 我想在自己的程序中重现此内容。我正在考虑使用Freebase,并且它可以像这样直观地工作: 检索Freebase中给定单词的列表; 找到他们的“公分母”,并以此为基础构建距离度量; 根据与原始关键字的“距离”对其他概念进行排名; 显示下一个最接近的概念。 由于我不熟悉该领域,因此我的问题是: 有一个更好的方法吗? 每个步骤都有哪些工具可用?

4
如何用元数据注释文本文档?
拥有大量文本文档(自然语言,非结构化),用一些语义元数据注释它们的可能方法是什么?例如,考虑一个简短的文档: I saw the company's manager last day. 为了能够从中提取信息,必须使用附加数据对其进行注释,以减少歧义。查找此类元数据的过程不成问题,因此假定它是手动完成的。问题是如何以一种可以更方便/有效地进行进一步分析的方式存储这些数据? 一种可能的方法是使用XML标记(请参见下文),但似乎太冗长了,也许有更好的方法/准则将这种元数据存储在文本文档中。 <Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s manager <Time value="2014-5-29">last day</Time>.

2
Doc2Vec-如何标记段落(gensim)
我想知道如何从gensim中使用doc2vec在gensim中标记(标记)句子/段落/文档。 您是否需要使每个句子/段落/文档带有自己的唯一标签(例如“ Sent_123”)?如果您想说“哪些单词或句子与标记为“ Sent_123”的单个特定句子最相似”,这似乎很有用。 能否根据内容重复标签?例如,如果每个句子/段落/文档都与某个特定产品有关(并且给定产品项目有多个句子/段落/文档),则可以根据该项目为句子加上标签,然后计算单词或词组之间的相似度句子和这个标签(我想这将是与产品有关的所有句子的平均值)?

1
文本聚类算法
我有一个问题,就是将大量句子按其含义分组。当您有很多句子并想按其含义对它们进行分组时,这类似于一个问题。 建议使用什么算法来做到这一点?我不知道簇的数量(随着更多数据的到来,簇也可以改变),通常用什么特征来表示每个句子? 我现在正在尝试使用最简单的功能,将单词列表和句子之间的距离定义为: (A和B是句子A和B中的相应单词集) 真的有道理吗? 我正在尝试将scikit库中的Mean-Shift算法应用于此距离,因为它不需要预先提供多个簇。 如果有人会建议解决问题的更好方法/方法,将不胜感激,因为我还是这个话题的新手。

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
从文档中提取文本的大部分信息
是否有关于提取部分文本的文章或讨论,其中包含有关当前文档的大部分信息。 例如,我有来自同一域的大量文档。文本的某些部分包含单个文档所讨论的关键信息。我想提取其中一些部分,并将其用作文本的摘要。是否有关于如何实现此类目标的有用文档。 如果有人可以将我指引到正确的方向,这对我应该寻找或阅读的内容会有所帮助,那么我将对自然语言处理这一领域中可能已经完成的工作有所了解。
16 nlp  text-mining 

4
邮政地址模糊匹配怎么办?
我想知道当邮政地址的格式不同或其中一个拼写错误时如何匹配邮政地址。 到目前为止,我已经找到了不同的解决方案,但是我认为它们已经过时并且效率不高。我确信存在一些更好的方法,因此,如果您有供我阅读的参考文献,那么我相信这是一个可能使多个人感兴趣的主题。 我找到的解决方案(示例在R中): Levenshtein距离,它等于将一个单词转换为另一个单词时必须插入,删除或更改的字符数。 agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE) ## [1] "accusait" "abusait" 音素的比较 library(RecordLinkage) soundex(x<-c('accusait','acusait','abusait')) ## [1] "A223" "A223" "A123" 使用拼写校正器(最终是像Peter Norvig那样的贝叶斯校正器),但我猜它在地址上不是很有效。 我考虑过使用Google的建议,但同样,在个人邮政地址上效率也不高。 您可以想象使用机器学习监督方法,但是您需要存储用户拼写错误的请求,这对我来说不是一个选择。

1
识别模糊记号序列中的语法
我有一些文本文档,其中主要包含项目列表。 每个项目都是一组不同名称的多个标记:名字,姓氏,出生日期,电话号码,城市,职业等。标记是一组单词。 项目可以位于多行上。 文档中的项目具有大致相同的令牌语法,但不一定必须完全相同。 它们可能是项目之间以及项目内部的更多/更少标记。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目的是识别所使用的语法,例如 Occupation City 最后找出所有项目,甚至认为它们不完全匹配。 为了简短易懂,让我们改用一些别名A,B,C,D ...来指定这些标记类型。 例如 A B C D F A B C …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.