Questions tagged «text-mining»

指与通过识别模式从文本形式的数据中提取信息有关的数据挖掘的子集。文本挖掘的目标通常是自动地将给定文档分类为多个类别之一,并动态地提高此性能,使其成为机器学习的一个示例。此类文本挖掘的一个示例是用于电子邮件的垃圾邮件过滤器。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Keras的“嵌入”层如何工作?
需要了解Keras库中“嵌入”层的工作方式。我在Python中执行以下代码 import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) 它给出以下输出 input_array = [[4 1 3 3 3]] output_array = [[[ 0.03126476 0.00527241] [-0.02369716 -0.02856163] [ 0.0055749 0.01492429] [ 0.0055749 0.01492429] …

6
如何准匹配两个字符串向量(在R中)?
我不确定该如何称呼,所以如果您知道一个更好的术语,请更正我。 我有两个清单。55个项目之一(例如:字符串向量),另一个为92。项目名称相似但不相同。 我希望能够找到的最佳人选小号在92名单于55列表中的项目(然后我会去通过它,并选择正确的装修)。 怎么做到呢? 我有以下想法: 查看所有匹配项(使用某项列表?match) 尝试在字符串向量之间使用距离矩阵,但是我不确定如何最好地定义它(相同字母的数量,字符串的顺序如何?) 那么,什么软件包/功能/研究领域可以处理此类任务呢? 更新:这是我要匹配的向量的示例 vec55 <- c("Aeropyrum pernix", "Archaeoglobus fulgidus", "Candidatus_Korarchaeum_cryptofilum", "Candidatus_Methanoregula_boonei_6A8", "Cenarchaeum_symbiosum", "Desulfurococcus_kamchatkensis", "Ferroplasma acidarmanus", "Haloarcula_marismortui_ATCC_43049", "Halobacterium sp.", "Halobacterium_salinarum_R1", "Haloferax volcanii", "Haloquadratum_walsbyi", "Hyperthermus_butylicus", "Ignicoccus_hospitalis_KIN4", "Metallosphaera_sedula_DSM_5348", "Methanobacterium thermautotrophicus", "Methanobrevibacter_smithii_ATCC_35061", "Methanococcoides_burtonii_DSM_6242" ) vec91 <- c("Acidilobus saccharovorans 345-15", "Aciduliprofundum boonei T469", "Aeropyrum pernix K1", "Archaeoglobus fulgidus DSM …
36 r  text-mining 

6
文字的统计分类
我是一个没有统计背景的程序员,并且我目前正在针对要分类为预定义类别的大量不同文档寻找不同的分类方法。我一直在阅读有关kNN,SVM和NN的文章。但是,我在入门时遇到了一些麻烦。您推荐什么资源?我确实很了解单变量和多变量演算,所以我的数学应该足够强大。我还拥有Bishop关于神经网络的书,但是作为入门,它已经被证明有些密集。

4
解析字符串的机器学习技术?
我有很多地址字符串: 1600 Pennsylvania Ave, Washington, DC 20500 USA 我想将它们解析为它们的组成部分: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA 但是当然,数据是肮脏的:它来自许多国家,以多种语言编写,以不同的方式编写,包含拼写错误,丢失的片段,多余的垃圾等。 现在,我们的方法是将规则与模糊地名词典匹配结合使用,但是我们想探索机器学习技术。我们已将训练数据标记为监督学习。问题是,这是什么样的机器学习问题?它似乎并不是真正的聚类,分类或回归...。 我能想到的最接近的方法是对每个标记进行分类,但是您真的想同时对它们进行分类,以满足诸如“最多应有一个国家”的约束。确实有很多方法可以对字符串进行标记化,并且您想尝试每个字符串并选择最佳字符串。 那么:我可以探索哪些机器学习技术来解析地址?

3
R对文本分类任务的缩放程度如何?[关闭]
我试图与R同步。最终我想使用R库进行文本分类。我只是想知道人们在进行文本分类时对R的可伸缩性有何经验。 我可能会遇到高维数据(约30万维)。我正在研究使用SVM和随机森林作为分类算法。 R库会扩展到我的问题规模吗? 谢谢。 编辑1:只是为了澄清,我的数据集可能有1000-3000行(也许更多)和10个类。 编辑2:由于我是R的新手,因此我将要求海报在可能的情况下更加具体。例如,如果您建议一个工作流程/管道,请确保尽可能提及每个步骤中涉及的R库。一些额外的指针(例如示例,示例代码等)将锦上添花。 编辑3:首先,谢谢大家的评论。其次,我很抱歉,也许我应该为这个问题提供更多的背景信息。我是R的新手,但对文本分类却不太了解。我已经使用tm包对我的数据的某些部分进行了预处理(删除,删除停用词,tf-idf转换等),以使您对事物有所了解。即使只有大约200个文档,tm也是如此缓慢,以至于我担心可伸缩性。然后我开始玩FSelector,即使那真的很慢。这就是我进行操作的关键所在。 编辑4:我刚想到我有10个班级,每个班级大约有300份培训文档,实际上我是在整个培训集中构建termXdoc矩阵,从而产生了很高的维度。但是,如何将每个千分之一分类问题简化为一系列二进制分类问题呢?这将大大减少k-1步骤每一步的培训文档的数量(并因此减少维度),不是吗?那么这是一种好方法吗?与普通的多类实现相比,它的准确性如何?

2
朴素贝叶斯与多项式朴素贝叶斯之间的区别
我之前已经处理过朴素贝叶斯分类器。我最近一直在阅读有关朴素贝叶斯的多项式。 也后验概率=(现有*似然)/(证据)。 我发现朴素贝叶斯与多项式朴素贝叶斯之间的唯一主要区别(在对这些分类器进行编程时)是 多项式朴素贝叶斯计算似然度是单词/令牌(随机变量)的计数,朴素贝叶斯计算似然度如下: 如果我错了纠正我!


1
交叉验证是否可以替代验证集?
在文本分类中,我有一个约800个样本的训练集和一个约150个样本的测试集。测试仪从未使用过,一直等到最后使用。 我正在使用整个800个样本训练集,并在调整和调整分类器和功能时进行10倍交叉验证。这意味着我没有单独的验证集,但是每次用完10折后,都会自动选择一个验证集。 当我对所有事情都感到满意并想要进入评估的最后阶段之后,我将对全部800个样本进行分类训练。并在150个样本测试仪上进行测试。 我理解交叉验证在文本分类中的这种用法正确吗?这种做法有效吗? 交叉验证的另一个问题是: 而不是10倍,我还尝试将其作为性能的一般指标。因为对于遗忘一事,不可能获得有关f1 /精确度/召回率的信息,所以我想知道遗忘一事的准确性与10倍的度量之间的关系是什么? 任何见解将不胜感激。 编辑: 这是对交叉验证的很好介绍。它还参考了其他研究论文。

7
在朴素贝叶斯(Naive Bayes)中,当我们在测试集中有未知单词时,为什么还要打扰Laplace平滑?
我今天正在阅读朴素贝叶斯分类法。我在Parameter Estimation的标题下加上了1 smoothing进行了阅读: 令指代一个类(例如正或负),而令指代一个标记或单词。cccwww 用于最大似然估计是P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. 这种估计可能会产生问题,因为它会使单词未知的文档的概率为。解决此问题的常用方法是使用拉普拉斯平滑。P(w|c)P(w|c)P(w|c)000 令V为训练集中的单词集合,向单词集合添加一个新元素(未知)。UNKUNKUNK 定义P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1}, 其中表示词汇表(训练集中的单词)。VVV 特别是,任何未知单词的概率都为 1count(c)+|V|+1.1count(c)+|V|+1.\frac{1}{\text{count}(c) + |V| + 1}. 我的问题是:为什么我们要完全不理会Laplace平滑处理?如果我们在测试集中遇到的这些未知单词的概率显然几乎为零,即,将它们包括在模型中有什么意义?为什么不忽略它们并删除它们呢? …


2
用于文本分类的词袋:为什么不只使用词频代替TFIDF?
文本分类的常用方法是从“词袋”中训练分类器。用户采用要分类的文本并计算每个对象中单词的出现频率,然后进行某种修整以使结果矩阵保持可管理的大小。 我经常看到用户使用TFIDF构建其特征向量。换句话说,上面提到的文本频率被语料库中单词的频率降低权重。我明白了为什么TFIDF对于选择给定文档的“最有区别”的单词以供显示给人类分析人员有用。但是,如果使用标准的监督ML技术对文本进行分类,为什么要减少语料库中文档的频率来降低​​权重呢?学习者自己不会决定分配给每个单词/单词组合的重要性吗?非常感谢您对IDF增值(如果有)的想法。

1
是否已复制使用段落向量进行情感分析的最新技术成果?
Le和Mikolov 在ICML 2014论文“ 句子和文档的分布式表示 ”中给我留下了深刻的印象。他们描述的技术称为“段落向量”,它基于word2vec模型的扩展来学习任意长的段落/文档的无监督表示。该论文报告了使用这种技术进行情感分析的最新性能。 我希望在其他文本分类问题上评估此技术,以替代传统的词袋表示法。但是,我在word2vec Google小组的一个线程中遇到了第二个作者的帖子,这让我停顿了一下: 在夏季,我尝试重现Quoc的结果。我可以使IMDB数据集的错误率达到9.4%-10%左右(取决于文本规范化的程度)。但是,我无法达到Quoc报告的结果(错误7.4%,那是一个很大的差异)。当然,我们还向Quoc询问了代码;他答应出版,但到目前为止没有任何反应。...我开始认为Quoc的结果实际上是不可复制的。 有人成功复制了这些结果吗?

3
半监督学习,主动学习和深度学习进行分类
最终编辑,所有资源已更新: 对于一个项目,我正在应用机器学习算法进行分类。 挑战: 有限的标记数据和更多的未标记数据。 目标: 应用半监督分类 应用某种程度上的半监督式标签过程(称为主动学习) 我从研究论文中发现了很多信息,例如应用EM,Transductive SVM或S3VM(半监督SVM),或者以某种方式使用LDA等。关于该主题的书籍也很少。 问题: 实现方式和实际来源在哪里? 最终更新(基于mpiktas,bayer和Dikran Marsupial提供的帮助) 半监督学习: TSVM:位于SVMligth和SVMlin中。 EM朴素贝叶斯(Python) EM在LinePipe项目中 主动学习: 二元论:一种主动学习的实现,带有文本分类源代码 该网页很好地概述了主动学习。 实验设计研讨会:此处。 深度学习: 此处的介绍性视频。 一般网站。 斯坦福无监督特征学习和深度学习教程。

2
为什么自然语言处理不属于机器学习领域?[关闭]
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 7年前关闭。 我在许多书籍和网络中都遇到了它。据说自然语言处理和机器学习是人工智能的不同子集。为什么?通过将声音模式输入到机器学习算法中,我们可以获得自然语言处理的结果。那有什么区别

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.