Questions tagged «text-mining»

指与通过识别模式从文本形式的数据中提取信息有关的数据挖掘的子集。文本挖掘的目标通常是自动地将给定文档分类为多个类别之一,并动态地提高此性能,使其成为机器学习的一个示例。此类文本挖掘的一个示例是用于电子邮件的垃圾邮件过滤器。

2
如何计算潜在的Dirichlet分配的坚持的困惑?
我对进行潜在狄利克雷分配(LDA)时如何计算保留样本的困惑度感到困惑。有关该主题的论文轻而易举,使我觉得我缺少明显的东西... 困惑被视为LDA性能的良好衡量标准。这样做的想法是,您保留一个保留样本,在其余数据上训练LDA,然后计算保留的复杂性。 困惑可以由以下公式给出: per(Dtest)=exp{−∑Md=1logp(wd)∑Md=1Nd}per(Dtest)=exp{−∑d=1Mlog⁡p(wd)∑d=1MNd}per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} (摘自Horster等人的大型图像数据库上的图像检索)。 这里 MMM是文档的数量(测试样品中,据推测),wdwd\mathbb{w}_d表示在文件的话ddd,NdNdN_d在文档的单词数ddd。 我不清楚如何合理地计算p(wd)p(wd)p(\mathbb{w}_d),因为我们没有所保留文档的主题组合。理想情况下,我们将对所有可能的主题混合在Dirichlet之前进行积分,并使用我们学到的主题多项式。但是,计算此积分似乎并不容易。 或者,我们可以尝试为每个坚持的文档(考虑到我们所学的主题)学习最佳的主题组合,并以此来计算困惑度。这是可行的,但是它并不像Horter等人和Blei等人的论文所暗示的那么琐碎,而且我还不清楚我的结果是否等同于上述理想情况。

5
大规模文本分类
我想对我的文本数据进行分类。我300 classes每节课有200份培训文档(所以60000 documents in total),这很可能导致非常高的维度数据(我们可能正在寻找超过100万个维度)。 我想在管道中执行以下步骤(只是为了让您了解我的要求): 将每个文档转换为特征向量(tf-idf或vector space model) Feature selection(Mutual Information最好是基于其他标准的) 训练分类(SVM,Naive Bayes,Logistic Regression或Random Forest) 基于训练的分类器模型预测看不见的数据。 所以问题是,我应该使用哪些工具/框架来处理此类高维数据?我知道通常的可疑对象(R,WEKA ...),但据我所知(可能是错误的),可能没有一个可以处理如此大的数据。我还有其他现成的工具吗? 如果必须并行处理,是否应该使用Apache Mahout?看起来它可能还没有提供我需要的功能。 在此先感谢所有。 更新:我环顾了这个网站,R邮件列表和一般的互联网。在我看来,在我的情况下可能出现以下问题: (1)使用R(特别是tm软件包)对数据进行预处理可能不切实际,因为这tm会非常慢。 (2)由于我将需要使用一组R包(预处理,稀疏矩阵,分类器等),因此包之间的互操作性可能会成为问题,并且在将数据从一种格式转换为另一种格式时,可能会产生额外的开销。例如,如果我使用tm(或外部工具,例如WEKA)进行预处理,则需要找出一种方法来将该数据转换为R中的HPC库可以读取的形式。同样,对我来说还不清楚分类程序包是否将直接获取HPC库提供的数据。 我在正确的轨道上吗?更重要的是,我有道理吗?

2
为什么ridge回归分类器在文本分类中效果很好?
在进行文本分类的实验中,我发现了脊分类器生成的结果,这些结果一直领先于那些最常提及的分类器中的测试,这些分类器适用于文本挖掘任务,例如SVM,NB,kNN等。尽管我没有详细说明除了针对参数的一些简单调整外,还针对此特定文本分类任务优化了每个分类器。 这样的结果也提到了迪克兰有袋动物。 并非来自统计背景,在在线阅读了一些材料之后,我仍然无法弄清其主要原因。谁能提供一些有关这种结果的见解?

1
我想根据新闻报道建立犯罪指数和政治动荡指数
我有一个辅助项目,在这里我可以爬行我所在国家的本地新闻网站,并希望建立犯罪指数和政治动荡指数。我已经介绍了该项目的信息检索部分。我的计划是: 无监督主题提取。 近重复检测。 受监督的分类和事件级别(犯罪/政治-高/中/低)。 我将使用python和sklearn,并且已经研究了可用于这些任务的算法。我认为2.可能会使我联想到一个故事的相关性:有关某个故事或主题的新闻报道越多,当天的相关性就越高。 我的下一步是根据我拥有的功能构建每月,每周和每天的索引(全国范围内和每个城市),由于“不稳定敏感性”可能会随着时间的推移而增加,我在这里有点迷失了。我的意思是,去年重大动荡事件的指数可能小于今年的指数。另外,是否使用0-100的固定刻度。 稍后,我希望能够以此为基础来预测事件,例如,过去几周的事件接连是否导致重大事件。但是现在,我将很高兴让分类生效并建立索引模型。 我将不胜感激任何指向论文,相关阅读或思想的指针。谢谢。 PD:很抱歉,这个问题不属于这里。 更新:我还没有“做到这一点”,但是最近有一个新闻,关于一群科学家正在使用新闻档案系统预测事件的系统中发表了一篇新闻,并发表了相关论文《挖掘网络来预测未来事件》(PDF )。


1
使用潜在Dirichlet分配的主题预测
我在一组文档上使用了LDA,并发现了一些主题。我的代码的输出是两个包含概率的矩阵。一个doc-topic概率,另一个word-topic概率。但是我实际上不知道如何使用这些结果来预测新文档的主题。我正在使用Gibbs采样。有人知道吗?谢谢

2
我们何时将降维与聚类结合在一起?
我正在尝试执行文档级群集。我构建了术语文档频率矩阵,并尝试使用k均值对这些高维向量进行聚类。我所做的不是直接聚类,而是首先应用LSA(潜在语义分析)奇异矢量分解来获得U,S,Vt矩阵,然后使用scree图选择合适的阈值,然后对归约矩阵进行聚类(特别是Vt,因为它给了我一个概念文件信息),似乎给了我很好的结果。 我听说有人说SVD(奇异矢量分解)正在聚类(通过使用余弦相似性度量等),并且不确定是否可以在SVD的输出上应用k-均值。我认为这在逻辑上是正确的,因为SVD是降维技术,为我提供了许多新矢量。另一方面,k均值将采用簇数作为输入,并将这些向量划分为指定的簇数。这个程序有缺陷吗,或者有什么方法可以改进?有什么建议么?


4
文本挖掘:如何通过人工智能将文本(例如新闻文章)聚类?
我为不同的任务建立了一些神经网络(MLP(完全连接),Elman(递归)),例如打Pong,对手写数字和东西进行分类... 另外,我尝试建立一些第一个卷积神经网络,例如用于对多位数的手写笔记进行分类,但是我是全新的分析和聚类文本的人,例如在图像识别/聚类任务中,人们可以依靠标准化输入,例如25x25大小的图像, RGB或灰度等...有很多预设定功能。 对于文本挖掘(例如新闻报道),您需要不断变化的输入大小(不同的单词,不同的句子,不同的文本长度等)。 如何利用人工智能(最好是神经网络/ SOM)实现一种现代的文本挖掘工具? 不幸的是,我无法找到简单的入门教程。复杂的科学论文难以阅读,也不是学习主题的最佳选择(就我个人而言)。我已经阅读了很多有关MLP,辍学技术,卷积神经网络等的论文,但是我找不到关于文本挖掘的基础文章-对于我非常有限的文本挖掘技能来说,我发现的水平太高了。


5
一类文字怎么做分类?
我必须处理文本分类问题。Web搜寻器搜寻特定域的网页,对于每个网页,我都想找出它是否仅属于一个特定类别。也就是说,如果我将此类称为Positive,则每个已抓取的网页都属于Positive类或Non-Positive类。 我已经有大量关于正面课程的培训网页。但是,如何为非阳性课程创建尽可能具有代表性的训练集呢?我的意思是,我基本上可以在该课程中使用所有内容。我可以收集一些绝对不属于正类的任意页面吗?我确定文本分类算法的性能(我更喜欢使用朴素贝叶斯算法)在很大程度上取决于我为非正类选择的网页。 那我该怎么办?有人可以给我个建议吗?非常感谢你!

3
简短文档的主题模型
受这个问题的启发,我想知道是否针对大量极短文本的主题模型进行了任何工作。我的直觉是,Twitter应该是此类模型的自然灵感。但是,通过一些有限的实验,看起来标准主题模型(LDA等)在此类数据上的表现非常差。 有没有人知道在这方面所做的任何工作?本文讨论了将LDA应用于Twitter,但是我真的很感兴趣是否还有其他算法在短文档环境中表现更好。

2
使用R(tm包)进行文本挖掘的示例
tm在阅读了一位朋友的草稿后,我花了三天时间,他在那儿用UCINET探索了文本语料库,显示了文本云,两模式网络图和单值分解(带有使用Stata的图形)。我遇到了很多问题:在Mac OS X上,诸如Snowball(填充)或Rgraphviz(图形)之类的库背后存在Java问题。 可能有人点出不包 -我已经看过tm,wordfish并wordscores和了解NLTK -但研究,如果可能的代码,在文本数据,成功地使用tm或别的东西来分析像议会辩论和立法文件数据?我似乎在这个问题上找不到太多的东西,甚至学到的代码也更少。 我自己的项目是为期两个月的议会辩论,这些变量以CSV文件形式提供:议会会议,发言人,议会小组,口头干预文本。我希望在演讲者之间,尤其是在议会团体之间,在使用罕见和较不罕见的术语时出现分歧,例如,“安全对话”与“公民自由”对话。
14 r  text-mining 

2
n克在什么n会适得其反?
在进行自然语言处理时,可以采用语料库并评估下一个单词按n序列出现的概率。n通常选择为2或3(二元组和三元组)。 给定对特定语料库进行一次分类所花费的时间,是否存在已知的第n条链数据追踪适得其反的地方?还是给定从(数据结构)字典中查找概率所需的时间?

1
自动关键字提取:使用余弦相似度作为特征
我有一个文档项矩阵,现在我想使用一种监督学习方法(SVM,Naive Bayes等)为每个文档提取关键字。在此模型中,我已经使用了Tf-idf,Pos标签,...MMM 但是现在我想知道下一个。我有一个矩阵,两个词之间的余弦相似。CCC 是否可以将这种相似性用作模型的功能?我的想法是对长期在文档d,用平均所有条款的余弦相似的文档d足月我。这有用吗?iiiddddddiii

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.