Questions tagged «text-mining»

指与通过识别模式从文本形式的数据中提取信息有关的数据挖掘的子集。文本挖掘的目标通常是自动地将给定文档分类为多个类别之一,并动态地提高此性能,使其成为机器学习的一个示例。此类文本挖掘的一个示例是用于电子邮件的垃圾邮件过滤器。

2
为什么在文字语言识别中使用n-gram代替单词?
在两个流行的语言识别库中,C ++的紧凑语言检测器2和Java的语言检测器都使用了(基于字符的)n-gram提取文本特征。为什么不使用单词袋(单个单词/词典)?单词袋和n-gram的优缺点是什么? 另外,n-grams模型在文本分类中还有哪些其他用途? 哎呀 似乎这里有一个类似的问题: 关于使用bigram(N-gram)模型为文本文档构建特征向量 但是有人可以给出更全面的答案吗?在识别语言的情况下哪个更好? (希望我能正确理解n-gram和词袋的含义,哈哈,如果不能,请帮助我。)



5
关于文本挖掘的好书?
嗨,我想知道是否有一些有关文本挖掘和分类的好书,还有一些案例研究?如果不是这样的话,一些公众可以获取的论文/期刊就可以了。如果他们用R更好地说明自己的例子。我不是在寻找逐步的手册,而是要说明一些针对各种问题的各种文本挖掘方法的利弊。

1
增量IDF(反向文档频率)
在文本挖掘应用程序,一个简单的方法是使用启发式创建载体作为文件的紧凑稀疏表示。这对于批处理设置很好,因为整个主体被称为先验,因为i d f要求整个主体Ť ˚F- 我dFtf−idftf-idf我dFidfidf 我d ˚F(t )= 对数| D || {d:吨∈ d} |idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} 其中是术语,d是文档,D是文档语料库,而T(未显示)是字典。ŤttddddDDŤTT 但是,通常随着时间的推移会收到新的文档。一种选择是使用现有的,以保持,直到已经收到新的文件一定数量,并且重新计算。但是,这似乎效率很低。如果有人事先查看了所有数据,是否有人知道增量更新方案(可能近似)收敛到该值?或者,是否有另一种方法可以捕获相同的概念,但是可以以增量方式计算?我dFidfidf 还有一个相关的问题,随着时间的流逝,i d f是否仍然是一个好的度量。由于idf捕获了语料词频率的概念,因此可以想象,语料库中较旧的文档(例如,我的语料库包括100多年的期刊文章),因为不同词的频率随时间变化。在这种情况下,实际上是明智的做法是,在使用新的滑动窗口i d f时,将新的文档丢掉。可以想象,当计算出新的矢量时,也可以存储所有以前的i d f矢量,然后,如果我们想检索1920-1930年的文档,则可以使用i d f我dFidfidf我dFidfidf我dFidfidf我dFidfidf根据该日期范围内的文档计算得出。这种方法有意义吗? 编辑:关于字典有一个单独的但相关的问题。随着时间的流逝,将会出现以前没有出现过的新词典术语,因此| T | 将需要增长,因此i d f向量的长度。似乎不会有问题,因为可以将零添加到旧的i d f向量上。ŤTT| Ť||T||T|我dFidfidf我dFidfidf

1
了解TF-IDF对数中对数的使用
我正在阅读: https://zh.wikipedia.org/wiki/Tf%E2%80%93idf#Definition 但是我似乎无法确切地理解为什么以这种方式构造公式。 我的理解: iDF应该在某种程度上衡量术语S在每个文档中出现的频率,并随着术语S出现频率的增加而降低其价值。 从这个角度来看 我d ˚F(S)= # 文献# 含S-文献一世dF(小号)=# 文件数量# 包含S的文档 iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} 此外,术语“频率”可以正确地描述为 Ť ˚F(S,d )= #在文件d S的出现次数的 #文档D中任何字符串Q的最大出现次数 ŤF(小号,d)=# D中S的出现# 文档D中任何字符串Q的最大出现次数 tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences …

3
关于使用bigram(N-gram)模型构建文本文档的特征向量
用于文本挖掘的特征构造的传统方法是词袋方法,并且可以使用tf-idf进行增强,以建立表征给定文本文档的特征向量。目前,我正在尝试使用Bi-gram语言模型或(N-gram)来构建特征向量,但还不太清楚该怎么做?我们是否可以仅遵循单词袋的方法,即以二元语法代替单词来计算频率计数,并使用tf-idf加权方案对其进行增强?

1
这种对稀疏性的解释准确吗?
根据软件包removeSparseTerms功能的文档,tm稀疏性是这样的: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. 那么,是否正确解释是说如果sparse等于.99,那么我们要删除仅出现在最多1%数据中的术语?

1
为什么要增加一个反向文档频率?
我的课本将idf列为,其中log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN:文件数 ntntn_t:包含术语的文档数ttt 维基百科将此公式列为实际的平滑版本。我了解的一个:范围从到,看起来很直观。 但是从到似乎太奇怪了…… 我对语言建模的平滑知识有所了解,但是您会在分子中添加一些东西以及分母中,因为您担心概率质量。但是,只加对我来说没有意义。我们要在这里完成什么?log(Nnt)log(Nnt)log(\frac{N}{n_t})log(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftylog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t})log(1+1)log(1+1)log(1+1)∞∞\infty111


1
使用文本挖掘/自然语言处理工具进行计量经济学
我不确定这个问题在这里是否完全合适,否则请删除。 我是经济学研究生。对于一个调查社会保险问题的项目,我可以访问大量涉及资格评估的行政案例报告(> 200k)。这些报告可以链接到单个管理信息。我想从这些报告中提取可用于定量分析的信息,最好是使用grep/ awk等进行简单的关键字/正则表达式搜索。 自然语言处理对此有多有用?还有哪些其他有用的文本挖掘方法?据我了解,这是一个很大的领域,很可能某些报告必须进行转换才能用作语料库。是否值得花一些时间来熟悉文献和方法?会有所帮助吗,以前做过类似的事情吗?就回报而言,是否值得?也就是说,我是否可以使用NLP进行潜在的有用信息来进行经济学实证研究? 可能会有资金雇用某人来阅读和准备一些报告。这是一个较大的项目,有可能申请更多的资金。如果绝对必要,我可以提供有关该主题的更多详细信息。一种潜在的并发症是该语言是德语,而不是英语。 关于资格,我主要接受计量经济学方面的培训,并且在Hastie等人的水平上对计算统计有所了解。书。我知道Python,R,Stata,并且可能很快就会熟悉Matlab。给定这些库,我认为Python是为此选择的工具。如果相关的话,根本就不需要定性方法方面的培训,但是我知道我可以联系一些人。 我很高兴为此提供任何输入,即,如果这可能有用,那么,从哪里开始阅读,以及特别关注哪些工具。

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.