统计和大数据 text-mining

2

在两个流行的语言识别库中，C ++的紧凑语言检测器2和Java的语言检测器都使用了（基于字符的）n-gram提取文本特征。为什么不使用单词袋（单个单词/词典）？单词袋和n-gram的优缺点是什么？另外，n-grams模型在文本分类中还有哪些其他用途？哎呀似乎这里有一个类似的问题：关于使用bigram（N-gram）模型为文本文档构建特征向量但是有人可以给出更全面的答案吗？在识别语言的情况下哪个更好？（希望我能正确理解n-gram和词袋的含义，哈哈，如果不能，请帮助我。）

12 machine-learning classification text-mining natural-language

7

R的文本挖掘程序包是什么？还有其他开源文本挖掘程序吗？

您是否可以推荐R中的文本挖掘程序包，该程序包可用于处理大量数据？其次，R中是否有可用于任何文本挖掘程序包的GUI？第三，还有另一个易于使用且直观的开源文本挖掘程序吗？

12 r text-mining

2

词袋与向量空间模型？

这些文本表示模型之间的区别是什么：单词袋和向量空间模型？

12 machine-learning text-mining

5

关于文本挖掘的好书？

嗨，我想知道是否有一些有关文本挖掘和分类的好书，还有一些案例研究？如果不是这样的话，一些公众可以获取的论文/期刊就可以了。如果他们用R更好地说明自己的例子。我不是在寻找逐步的手册，而是要说明一些针对各种问题的各种文本挖掘方法的利弊。

11 references text-mining

1

增量IDF（反向文档频率）

在文本挖掘应用程序，一个简单的方法是使用启发式创建载体作为文件的紧凑稀疏表示。这对于批处理设置很好，因为整个主体被称为先验，因为i d f要求整个主体Ť ˚F- 我dFtf−idftf-idf我dFidfidf 我d ˚F（t ）= 对数| D || {d：吨∈ d} |idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} 其中是术语，d是文档，D是文档语料库，而T（未显示）是字典。ŤttddddDDŤTT 但是，通常随着时间的推移会收到新的文档。一种选择是使用现有的，以保持，直到已经收到新的文件一定数量，并且重新计算。但是，这似乎效率很低。如果有人事先查看了所有数据，是否有人知道增量更新方案（可能近似）收敛到该值？或者，是否有另一种方法可以捕获相同的概念，但是可以以增量方式计算？我dFidfidf 还有一个相关的问题，随着时间的流逝，i d f是否仍然是一个好的度量。由于idf捕获了语料词频率的概念，因此可以想象，语料库中较旧的文档（例如，我的语料库包括100多年的期刊文章），因为不同词的频率随时间变化。在这种情况下，实际上是明智的做法是，在使用新的滑动窗口i d f时，将新的文档丢掉。可以想象，当计算出新的矢量时，也可以存储所有以前的i d f矢量，然后，如果我们想检索1920-1930年的文档，则可以使用i d f我dFidfidf我dFidfidf我dFidfidf我dFidfidf根据该日期范围内的文档计算得出。这种方法有意义吗？编辑：关于字典有一个单独的但相关的问题。随着时间的流逝，将会出现以前没有出现过的新词典术语，因此| T | 将需要增长，因此i d f向量的长度。似乎不会有问题，因为可以将零添加到旧的i d f向量上。ŤTT| Ť||T||T|我dFidfidf我dFidfidf

11 time-series text-mining

1

了解TF-IDF对数中对数的使用

我正在阅读： https://zh.wikipedia.org/wiki/Tf%E2%80%93idf#Definition 但是我似乎无法确切地理解为什么以这种方式构造公式。我的理解： iDF应该在某种程度上衡量术语S在每个文档中出现的频率，并随着术语S出现频率的增加而降低其价值。从这个角度来看我d ˚F（S）= ＃文献＃含S-文献一世dF（小号）=＃文件数量＃包含S的文档 iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} 此外，术语“频率”可以正确地描述为 Ť ˚F（S，d ）= ＃在文件d S的出现次数的＃文档D中任何字符串Q的最大出现次数 ŤF（小号，d）=＃ D中S的出现＃文档D中任何字符串Q的最大出现次数 tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

关于使用bigram（N-gram）模型构建文本文档的特征向量

用于文本挖掘的特征构造的传统方法是词袋方法，并且可以使用tf-idf进行增强，以建立表征给定文本文档的特征向量。目前，我正在尝试使用Bi-gram语言模型或（N-gram）来构建特征向量，但还不太清楚该怎么做？我们是否可以仅遵循单词袋的方法，即以二元语法代替单词来计算频率计数，并使用tf-idf加权方案对其进行增强？

10 machine-learning data-mining text-mining natural-language language-models

1

这种对稀疏性的解释准确吗？

根据软件包removeSparseTerms功能的文档，tm稀疏性是这样的： A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. 那么，是否正确解释是说如果sparse等于.99，那么我们要删除仅出现在最多1％数据中的术语？

10 r text-mining natural-language

1

为什么要增加一个反向文档频率？

我的课本将idf列为，其中log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN：文件数 ntntn_t：包含术语的文档数ttt 维基百科将此公式列为实际的平滑版本。我了解的一个：范围从到，看起来很直观。但是从到似乎太奇怪了…… 我对语言建模的平滑知识有所了解，但是您会在分子中添加一些东西以及分母中，因为您担心概率质量。但是，只加对我来说没有意义。我们要在这里完成什么？log(Nnt)log(Nnt)log(\frac{N}{n_t})log(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftylog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t})log(1+1)log(1+1)log(1+1)∞∞\infty111

9 text-mining natural-language smoothing

2

R中的“ tm”（文本挖掘）包中的VectorSource和VCorpus是什么

我不太确定“ tm”包中的VectorSource和VCorpus到底是什么。这些文档尚不清楚，有人可以让我简单地理解吗？

9 r text-mining

1

使用文本挖掘/自然语言处理工具进行计量经济学

我不确定这个问题在这里是否完全合适，否则请删除。我是经济学研究生。对于一个调查社会保险问题的项目，我可以访问大量涉及资格评估的行政案例报告（> 200k）。这些报告可以链接到单个管理信息。我想从这些报告中提取可用于定量分析的信息，最好是使用grep/ awk等进行简单的关键字/正则表达式搜索。自然语言处理对此有多有用？还有哪些其他有用的文本挖掘方法？据我了解，这是一个很大的领域，很可能某些报告必须进行转换才能用作语料库。是否值得花一些时间来熟悉文献和方法？会有所帮助吗，以前做过类似的事情吗？就回报而言，是否值得？也就是说，我是否可以使用NLP进行潜在的有用信息来进行经济学实证研究？可能会有资金雇用某人来阅读和准备一些报告。这是一个较大的项目，有可能申请更多的资金。如果绝对必要，我可以提供有关该主题的更多详细信息。一种潜在的并发症是该语言是德语，而不是英语。关于资格，我主要接受计量经济学方面的培训，并且在Hastie等人的水平上对计算统计有所了解。书。我知道Python，R，Stata，并且可能很快就会熟悉Matlab。给定这些库，我认为Python是为此选择的工具。如果相关的话，根本就不需要定性方法方面的培训，但是我知道我可以联系一些人。我很高兴为此提供任何输入，即，如果这可能有用，那么，从哪里开始阅读，以及特别关注哪些工具。

9 machine-learning data-mining econometrics text-mining natural-language

1

如何比较观察到的事件与预期的事件？

假设我有一个频率为4个可能的事件的样本： Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和（18），我可以计算事件的预期频率，对吗？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

了解和应用情绪分析

我刚刚被分配了一个对某些文档收集进行情感分析的项目。通过谷歌搜索，涌现出许多与情感相关的研究。我的问题是：在机器学习和统计分析领域中，进行情感分析的主要方法/算法是什么？有没有确定的结果？是否有任何现有的可执行情感分析的开源软件？

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

如何在2 X 3桌子上进行多个事后卡方检验？

我的数据集包括近海，中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点类型，发生100％死亡率的地点数量是否显着。如果我运行2 x 3卡方，则会得到显着的结果。我是否可以进行事后成对比较，或者实际上应该使用对数方差分析或二项分布的回归？谢谢！

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

Questions tagged «text-mining»