统计和大数据 information-retrieval

6

我是一个没有统计背景的程序员，并且我目前正在针对要分类为预定义类别的大量不同文档寻找不同的分类方法。我一直在阅读有关kNN，SVM和NN的文章。但是，我在入门时遇到了一些麻烦。您推荐什么资源？我确实很了解单变量和多变量演算，所以我的数学应该足够强大。我还拥有Bishop关于神经网络的书，但是作为入门，它已经被证明有些密集。

32 classification information-retrieval text-mining

2

测量文档相似度

要对文档进行聚类（文本），您需要一种度量文档对之间相似度的方法。两种选择是：使用余弦相似度 -和TF / IDF作为术语权重，将文档作为术语向量进行比较。使用f散度比较每个文档的概率分布，例如Kullback-Leibler散度是否有任何直观原因会偏爱一种方法（假设平均文档大小为100个字）？

21 information-retrieval

4

如何将新向量投影到PCA空间上？

执行主成分分析（PCA）之后，我想将一个新向量投影到PCA空间上（即在PCA坐标系中找到其坐标）。我已经使用R计算了R语言的PCA prcomp。现在，我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

1

平均平均精度与平均倒数排名

我试图了解何时适合使用MAP以及何时应使用MRR。我发现此演示文稿指出，当相关结果的数量小于5时，使用MRR最佳，而当结果为1时，则使用MRR最佳。在其他情况下，MAP适用。我有两个问题：我真的不明白为什么会这样。我找不到此主张的引证依据。请注意，我没有很强的统计背景，所以外行的解释会很有帮助。谢谢。

12 information-retrieval average-precision

1

LSA与pLSA之间的并列

在pLSA的原始论文中，作者Thomas Hoffman在pLSA和LSA数据结构之间画了一条相似的线，我想与您讨论一下。背景：从信息检索中获得启发，假设我们有一个 ññN 单据 D = {d1个，d2，。。。。，dñ}d={d1个，d2，。。。。，dñ}D = \lbrace d_1, d_2, ...., d_N \rbrace 和一个词汇中号中号M 条款 Ω = {ω1个，ω2，。。。，ω中号}Ω={ω1个，ω2，。。。，ω中号}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace 一个语料库 XXX 可以用 ñ× Mñ×中号N \times M 共生矩阵。在SVD的潜在语义Analisys中，矩阵XXX 被分为三个矩阵： X= UΣVŤX=üΣVŤX = U \Sigma V^T 哪里 Σ = d我一个克{σ1个，。。。，σs}Σ=d一世一个G{σ1个，。。。，σs}\Sigma = …

9 machine-learning conditional-probability svd information-retrieval lsa

1

如何比较观察到的事件与预期的事件？

假设我有一个频率为4个可能的事件的样本： Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和（18），我可以计算事件的预期频率，对吗？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

了解和应用情绪分析

我刚刚被分配了一个对某些文档收集进行情感分析的项目。通过谷歌搜索，涌现出许多与情感相关的研究。我的问题是：在机器学习和统计分析领域中，进行情感分析的主要方法/算法是什么？有没有确定的结果？是否有任何现有的可执行情感分析的开源软件？

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

Questions tagged «information-retrieval»