Questions tagged «information-retrieval»

6
文字的统计分类
我是一个没有统计背景的程序员,并且我目前正在针对要分类为预定义类别的大量不同文档寻找不同的分类方法。我一直在阅读有关kNN,SVM和NN的文章。但是,我在入门时遇到了一些麻烦。您推荐什么资源?我确实很了解单变量和多变量演算,所以我的数学应该足够强大。我还拥有Bishop关于神经网络的书,但是作为入门,它已经被证明有些密集。

2
测量文档相似度
要对文档进行聚类(文本),您需要一种度量文档对之间相似度的方法。 两种选择是: 使用余弦相似度 -和TF / IDF作为术语权重,将文档作为术语向量进行比较。 使用f散度比较每个文档的概率分布,例如Kullback-Leibler散度 是否有任何直观原因会偏爱一种方法(假设平均文档大小为100个字)?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
平均平均精度与平均倒数排名
我试图了解何时适合使用MAP以及何时应使用MRR。我发现此演示文稿指出,当相关结果的数量小于5时,使用MRR最佳,而当结果为1时,则使用MRR最佳。在其他情况下,MAP适用。我有两个问题: 我真的不明白为什么会这样。 我找不到此主张的引证依据。 请注意,我没有很强的统计背景,所以外行的解释会很有帮助。谢谢。

1
LSA与pLSA之间的并列
在pLSA的原始论文中,作者Thomas Hoffman在pLSA和LSA数据结构之间画了一条相似的线,我想与您讨论一下。 背景: 从信息检索中获得启发,假设我们有一个 ññN 单据 D = {d1个,d2,。。。。,dñ}d={d1个,d2,。。。。,dñ}D = \lbrace d_1, d_2, ...., d_N \rbrace 和一个词汇 中号中号M 条款 Ω = {ω1个,ω2,。。。,ω中号}Ω={ω1个,ω2,。。。,ω中号}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace 一个语料库 XXX 可以用 ñ× Mñ×中号N \times M 共生矩阵。 在SVD的潜在语义Analisys中,矩阵XXX 被分为三个矩阵: X= UΣVŤX=üΣVŤX = U \Sigma V^T 哪里 Σ = d我一个克{σ1个,。。。,σs}Σ=d一世一个G{σ1个,。。。,σs}\Sigma = …

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.