数据科学 information-retrieval

2

我要解决的问题是将短文本分为多个类别。我目前的方法是使用tf-idf加权词频，并学习一个简单的线性分类器（逻辑回归）。这相当有效（测试集上的宏F-1约为90％，训练集上接近100％）。一个大问题是看不见的单词/ n-gram。我正在尝试通过添加其他功能（例如，使用分布相似性（由word2vec计算）计算出的固定大小的矢量）或示例中的其他分类功能来改进分类器。我的想法是仅从单词袋中将功能添加到稀疏输入功能中。但是，这会导致测试和训练集的性能变差。附加功能本身可以在测试装置上提供大约80％的F-1，因此它们不是垃圾。扩展功能也没有帮助。我目前的想法是，这类功能与（稀疏的）单词功能组合得不太好。所以问题是：假设附加功能提供了附加信息，那么将它们合并的最佳方法是什么？是否可以训练单独的分类器并将它们组合在一起以进行某种整体工作（这可能会有一个缺点，即无法捕获不同分类器的特征之间的交互）？我还应该考虑其他更复杂的模型吗？

19 machine-learning classification feature-selection logistic-regression information-retrieval

3

点击频率是否具有相关性？

在为搜索引擎或推荐系统建立排名时，依靠点击频率来确定条目的相关性是否有效？

17 recommender-system information-retrieval

5

扩大seaborn热图

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

1

我应该使用多少个LSTM细胞？

是否有关于我应使用的LSTM电池的最小，最大和“合理”数量的经验法则（或实际规则）？具体来说，我与TensorFlow和property 有关的BasicLSTMCell有关num_units。请假设我有以下定义的分类问题： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如，训练示例的数量应该大于： 4*((n+1)*m + m*m)*c c单元数在哪里？我基于此：如何计算LSTM网络的参数数量？据我了解，这应该给出参数的总数，该总数应少于训练示例的数量。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

从噪声字符串列表中提取规范字符串

我有数千个字符串列表，每个列表都有大约10个字符串。给定列表中的大多数字符串都非常相似，尽管某些字符串（很少）与其他字符串完全无关，而某些字符串包含不相关的单词。可以将它们视为规范字符串的嘈杂变化。我正在寻找一种算法或库，可以将每个列表转换为该规范字符串。这是一个这样的清单。星球大战：第四集新希望 StarWars.com 星球大战第四集-新希望（1977）星球大战：第四集-新希望-烂番茄观看星球大战：第四集-免费在线新希望星球大战（1977）-最伟大的电影 [REC] 4个海报承诺通过舷外发动机致死-SciFiNow 对于此列表，任何与正则表达式匹配的字符串^Star Wars:? Episode IV (- )?A New Hope$都是可以接受的。我在Coursera上看过Andrew Ng的机器学习课程，但是找不到类似的问题。

10 nlp similarity information-retrieval

5

如何创建一个好的停用词列表

我正在寻找有关如何整理停用词列表的一些提示。有人知道/可以推荐一个好方法从数据集中提取停用词列表以进行预处理和过滤吗？数据：数年来，大量的可变长度的人类文本输入（搜索词和整个句子（最多200个字符））。文本中包含大量垃圾邮件（例如来自机器人的机器输入，单个单词，愚蠢的搜索，产品搜索等），似乎只有几％有用。我意识到有时候（很少）人们会问一些很酷的问题来搜寻我的身边。这些问题是如此的酷，以至于我认为有必要更深入地研究它们，以了解人们随着时间的流逝如何搜索以及人们对使用我的网站感兴趣的主题。我的问题：是我真的在预处理方面苦苦挣扎（即丢弃垃圾邮件）。我已经从网络上尝试过一些停用词列表（NLTK等），但是这些并不能真正满足我对这个数据集的需求。感谢您的想法和讨论！

9 data-mining nlp information-retrieval language-model

Questions tagged «information-retrieval»