Questions tagged «information-retrieval»

2
文字分类:结合不同种类的功能
我要解决的问题是将短文本分为多个类别。我目前的方法是使用tf-idf加权词频,并学习一个简单的线性分类器(逻辑回归)。这相当有效(测试集上的宏F-1约为90%,训练集上接近100%)。一个大问题是看不见的单词/ n-gram。 我正在尝试通过添加其他功能(例如,使用分布相似性(由word2vec计算)计算出的固定大小的矢量)或示例中的其他分类功能来改进分类器。我的想法是仅从单词袋中将功能添加到稀疏输入功能中。但是,这会导致测试和训练集的性能变差。附加功能本身可以在测试装置上提供大约80%的F-1,因此它们不是垃圾。扩展功能也没有帮助。我目前的想法是,这类功能与(稀疏的)单词功能组合得不太好。 所以问题是:假设附加功能提供了附加信息,那么将它们合并的最佳方法是什么?是否可以训练单独的分类器并将它们组合在一起以进行某种整体工作(这可能会有一个缺点,即无法捕获不同分类器的特征之间的交互)?我还应该考虑其他更复杂的模型吗?


5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
从噪声字符串列表中提取规范字符串
我有数千个字符串列表,每个列表都有大约10个字符串。给定列表中的大多数字符串都非常相似,尽管某些字符串(很少)与其他字符串完全无关,而某些字符串包含不相关的单词。可以将它们视为规范字符串的嘈杂变化。我正在寻找一种算法或库,可以将每个列表转换为该规范字符串。 这是一个这样的清单。 星球大战:第四集新希望 StarWars.com 星球大战第四集-新希望(1977) 星球大战:第四集-新希望-烂番茄 观看星球大战:第四集-免费在线新希望 星球大战(1977)-最伟大的电影 [REC] 4个海报承诺通过舷外发动机致死-SciFiNow 对于此列表,任何与正则表达式匹配的字符串^Star Wars:? Episode IV (- )?A New Hope$都是可以接受的。 我在Coursera上看过Andrew Ng的机器学习课程,但是找不到类似的问题。

5
如何创建一个好的停用词列表
我正在寻找有关如何整理停用词列表的一些提示。有人知道/可以推荐一个好方法从数据集中提取停用词列表以进行预处理和过滤吗? 数据: 数年来,大量的可变长度的人类文本输入(搜索词和整个句子(最多200个字符))。文本中包含大量垃圾邮件(例如来自机器人的机器输入,单个单词,愚蠢的搜索,产品搜索等),似乎只有几%有用。我意识到有时候(很少)人们会问一些很酷的问题来搜寻我的身边。这些问题是如此的酷,以至于我认为有必要更深入地研究它们,以了解人们随着时间的流逝如何搜索以及人们对使用我的网站感兴趣的主题。 我的问题: 是我真的在预处理方面苦苦挣扎(即丢弃垃圾邮件)。我已经从网络上尝试过一些停用词列表(NLTK等),但是这些并不能真正满足我对这个数据集的需求。 感谢您的想法和讨论!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.