Questions tagged «machine-learning»

建立“随经验自动改进的计算机系统”的方法和原理。

2
验证损失和准确性保持恒定
我想实现这个上一所集医疗图像的纸。我在Keras上做。该网络主要由4个conv和max-pool层组成,然后是一个完全连接的层和s​​oft max分类器。 据我所知,我遵循了本文提到的架构。但是,验证损失和准确性始终保持不变。准确性似乎固定为〜57.5%。 对于我可能会出错的任何帮助,将不胜感激。 我的代码: from keras.models import Sequential from keras.layers import Activation, Dropout, Dense, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.optimizers import SGD from keras.utils import np_utils from PIL import Image import numpy as np from sklearn.utils import shuffle from sklearn.cross_validation import train_test_split import theano import os import …


3
有关NLTK中的NER的帮助
我使用NLTK已有一段时间了。我面临的问题是,使用我的自定义数据对NLTK中的NER进行培训没有帮助。他们使用了MaxEnt并在ACE语料库上对其进行了培训。我在网上进行了很多搜索,但是找不到用于训练NLTK NER的任何方法。 如果有人可以向我提供任何链接/文章/博客等信息,这些链接/文章/博客等都可以将我定向到用于培训NLTK NER的培训数据集格式,那么我可以按照该特定格式准备数据集。并且,如果我被定向到可以帮助我训练自己的数据的NLNL的NER的任何链接/文章/博客等。 这是一个被广泛搜索且回答最少的问题。对于将来与NER合作的人可能会有所帮助。

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
如何计算VC尺寸?
我正在研究机器学习,我想知道如何计算VC维度。 例如: h(x)={10if a≤x≤belse H(X)={1个如果 一个≤X≤b0其他 h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} ,使用的参数。(a,b)∈R2(一个,b)∈[R2(a,b) ∈ R^2 VC尺寸是多少?


4
Occam的Razor原理如何在机器学习中发挥作用
图片中显示的以下问题是最近一次考试中提出的。我不确定我是否正确理解了Occam的剃刀原理。根据问题中给出的分布和决策边界,并遵循Occam的剃刀,两种情况下的决策边界B都应作为答案。因为根据Occam的Razor,选择比较简单的分类器而不是复杂的分类器即可胜任。 有人可以证明我的理解是正确的,选择的答案是否合适?请帮忙,因为我只是机器学习的初学者

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
如何使用Keras预测时间范围的未来值?
我刚刚用Keras 建立了LSTM神经网络 import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name = "DailyDemand.csv" data_csv = pd.read_csv(data_file_name, delimiter = …

2
我们什么时候说数据集不可分类?
我已经多次分析过一个数据集,在该数据集上我实际上无法进行任何分类。为了查看是否可以得到分类器,我通常使用以下步骤: 根据数值生成标签的箱形图。 将维数减少到2或3,以查看类是否可分离,有时也尝试使用LDA。 强制尝试适合SVM和随机森林,并查看特征的重要性,以查看特征是否有意义。 尝试更改类和欠采样和过采样等技术的平衡,以检查类不平衡是否可能成为问题。 我可以想到很多其他方法,但是还没有尝试过。有时我知道这些功能不好,并且与我们试图预测的标签完全无关。然后,我根据业务直觉结束练习,得出结论,我们需要更好的功能或完全不同的标签。 我的问题是数据科学家如何报告无法使用这些功能进行分类。是否有任何统计方法可以报告此问题或首先将数据拟合为不同算法,然后查看验证指标是最佳选择?

2
给定我有一个在P(Y | X)上训练时具有良好性能的模型,找到最佳P(X | Y)
输入数据: > T恤的功能(颜色,徽标等)XXX >利润率YYY 我已经在上面的和Y上训练了一个随机森林,并在测试数据上达到了合理的准确性。所以我有XXXYYY 。P(Y|X)P(Y|X)P(Y|X) 现在,我想找到即给定我期望这么高的利润率的X特征的概率分布。P(X|Y)P(X|Y)P(X|Y)XXX 如何使用随机森林(或任何其他判别模型)来做到这一点? 对我来说,一个建议可能是从生成模型而不是判别模型开始。但是,我的理解是,生成模型通常需要训练大量数据,除非做出一些非常严格的假设,例如在朴素贝叶斯的情况下的条件独立性?XXX 其他建议可能只是切换和Y并训练判别模型。现在X将是利润率,Y将是at衬衫的特征。给定目标利润率,P (Y | X )将直接给我t恤功能的概率分布。但是这种方法对我来说似乎并不正确,因为我一直将X作为偶然变量,而将Y视为有效。XXXYYYXXXYYYP(Y|X)P(Y|X)P(Y|X)XXXYYY 而且,据我所知,对于药物发现也提出了类似的问题,并设计了算法,这些算法提出了具有高度成功性的候选新药物。有人可以指点我研究这一领域的文学吗? 更新: 我也碰到过这个和这个,其被用于药物发现约甘斯举行会谈。生成式对抗网络似乎很适合我的问题陈述,因此我一直在阅读有关它们的信息。但是我了解的一件事是GAN以无监督的方式生成样本。他们试图生成样本,就像首先捕获X的基础分布,然后从该分布进行采样一样。但是我对X | Y感兴趣。X和Y在上面定义。除了GAN,我是否应该探索其他东西?有指针吗? 后续问题: 想象一下,我受过GAN培训,学习了如何制作T恤(输出样本Xs)。在给定的Y下,如何获得前5件衬衫?


2
多少数据足以训练我的机器学习模型?
我从事机器学习和生物信息学研究已有一段时间了,今天我与一位同事就数据挖掘的主要一般问题进行了交谈。 我的同事(是机器学习专家)说,他认为,机器学习最重要的实践方面是如何理解您是否收集了足够的数据来训练机器学习模型。 这句话令我感到惊讶,因为我从未在这方面给予过如此重视。 然后,我在Internet上寻找了更多信息,并且根据经验,我在FastML.com上发现了这篇文章,根据您的经验,您需要的数据实例大约是功能的10倍。 两个问题: 1-这个问题在机器学习中真的特别重要吗? 2 - 是的10倍规则工作?这个主题还有其他相关资料吗?

1
Tensorflow神经网络TypeError:提取参数具有无效的类型
我正在使用tensorflow创建一个简单的神经网络,并收集了我自己的数据,但是,它不配合使用:PI遇到了一个错误,我无法解决或无法找到解决方法,我希望您能提供帮助。 错误消息: TypeError:2861.6152的获取参数2861.6152的类型无效,必须为字符串或Tensor。(无法将float32转换为张量或操作。) 错误是指我的代码中的以下行: _, cost = tf_session.run([optimizer, cost], feed_dict = {champion_data: batch_input, item_data: batch_output}) 我已经弄清楚,当我在代码中注释掉以下行时,不会发生该错误: prediction = neural_network_model(champion_data) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(prediction, item_data)) optimizer = tf.train.AdamOptimizer().minimize(cost) _, cost = tf_session.run([optimizer, cost], feed_dict = {champion_data: batch_input, item_data: batch_output}) 因此,这些行之一在某处获得的外观与预期的外观并不完全相同。我已经尝试了显而易见的方法(将np.array()从batch_input和batch_output中删除,或将其替换为list()),但这并不能解决问题。我目前的假设是Neuro_network_model(champion_data)的输出某种程度上具有错误的形状或类型,但是我不确定如何进行测试或解决(如果确实如此)。 完整的代码可以在这里找到:https : //gist.github.com/HasseIona/4bcaf9f95ae828e056d5210a2ea07f88 编辑:我已经验证了输入到neuro_network_model的冠军数据,预测和成本都是张量。我一直在尝试使用以下假设解决问题:该问题某种程度上在于代码的feed_dict = {}部分,但到目前为止还没有到位

6
机器学习中模型的定义
这个定义不太适用,因为我们并不总是假设基础分布。那么,真正的模型是什么?具有指定超参数的GBM可以视为模型吗?模型是规则的集合吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.