数据科学 training

2

我正在尝试开始学习RNN，并且正在使用Keras。我了解香草RNN和LSTM层的基本前提，但是我无法理解培训的某些技术要点。在keras文档中，它说到RNN层的输入必须具有形状(batch_size, timesteps, input_dim)。这表明所有训练示例都具有固定的序列长度，即timesteps。但这不是特别典型，是吗？我可能想让RNN对不同长度的句子进行运算。当我在某种语料库上对其进行训练时，我将为它提供成批的句子，这些句子的长度各不相同。我想要做的显而易见的事情是找到训练集中任何序列的最大长度并将其零填充。但这是否意味着我无法在测试时进行输入长度大于该长度的预测？我想这是一个关于Keras特定实现的问题，但是我也想问人们通常在遇到这种问题时通常会做什么。

59 python keras rnn training

4

如果有新的观察结果，是否应该对模型进行重新训练？

因此，我尚未找到有关此主题的任何文献，但似乎值得深思：如果有新的观察结果，那么模型训练和优化的最佳实践是什么？在预测开始下降之前，有什么方法可以确定重新训练模型的周期/频率吗？如果针对聚合数据重新优化参数，是否过度拟合？注意，学习不一定是在线的。在最近的预测中观察到重大差异后，不妨升级现有模型。

28 machine-learning predictive-modeling optimization training

4

使用整个数据集训练最终模型总是更好吗？

在训练，验证和测试机器学习偏好模型之后，一种常见的技术是使用完整的数据集（包括测试子集）来训练最终模型，以将其部署到例如产品上。我的问题是：这样做是否总是最好的？如果性能实际上下降了怎么办？例如，让我们假设在分类测试子集时模型得分约为65％的情况。这可能意味着要么模型训练不足，要么测试子集包含异常值。在后一种情况下，与他们一起训练最终模型会降低其性能，并且只有在部署模型后才能发现。重新表述我的最初问题：如果您曾经进行过一次模型演示，例如将其部署在昂贵的火箭实验上的嵌入式电子设备上，那么您是否会信任在最后一步中已通过测试子集重新训练的模型，而无需重新进行？对其新性能进行了测试？

24 machine-learning dataset training accuracy

5

扩大seaborn热图

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

1

将批大小保持2的幂有什么优势？

在机器学习中训练模型时，为什么有时将批次大小保持为2的幂是有利的？我认为最好使用最大适合GPU内存/ RAM的大小。该答案声称，对于某些包装，批次大小以2的幂为佳。有人可以为此提供详细说明/链接到详细说明吗？对于所有优化算法（梯度下降，反向传播等）还是仅其中某些算法，这是正确的吗？

16 machine-learning training

1

是否需要分层抽样（随机森林，Python）？

我使用Python在不平衡的数据集上运行随机森林模型（目标变量是一个二进制类）。在拆分训练和测试数据集时，我很难避免是否使用分层抽样（如所示的代码）。到目前为止，我在项目中观察到分层案例将导致更高的模型性能。但是我认为，如果我将使用我的模型来预测新案例，那么新案例的目标类与当前数据集的分布很可能会有所不同。因此，我倾向于放宽此限制，并使用未分层的拆分。任何人都可以建议以澄清这一点吗？ train,test=train_test_split(myDataset, test_size=0.25, stratify=y)

14 machine-learning python random-forest sampling training

1

我应该使用多少个LSTM细胞？

是否有关于我应使用的LSTM电池的最小，最大和“合理”数量的经验法则（或实际规则）？具体来说，我与TensorFlow和property 有关的BasicLSTMCell有关num_units。请假设我有以下定义的分类问题： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如，训练示例的数量应该大于： 4*((n+1)*m + m*m)*c c单元数在哪里？我基于此：如何计算LSTM网络的参数数量？据我了解，这应该给出参数的总数，该总数应少于训练示例的数量。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

Questions tagged «training»