Questions tagged «python»

用于与编程语言Python相关的数据科学问题。不适用于一般编码问题(-> stackoverflow)。

4
如何使用预先训练的模型权重初始化新的word2vec模型?
我在python中使用Gensim库来使用和训练word2vector模型。最近,我正在考虑使用一些预先训练的word2vec模型(例如GoogleNewDataset预训练模型)来初始化模型权重。我一直在努力奋斗了几周。现在,我刚刚搜索出在gesim中有一个函数可以帮助我使用预先训练的模型权重来初始化模型的权重。如下所述: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. 我不知道此功能可以做同样的事情。请帮忙!!!

8
Python是否适合大数据
我在这篇文章中读到的是,R语言适用于大数据构成的大数据5TB,尽管它很好地提供了有关使用这种类型的数据的可行性的信息,R但提供的信息却很少Python。我想知道是否Python也可以处理这么多数据。
14 bigdata  python 

3
Keras的model.predict函数的输出是什么意思?
我建立了一个LSTM模型来预测Quora官方数据集上的重复问题。测试标签为0或1。1表示问题对重复。使用建立模型后model.fit,我将model.predict在测试数据上使用模型进行测试。输出是一个值数组,如下所示: [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ 1.43425131] [ 1.99202418] [ 0.54853892] [ 0.02514757] 我只显示数组中的前10个值。我不明白这些值是什么意思,每个问题对的预计标签是什么?


1
XGBRegressor与xgboost.train的巨大速度差异?
如果我使用以下代码训练模型: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 它会在大约1分钟内完成。 如果我使用Sci-Kit学习方法训练模型: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = 0.6 objective = …

1
将int的pandas列转换为timestamp数据类型
我有一个数据框,其中除其他外,包含一列自1970-1-1以来经过的毫秒数。我需要将此int列转换为时间戳数据,因此我可以通过将timestamp列系列添加到一个完全由1970-1-1组成的datetime值的序列中,最终将其转换为datetime数据列。 我知道如何将一系列字符串转换为日期时间数据(pandas.to_datetime),但是我找不到或想出任何解决方案将整列整数转换为日期时间数据或时间戳数据。

5
scikit-learn随机森林的功能重要性显示出很高的标准偏差
我正在使用scikit-learn随机森林分类器,并且想要绘制功能重要性,例如在本示例中。 但是,从某种意义上说,我的结果是完全不同的,在某种意义上,特征重要性标准差几乎总是大于特征重要性本身的(见附图)。 可能会有这种行为,或者我在绘制图形时犯了一些错误? 我的代码如下: import matplotlib.pyplot as plt import numpy as np import pandas as pd from sklearn.ensemble import RandomForestClassifier clf = RandomForestClassifier() clf.fit(predictors.values, outcome.values.ravel()) importance = clf.feature_importances_ importance = pd.DataFrame(importance, index=predictors.columns, columns=["Importance"]) importance["Std"] = np.std([tree.feature_importances_ for tree in clf.estimators_], axis=0) x = range(importance.shape[0]) y = importance.ix[:, 0] yerr = …

1
多维和多元时间序列预测(RNN / LSTM)Keras
我一直在尝试了解如何使用Keras(或TensorFlow)来表示和塑造数据以进行多维和多变量时间序列预测,但是在阅读了许多有关如何在Web站点中呈现数据的博客文章/教程/文档后,我仍然不清楚。正确的形状(大多数示例略少一些) 我的数据集: 几个城市 我有关于温度,汽车通行性,湿度的信息 可以说最近2年(每天1条记录) 我想做的事情: 我想使用温度,汽车通行和湿度的滞后版本来预测每个城市明年的平均气温(当然会有更多功能,但这只是一个思想示例)。 我感到困惑的是: 如果我有2个城市,并且在365天内记录了3个要素。我应该如何调整我的输入,以便模型可以输出这两个城市365天的预报(即365天的2个时间序列的温度)? 直观上,张量形状将(?, 365, 3)持续365天和3个特征。但是我不确定该坚持第一维度是什么,最重要的是,如果一定要针对城市数量,我会感到惊讶。但与此同时,我也不知道如何在模型中指定必须正确理解尺寸的模型。 任何指针都会有所帮助。我对问题的其余部分非常熟悉(即,您如何在Keras中构建网络等,因为我已经为其他神经网络完成了此操作,但更具体地说是如何最好地编码所需输入的序列)。 哦,而且,我想我可以对每个城市进行独立的培训和预测,但是我敢肯定,每个人都会同意有可能要学习的东西并不是每个城市所独有的,只有在考虑其中的几个时才能看到,因此,为什么我认为在模型中对其进行编码很重要。
12 python  keras  rnn  lstm 

2
验证损失和准确性保持恒定
我想实现这个上一所集医疗图像的纸。我在Keras上做。该网络主要由4个conv和max-pool层组成,然后是一个完全连接的层和s​​oft max分类器。 据我所知,我遵循了本文提到的架构。但是,验证损失和准确性始终保持不变。准确性似乎固定为〜57.5%。 对于我可能会出错的任何帮助,将不胜感激。 我的代码: from keras.models import Sequential from keras.layers import Activation, Dropout, Dense, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.optimizers import SGD from keras.utils import np_utils from PIL import Image import numpy as np from sklearn.utils import shuffle from sklearn.cross_validation import train_test_split import theano import os import …

3
有关NLTK中的NER的帮助
我使用NLTK已有一段时间了。我面临的问题是,使用我的自定义数据对NLTK中的NER进行培训没有帮助。他们使用了MaxEnt并在ACE语料库上对其进行了培训。我在网上进行了很多搜索,但是找不到用于训练NLTK NER的任何方法。 如果有人可以向我提供任何链接/文章/博客等信息,这些链接/文章/博客等都可以将我定向到用于培训NLTK NER的培训数据集格式,那么我可以按照该特定格式准备数据集。并且,如果我被定向到可以帮助我训练自己的数据的NLNL的NER的任何链接/文章/博客等。 这是一个被广泛搜索且回答最少的问题。对于将来与NER合作的人可能会有所帮助。

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
大型数据集的有效降维
我有一个具有〜1M行和〜500K稀疏特征的数据集。我想将维数减少到1K-5K密集特征的数量级。 sklearn.decomposition.PCA在稀疏数据上不起作用,我已经尝试过使用,sklearn.decomposition.TruncatedSVD但是很快就会遇到内存错误。在这种规模的有效尺寸缩减方面,我有哪些选择?

2
如何为随机森林分类拟合分类数据类型?
我需要通过应用随机森林算法来找到训练数据集的准确性。但是我的数据集类型既是分类的又是数字的。当我尝试拟合这些数据时,出现错误。 '输入包含NaN,无穷大或dtype('float32')太大的值。 问题可能出在对象数据类型上。如何在不进行RF转换的情况下拟合分类数据? 这是我的代码。

3
用恒定值替换pyspark数据框中的所有数值
考虑一个由'null'元素和数字元素组成的pyspark数据帧。通常,数字元素具有不同的值。如何用一个恒定的数值(例如值1)替换数据框的所有数值?提前致谢! pyspark数据框的示例: 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 0.04 & 1 & 1.35 \\ 2 & -1 & null & -1.2 \\ 3 & null & 1.2 & null \end{array} 结果应为: 123c111nullc21null1c311nullc1c2c3111121null13null1null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 1 …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.