Questions tagged «python»

用于与编程语言Python相关的数据科学问题。不适用于一般编码问题(-> stackoverflow)。

2
如何对熊猫中按两列分组的值求和
我有一个这样的Pandas DataFrame: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 我如何生成这样的新DataFrame: Date one two 0 2017-1-1 3 …

3
在PySpark中逐行合并多个数据帧
我有10个数据帧pyspark.sql.dataframe.DataFrame,从获得randomSplit如(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)现在我想参加9 td的到一个单一的数据帧,我应该怎么办呢? 我已经尝试过使用unionAll,但是此函数仅接受两个参数。 td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments (3 given) 有什么办法可以按行组合两个以上的数据帧? 这样做的目的是在不使用PySpark …

2
train_test_split()错误:发现输入变量的样本数不一致
对Python来说是相当新的东西,但是基于一些分类数据建立了我的第一个RF模型。我已经将所有标签转换为int64数字数据,并以numpy数组的形式加载到X和Y中,但是在尝试训练模型时遇到错误。 这是我的数组的样子: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, 1, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, 3, 3, 2, 3, 3, 1, 1, 1, 1], [ 0, 5, …

2
Keras vs.tf.keras
我在为新研究项目选择Keras(keras-team / keras)和tf.keras(tensorflow / tensorflow / python / keras /)之间有点困惑。 有争论称,Keras不归任何人所有,因此人们更乐于参与其中,将来管理该项目将更加容易。‬ 在另一边,tf.keras是由谷歌所拥有,因此更严格的测试和维护。而且,这似乎是利用Tensorflow v.2中提供的新功能的更好选择。 因此,要启动一个数据科学(机器学习)项目(在研究阶段),在开始时都没问题,您选择哪个?

1
处理经度/纬度特征的方法
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加详细信息并通过编辑此帖子来澄清问题。 3年前关闭。 我正在研究具有25个功能的虚构数据集。其中两个功能是地点的纬度和经度,其他功能是pH值,海拔高度,windSpeed等变化范围的功能。我可以对其他要素进行归一化,但是如何处理纬度/经度要素? 编辑:这是预测农业产量的问题。我认为纬度/经度非常重要,因为位置在预测中至关重要,因此造成了困境。

3
逻辑函数中成本函数的Python实现:为什么在一个表达式中使用点乘法但在另一个表达式中使用逐元素乘法
我有一个非常基本的问题,涉及逻辑回归设置中的Python,numpy和矩阵乘法。 首先,让我为未使用数学符号表示歉意。 我对矩阵点乘法与元素明智的倍增的使用感到困惑。成本函数由下式给出: 在python中,我将其写为 cost = -1/m * np.sum(Y * np.log(A) + (1-Y) * (np.log(1-A))) 但例如,此表达式(第一个表达式-J关于w的导数) 是 dw = 1/m * np.dot(X, dz.T) 我不明白为什么在上面使用点乘法是正确的,但是在成本函数中使用逐元素乘法,即为什么不这样做: cost = -1/m * np.sum(np.dot(Y,np.log(A)) + np.dot(1-Y, np.log(1-A))) 我完全理解这一点并没有得到详尽的解释,但是我想这个问题是如此简单,以至于即使具有基本逻辑回归经验的人也会理解我的问题。


4
使用Keras(Python)进行LSTM-RNN的超参数搜索
来自Keras RNN教程的文章:“ RNN 很棘手。批大小的选择很重要,损耗和优化器的选择很重要,等等。某些配置无法融合。” 因此,这是关于在Keras上调整LSTM-RNN的超参数的一个普遍问题。我想知道一种为您的RNN查找最佳参数的方法。 我从Keras'Github上的IMDB示例开始。 主要模型如下: (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=max_features, test_split=0.2) max_features = 20000 maxlen = 100 # cut texts after this number of words (among top max_features most common words) batch_size = 32 model = Sequential() model.add(Embedding(max_features, 128, input_length=maxlen)) model.add(LSTM(128)) model.add(Dropout(0.5)) model.add(Dense(1)) model.add(Activation('sigmoid')) # try using …

3
用Python提取图像特征
在我的课堂上,我必须使用两个分类器创建一个应用程序,以确定图像中的对象是多孔菌(seasponge)的示例还是其他一些对象。 但是,当我涉及python中的特征提取技术时,我完全迷失了。我的顾问说服我使用课堂上没有讲到的图像。 谁能指导我寻找有意义的文档或阅读或提出建议的方法?

4
提高python中t-sne实现的速度以处理海量数据
我想对将近100万个具有200个维度的向量进行降维doc2vec。我使用TSNE从执行sklearn.manifold模块它和主要问题是时间复杂度。即使使用method = barnes_hut,计算速度仍然很低。有时甚至耗尽了内存。 我正在具有130G RAM的48核处理器上运行它。是否有一种方法可以并行运行它或利用大量资源来加快此过程。

2
使用协作过滤功能向电影推荐其他功能
我正在尝试使用协作过滤来建立推荐系统。我有通常的[user, movie, rating]信息。我想合并一个附加功能,例如“语言”或“电影时长”。我不确定我可以使用什么技术来解决这个问题。 请在python / R中建议参考或软件包。

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
将tfrecord文件拆分为碎片有什么好处?
我正在使用Tensorflow进行语音识别,并计划使用海浪数据集训练LSTM NN。由于性能提高,我计划使用tfrecords。互联网上有几个示例(例如Inception),其中tfrecords文件被拆分为多个碎片。我的问题是:将tfrecords文件放入分片有什么好处?此拆分是否有其他性能提升?



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.