Questions tagged «python»

用于与编程语言Python相关的数据科学问题。不适用于一般编码问题(-> stackoverflow)。

2
调试神经网络
我使用scipy.optimize.minimize(共轭梯度)优化功能在python中构建了一个人工神经网络。 我已经实施了梯度检查,仔细检查了所有内容,等等,我确定它可以正常工作。 我已经运行了几次,它达到了“优化成功终止”,但是当我增加隐藏层的数量时,假设成功终止后,假设的成本增加了(其他所有条件保持不变)。 凭直觉,似乎随着增加隐藏层的数量,成本应该降低,因为它能够生成更复杂的假设,可以更好地拟合数据,但是事实并非如此。 我很想了解这里发生的事情,或者我是否正确实施了神经网络?

1
为什么我的Keras模型会学会识别背景?
我正在尝试使用预训练的模型(也在该数据集上进行训练)在Pascal VOC2012上训练Deeplabv3 +的Keras实现。 我得到了奇怪的结果,其准确度迅速收敛到1.0: 5/5 [==============================] - 182s 36s/step - loss: 26864.4418 - acc: 0.7669 - val_loss: 19385.8555 - val_acc: 0.4818 Epoch 2/3 5/5 [==============================] - 77s 15s/step - loss: 42117.3555 - acc: 0.9815 - val_loss: 69088.5469 - val_acc: 0.9948 Epoch 3/3 5/5 [==============================] - 78s 16s/step - loss: 45300.6992 …

1
数据不平衡导致多类数据集分类错误
我正在研究文本分类,这里有39个类别/类和850万条记录。(未来的数据和类别将会增加)。 我的数据的结构或格式如下。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

1
HDF5是否可以通过单独的python进程可靠地同时写入和读取?
我正在编写一个脚本,将一段时间后的实时数据记录到一个HDF5文件中,该文件包括该项目的整个数据集。我正在使用Python 3.6,并决定创建一个click用于收集数据的命令行工具。 我担心的是,如果数据收集脚本正在写入HDF5文件,而尚待开发的ML应用程序尝试从同一文件中读取数据,将会发生什么? 我看了HDF Group关于HDF5并行I / O的文档,但这并没有真正为我弄清楚。
9 python  dataset 

2
为什么学习率导致我的神经网络的权重急剧上升?
我正在使用tensorflow编写简单的神经网络以进行一些研究,并且在训练时遇到“ nan”权重的许多问题。我尝试了许多不同的解决方案,例如更改优化器,更改丢失,数据大小等,但无济于事。最后,我注意到学习速度的变化使我的体重产生了难以置信的变化。 使用.001(我认为是非常保守的)的学习率,最小化函数实际上将成倍地增加损失。一个世纪之后,损失可能从数千个跃升至一万亿个,然后达到无穷大('nan')。当我将学习率降低到.0001时,一切正常。 1)为什么单个数量级会产生这种影响? 2)为什么最小化函数实际上会执行与其功能相反的操作,并使损失最大化?在我看来,无论学习速度如何,都不应该发生这种情况。

3
从Scikit-Learn中的Random Forest Regressor导出权重(公式)
我使用Scikit Learn in Python(Random Forest Regressor)训练了一个预测模型,我想以某种方式提取每个功能的权重,以创建一个用于手动预测的excel工具。 我发现的唯一东西是,model.feature_importances_但无济于事。 有什么办法可以实现? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model mse = np.mean(( predicted - …



1
如何从Pandas数据框中对多值分类变量进行二进制编码?
假设我们具有以下数据框,其中特定列具有多个值: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] 我们如何获得这样的桌子? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 - 0 1 0 1 注意:我不一定需要新的数据框,我想知道如何将此类数据框转换为更适合机器学习的格式。
9 python  pandas 

2
在python中实现互补朴素贝叶斯?
问题 我曾尝试在标记的犯罪数据集上使用朴素贝叶斯,但结果却很差(准确性为7%)。朴素贝叶斯的运行速度比我一直在使用的其他算法要快得多,因此我想尝试找出分数为何如此之低的原因。 研究 阅读后,我发现朴素贝叶斯应与平衡数据集一起使用,因为它偏向于频率较高的类。由于我的数据不平衡,因此我想尝试使用互补朴素贝叶斯,因为它专门用于处理数据偏斜。在描述该过程的论文中,该应用程序用于文本分类,但是我不明白为什么该技术在其他情况下不起作用。您可以在这里找到我所指的论文。简而言之,想法是根据类未出现的情况使用权重。 经过一些研究,我能够找到Java的实现,但是不幸的是,我不了解任何Java,只是我对算法的理解不足以实现自己。 题 在哪里可以找到python的实现?如果不存在,我应该如何自己实施呢?

2
使用从潜在Dirichlet分配派生的主题对文档进行聚类
我想将Latent Dirichlet Allocation用于项目,并且将gensim库与Python一起使用。找到主题之后,我想使用诸如k-means之类的算法对文档进行聚类(理想情况下,我想对重叠的聚类使用一个好的聚类,因此欢迎提出任何建议)。我设法得到了主题,但它们的形式为: 0.041 *部长+ 0.041 *按键+ 0.041 *瞬间+ 0.041 *有争议的+ 0.041 *总理 为了应用聚类算法并在错误的情况下纠正我,我相信我应该找到一种使用tfidf或word2vec将每个单词表示为数字的方法。 您是否对如何从列表中“剥离”文本信息有什么想法,然后再放回它们以进行适当的乘法? 例如,如果我看到“部长”一词的tfidf权重为0.042,以此类推,那么对于同一主题内的任何其他单词,我应该这样计算: 0.041 * 0.42 + ... + 0.041 * tfidf(Prime)并获得稍后将用于聚类结果的结果。 感谢您的时间。

2
当我的训练集中没有y负值时,为什么Gradient Boosting回归预测负值?
当我增加树木的数量在scikit学习的GradientBoostingRegressor,我得到更多的负面预测,即使在我的训练或测试组没有负值。我有大约10个功能,其中大多数是二进制的。 我正在调整的一些参数是: 树木/迭代次数; 学习深度; 和学习率。 负值的百分比似乎最大约为2%。1(树桩)的学习深度似乎是负值的最大百分比。随着树木的增多和学习率的降低,这一百分比似乎也有所增加。该数据集来自kaggle游乐场比赛之一。 我的代码是这样的: from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = reg.predict(X_test)

2
在CNN模型中使用更多图层时出现内存错误
在我的Dell Core i7-16GB RAM-4gb 960m GPU笔记本电脑上,我正在使用3d CNN对肺部CT图像进行分类的项目。我正在使用Tensorflow的CPU版本。图像准备为numpy数组大小(25,50,50)。 我的CNN模型具有2个转换层,2个maxpool层,1个FC层和输出层。通过这种架构,我可以训练大约(5000至6000)个样本的模型。添加更多层后,我的模型现在具有6个转换层,3个最大池层,FC和输出层。我的问题是在更改架构后,仅使用了1000多个样本,我的内存被填满,并且出现内存错误。我试图做较小的批次,但是每次都会出现相同的错误。我有两个问题: 为什么通过添加更多层,模型需要更多内存? 有什么办法可以解决这类问题?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.