数据科学 python

2

我使用scipy.optimize.minimize（共轭梯度）优化功能在python中构建了一个人工神经网络。我已经实施了梯度检查，仔细检查了所有内容，等等，我确定它可以正常工作。我已经运行了几次，它达到了“优化成功终止”，但是当我增加隐藏层的数量时，假设成功终止后，假设的成本增加了（其他所有条件保持不变）。凭直觉，似乎随着增加隐藏层的数量，成本应该降低，因为它能够生成更复杂的假设，可以更好地拟合数据，但是事实并非如此。我很想了解这里发生的事情，或者我是否正确实施了神经网络？

10 machine-learning python neural-network

1

为什么我的Keras模型会学会识别背景？

我正在尝试使用预训练的模型（也在该数据集上进行训练）在Pascal VOC2012上训练Deeplabv3 +的Keras实现。我得到了奇怪的结果，其准确度迅速收敛到1.0： 5/5 [==============================] - 182s 36s/step - loss: 26864.4418 - acc: 0.7669 - val_loss: 19385.8555 - val_acc: 0.4818 Epoch 2/3 5/5 [==============================] - 77s 15s/step - loss: 42117.3555 - acc: 0.9815 - val_loss: 69088.5469 - val_acc: 0.9948 Epoch 3/3 5/5 [==============================] - 78s 16s/step - loss: 45300.6992 …

9 python deep-learning keras tensorflow

1

数据不平衡导致多类数据集分类错误

我正在研究文本分类，这里有39个类别/类和850万条记录。（未来的数据和类别将会增加）。我的数据的结构或格式如下。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

9 machine-learning python classification scikit-learn multiclass-classification

1

HDF5是否可以通过单独的python进程可靠地同时写入和读取？

我正在编写一个脚本，将一段时间后的实时数据记录到一个HDF5文件中，该文件包括该项目的整个数据集。我正在使用Python 3.6，并决定创建一个click用于收集数据的命令行工具。我担心的是，如果数据收集脚本正在写入HDF5文件，而尚待开发的ML应用程序尝试从同一文件中读取数据，将会发生什么？我看了HDF Group关于HDF5并行I / O的文档，但这并没有真正为我弄清楚。

9 python dataset

2

为什么学习率导致我的神经网络的权重急剧上升？

我正在使用tensorflow编写简单的神经网络以进行一些研究，并且在训练时遇到“ nan”权重的许多问题。我尝试了许多不同的解决方案，例如更改优化器，更改丢失，数据大小等，但无济于事。最后，我注意到学习速度的变化使我的体重产生了难以置信的变化。使用.001（我认为是非常保守的）的学习率，最小化函数实际上将成倍地增加损失。一个世纪之后，损失可能从数千个跃升至一万亿个，然后达到无穷大（'nan'）。当我将学习率降低到.0001时，一切正常。 1）为什么单个数量级会产生这种影响？ 2）为什么最小化函数实际上会执行与其功能相反的操作，并使损失最大化？在我看来，无论学习速度如何，都不应该发生这种情况。

9 machine-learning python tensorflow optimization gradient-descent

3

从Scikit-Learn中的Random Forest Regressor导出权重（公式）

我使用Scikit Learn in Python（Random Forest Regressor）训练了一个预测模型，我想以某种方式提取每个功能的权重，以创建一个用于手动预测的excel工具。我发现的唯一东西是，model.feature_importances_但无济于事。有什么办法可以实现？ def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model mse = np.mean(( predicted - …

9 python predictive-modeling regression random-forest scikit-learn

7

可以计算混淆矩阵以进行多标签分类的Python库

我正在寻找可以为多标签分类计算混淆矩阵的Python库。仅供参考： scikit-learn 不支持混淆矩阵的多标签） Multiclass和Multilabel问题有什么区别

9 python software-recommendation multilabel-classification

2

Python中的多元线性回归

我正在寻找实现多元线性回归的Python包。（术语注释：多元回归处理的情况是一个以上因变量，而多元回归处理的情况是一个因变量但一个以上自变量。）

9 python regression library software-recommendation

1

如何从Pandas数据框中对多值分类变量进行二进制编码？

假设我们具有以下数据框，其中特定列具有多个值： categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] 我们如何获得这样的桌子？ "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 - 0 1 0 1 注意：我不一定需要新的数据框，我想知道如何将此类数据框转换为更适合机器学习的格式。

9 python pandas

2

在python中实现互补朴素贝叶斯？

问题我曾尝试在标记的犯罪数据集上使用朴素贝叶斯，但结果却很差（准确性为7％）。朴素贝叶斯的运行速度比我一直在使用的其他算法要快得多，因此我想尝试找出分数为何如此之低的原因。研究阅读后，我发现朴素贝叶斯应与平衡数据集一起使用，因为它偏向于频率较高的类。由于我的数据不平衡，因此我想尝试使用互补朴素贝叶斯，因为它专门用于处理数据偏斜。在描述该过程的论文中，该应用程序用于文本分类，但是我不明白为什么该技术在其他情况下不起作用。您可以在这里找到我所指的论文。简而言之，想法是根据类未出现的情况使用权重。经过一些研究，我能够找到Java的实现，但是不幸的是，我不了解任何Java，只是我对算法的理解不足以实现自己。题在哪里可以找到python的实现？如果不存在，我应该如何自己实施呢？

9 machine-learning classification python naive-bayes-classifier

2

使用从潜在Dirichlet分配派生的主题对文档进行聚类

我想将Latent Dirichlet Allocation用于项目，并且将gensim库与Python一起使用。找到主题之后，我想使用诸如k-means之类的算法对文档进行聚类（理想情况下，我想对重叠的聚类使用一个好的聚类，因此欢迎提出任何建议）。我设法得到了主题，但它们的形式为： 0.041 *部长+ 0.041 *按键+ 0.041 *瞬间+ 0.041 *有争议的+ 0.041 *总理为了应用聚类算法并在错误的情况下纠正我，我相信我应该找到一种使用tfidf或word2vec将每个单词表示为数字的方法。您是否对如何从列表中“剥离”文本信息有什么想法，然后再放回它们以进行适当的乘法？例如，如果我看到“部长”一词的tfidf权重为0.042，以此类推，那么对于同一主题内的任何其他单词，我应该这样计算： 0.041 * 0.42 + ... + 0.041 * tfidf（Prime）并获得稍后将用于聚类结果的结果。感谢您的时间。

9 python clustering lda

2

当我的训练集中没有y负值时，为什么Gradient Boosting回归预测负值？

当我增加树木的数量在scikit学习的GradientBoostingRegressor，我得到更多的负面预测，即使在我的训练或测试组没有负值。我有大约10个功能，其中大多数是二进制的。我正在调整的一些参数是：树木/迭代次数；学习深度；和学习率。负值的百分比似乎最大约为2％。1（树桩）的学习深度似乎是负值的最大百分比。随着树木的增多和学习率的降低，这一百分比似乎也有所增加。该数据集来自kaggle游乐场比赛之一。我的代码是这样的： from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = reg.predict(X_test)

8 machine-learning python algorithms scikit-learn kaggle

2

在CNN模型中使用更多图层时出现内存错误

在我的Dell Core i7-16GB RAM-4gb 960m GPU笔记本电脑上，我正在使用3d CNN对肺部CT图像进行分类的项目。我正在使用Tensorflow的CPU版本。图像准备为numpy数组大小（25,50,50）。我的CNN模型具有2个转换层，2个maxpool层，1个FC层和输出层。通过这种架构，我可以训练大约（5000至6000）个样本的模型。添加更多层后，我的模型现在具有6个转换层，3个最大池层，FC和输出层。我的问题是在更改架构后，仅使用了1000多个样本，我的内存被填满，并且出现内存错误。我试图做较小的批次，但是每次都会出现相同的错误。我有两个问题：为什么通过添加更多层，模型需要更多内存？有什么办法可以解决这类问题？

7 python tensorflow cnn

Questions tagged «python»