程序设计 scikit-learn

20

我正在尝试使用scikit-learn LabelEncoder来编码一大串DataFrame字符串标签。由于数据框有许多（50+）列，因此我想避免LabelEncoder为每一列创建一个对象。我宁愿只有一个LabelEncoder可以在我所有数据列中使用的大对象。将整个数据DataFrame投入LabelEncoder会产生以下错误。请记住，我在这里使用伪数据。实际上，我正在处理大约50列的字符串标记数据，因此需要一个不按名称引用任何列的解决方案。 import pandas from sklearn import preprocessing df = pandas.DataFrame({ 'pets': ['cat', 'dog', 'cat', 'monkey', 'dog', 'dog'], 'owner': ['Champ', 'Ron', 'Brick', 'Champ', 'Veronica', 'Ron'], 'location': ['San_Diego', 'New_York', 'New_York', 'San_Diego', 'San_Diego', 'New_York'] }) le = preprocessing.LabelEncoder() le.fit(df) 追溯（最近一次通话最近）：文件“ /Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/preprocessing/label.py”中的第1行，第103行，适合= column_or_1d的第306行“ column_or_1d（y，warn = True）文件“ /Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/utils/validation.py”引发ValueError（“错误的输入形状{ 0}“。format（shape））ValueError：输入形状错误（6，3）关于如何解决这个问题有什么想法吗？

216 python pandas scikit-learn neuraxle

12

如何在NumPy中标准化数组？

我想拥有一个NumPy数组的规范。更具体地说，我正在寻找此功能的等效版本 def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm skearn或中有类似的东西numpy吗？该函数在v向量为0 的情况下起作用。

202 python numpy scikit-learn statistics normalization

6

将分类器保存到scikit-learn中的磁盘

如何保存经过训练的朴素贝叶斯分类器到磁盘并用于预测数据？我有来自scikit-learn网站的以下示例程序： from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % (iris.target != y_pred).sum()

191 python machine-learning scikit-learn classification

15

ImportError：没有名为sklearn.cross_validation的模块

我在Ubuntu 14.04中使用python 2.7。我使用以下命令安装了scikit-learn，numpy和matplotlib： sudo apt-get install build-essential python-dev python-numpy \ python-numpy-dev python-scipy libatlas-dev g++ python-matplotlib \ ipython 但是当我导入这些包时： from sklearn.cross_validation import train_test_split 它向我返回此错误： ImportError: No module named sklearn.cross_validation 我需要做什么？

174 python scikit-learn

7

是否可以使用scikit-learn K-Means聚类指定自己的距离函数？

172 python machine-learning cluster-analysis k-means scikit-learn

10

python中是否存在针对均方根误差（RMSE）的库函数？

我知道我可以像这样实现均方根误差函数： def rmse(predictions, targets): return np.sqrt(((predictions - targets) ** 2).mean()) 如果此rmse函数在某个地方的某个库中实现（可能在scipy或scikit-learn中实现），我正在寻找什么？

157 python scikit-learn scipy

21

如何从scikit-learn决策树中提取决策规则？

我可以从决策树中经过训练的树中提取出基本的决策规则（或“决策路径”）作为文本列表吗？就像是： if A>0.4 then if B<0.2 then if C>0.8 then class='X' 谢谢你的帮助。

156 python machine-learning scikit-learn decision-tree random-forest

9

在scikit学习LinearRegression中找到p值（重要性）

如何找到每个系数的p值（重要性）？ lm = sklearn.linear_model.LinearRegression() lm.fit(x,y)

154 python numpy statistics scikit-learn regression

10

RuntimeWarning：numpy.dtype大小已更改，可能表明二进制不兼容

我尝试加载已保存的SVM模型时遇到此错误。我尝试卸载sklearn，NumPy和SciPy，然后再次重新安装最新版本（使用pip）。我仍然收到此错误。为什么？ In [1]: import sklearn; print sklearn.__version__ 0.18.1 In [3]: import numpy; print numpy.__version__ 1.11.2 In [5]: import scipy; print scipy.__version__ 0.18.1 In [7]: import pandas; print pandas.__version__ 0.19.1 In [10]: clf = joblib.load('model/trained_model.pkl') --------------------------------------------------------------------------- RuntimeWarning Traceback (most recent call last) <ipython-input-10-5e5db1331757> in <module>() ----> 1 clf = joblib.load('sentiment_classification/model/trained_model.pkl') /usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/numpy_pickle.pyc …

148 python numpy scikit-learn

6

Scikit学习中的随机状态（伪随机数）

我想在scikit learning中实现机器学习算法，但我不明白此参数的random_state作用？我为什么要使用它？我也无法理解什么是伪随机数。

148 python scikit-learn

5

如何将数据分为3组（训练，验证和测试）？

我有一个熊猫数据框，我希望将其分为3组。我知道使用train_test_split从sklearn.cross_validation，一个可以在两个集（训练集和测试）分割数据。但是，我找不到将数据分为三组的任何解决方案。最好是，我想拥有原始数据的索引。我知道一种解决方法是使用train_test_split两次并以某种方式调整索引。但是，是否存在更标准/内置的方式将数据分为3组而不是2组？

145 pandas numpy dataframe machine-learning scikit-learn

6

用sklearn缩放的pandas数据框列

我有一个带有混合类型列的pandas数据框，我想将sklearn的min_max_scaler应用于某些列。理想情况下，我想就地进行这些转换，但还没有找到一种方法来进行。我编写了以下有效的代码： import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']}) min_max_scaler = preprocessing.MinMaxScaler() def scaleColumns(df, cols_to_scale): for col in cols_to_scale: df[col] = pd.DataFrame(min_max_scaler.fit_transform(pd.DataFrame(dfTest[col])),columns=[col]) return df dfTest A B C 0 14.00 103.02 big 1 90.20 107.26 small 2 90.95 110.35 …

137 python pandas scikit-learn dataframe

3

为什么一种热编码可以提高机器学习性能？

我注意到，将One Hot编码用于特定数据集（矩阵）并用作学习算法的训练数据时，与使用原始矩阵本身作为训练数据相比，它在预测准确性方面具有明显更好的结果。如何提高性能？

127 machine-learning data-mining scikit-learn data-analysis

13

sklearn错误ValueError：输入包含NaN，无穷大或对于dtype（'float64'）而言太大的值

我正在使用sklearn，并且亲和力传播存在问题。我建立了一个输入矩阵，并且不断收到以下错误。 ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). 我跑了 np.isnan(mat.any()) #and gets False np.isfinite(mat.all()) #and gets True 我尝试使用 mat[np.isfinite(mat) == True] = 0 删除无限值，但这也不起作用。我该怎么做才能摆脱矩阵中的无限值，以便可以使用亲和力传播算法？我正在使用anaconda和python 2.7.9。

127 python python-2.7 scikit-learn valueerror

6

如何确定RandomForestClassifier中的feature_importances？

我有一个按时间序列作为数据输入的分类任务，其中每个属性（n = 23）代表一个特定的时间点。除了绝对分类结果之外，我还想知道，哪些属性/日期对结果有多大程度的贡献。因此，我只是使用feature_importances_，对我来说效果很好。但是，我想知道如何计算它们以及使用哪种度量/算法。不幸的是，我找不到有关此主题的任何文档。

125 scikit-learn random-forest feature-selection

Questions tagged «scikit-learn»