程序设计 neuraxle

scikit-learn中跨多列的标签编码

我正在尝试使用scikit-learn LabelEncoder来编码一大串DataFrame字符串标签。由于数据框有许多（50+）列，因此我想避免LabelEncoder为每一列创建一个对象。我宁愿只有一个LabelEncoder可以在我所有数据列中使用的大对象。将整个数据DataFrame投入LabelEncoder会产生以下错误。请记住，我在这里使用伪数据。实际上，我正在处理大约50列的字符串标记数据，因此需要一个不按名称引用任何列的解决方案。 import pandas from sklearn import preprocessing df = pandas.DataFrame({ 'pets': ['cat', 'dog', 'cat', 'monkey', 'dog', 'dog'], 'owner': ['Champ', 'Ron', 'Brick', 'Champ', 'Veronica', 'Ron'], 'location': ['San_Diego', 'New_York', 'New_York', 'San_Diego', 'San_Diego', 'New_York'] }) le = preprocessing.LabelEncoder() le.fit(df) 追溯（最近一次通话最近）：文件“ /Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/preprocessing/label.py”中的第1行，第103行，适合= column_or_1d的第306行“ column_or_1d（y，warn = True）文件“ /Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/utils/validation.py”引发ValueError（“错误的输入形状{ 0}“。format（shape））ValueError：输入形状错误（6，3）关于如何解决这个问题有什么想法吗？

216 python pandas scikit-learn neuraxle

Python-sklearn.pipeline.Pipeline到底是什么？

我不知道如何sklearn.pipeline.Pipeline工作。在文档中有一些解释。例如，它们的意思是：带有最终估算器的变换管线。为了使我的问题更清楚，什么是steps？它们如何运作？编辑多亏了答案，我可以使我的问题更清楚：当我调用管道并通过时，需要两个转换器和一个估计器，例如： pipln = Pipeline([("trsfm1",transformer_1), ("trsfm2",transformer_2), ("estmtr",estimator)]) 我叫这个怎么办？ pipln.fit() OR pipln.fit_transform() 我不知道估算器如何成为变压器以及如何装配变压器。

118 python machine-learning scikit-learn neuraxle

Questions tagged «neuraxle»