10
在scikit-learn中估算分类缺失值
我有一些文本类型的列的熊猫数据。这些文本列中包含一些NaN值。我想做的是通过sklearn.preprocessing.Imputer(用最常用的值替换NaN )来估算这些NaN 。问题在于实施。假设有一个具有30列的Pandas数据框df,其中10列属于分类性质。一旦我运行: from sklearn.preprocessing import Imputer imp = Imputer(missing_values='NaN', strategy='most_frequent', axis=0) imp.fit(df) Python会生成一个error: 'could not convert string to float: 'run1'',其中'run1'是带有分类数据的第一列中的普通(不丢失)值。 任何帮助将非常欢迎