在我的数据集中,我想列举两个分类列。两列都包含国家,有些重叠(出现在两列中)。我想在同一国家的column1和column2中给出相同的数字。
我的数据看起来像:
import pandas as pd
d = {'col1': ['NL', 'BE', 'FR', 'BE'], 'col2': ['BE', 'NL', 'ES', 'ES']}
df = pd.DataFrame(data=d)
df
目前,我正在像这样转换数据:
from sklearn.preprocessing import LabelEncoder
df.apply(LabelEncoder().fit_transform)
但是,这在FR和ES之间没有区别。是否有另一种简单的方法可以得到以下输出?
o = {'col1': [2,0,1,0], 'col2': [0,2,4,4]}
output = pd.DataFrame(data=o)
output