将pandas数据框中的列从int转换为string


106

我在pandas中有一个数据帧,其中包含int和str数据列。我想先串联数据框内的列。为此,我必须将int列转换为str。我尝试做如下:

mtrx['X.3'] = mtrx.to_string(columns = ['X.3'])

要么

mtrx['X.3'] = mtrx['X.3'].astype(str)

但是在两种情况下都无法正常工作,并且我收到一条错误消息:“无法连接'str'和'int'对象”。连接两str列效果很好。


Answers:


137
In [16]: df = DataFrame(np.arange(10).reshape(5,2),columns=list('AB'))

In [17]: df
Out[17]: 
   A  B
0  0  1
1  2  3
2  4  5
3  6  7
4  8  9

In [18]: df.dtypes
Out[18]: 
A    int64
B    int64
dtype: object

转换系列

In [19]: df['A'].apply(str)
Out[19]: 
0    0
1    2
2    4
3    6
4    8
Name: A, dtype: object

In [20]: df['A'].apply(str)[0]
Out[20]: '0'

不要忘记将结果分配回去:

df['A'] = df['A'].apply(str)

转换整个框架

In [21]: df.applymap(str)
Out[21]: 
   A  B
0  0  1
1  2  3
2  4  5
3  6  7
4  8  9

In [22]: df.applymap(str).iloc[0,0]
Out[22]: '0'

df = df.applymap(str)

3
我真的不明白为什么,但是mtrx ['X.3']。apply(str)对我也不起作用:( dtype仍然显示int64。23177行和X.3列的数据框只有数字。 [21]:mtrx ['X.3']。dtype输出[21]:dtype('int64')
Malfet

0.7.0,在Ubuntu系统上带有python 2.7
Malfet 2013年

当前版本是0.12,应该升级。
杰夫,

df ['A']。apply(str)无法正常工作。但是df.column_name = df.column_name.astype(str)有效。不知道为什么。
德米特里·科诺瓦洛夫'18

1
python字符串中的@DmitryKonovalov是不可变的,因此,每当操作数据时,都必须将结果放回到变量中。
斯里拉姆·阿文德·拉什曼库玛

92

更改DataFrame列的数据类型:

要诠释:

df.column_name = df.column_name.astype(np.int64)

要str:

df.column_name = df.column_name.astype(str)


7
这很吸引人,但是apply(str)在使用的测试中,它比@Jeff 慢4倍pd.Series(np.arange(1000000))
John Zwinck

2
这对我有用。df['A'] = df['A'].apply(str)也可以。@Jeff提供的答案对我不起作用。
tommy.carstensen

1
关于@JohnZwinck的评论,使用Python3似乎更像是使用2倍,apply()而不是astype():timeit.Timer('c.apply(str)',setup ='import pandas as pd; c = pd.Series(range( 1000))')。timeit(1000)>>> 0.41499893204309046 >>> timeit.Timer('c.astype(str)',setup ='import pandas as pd; c = pd.Series(range(1000))' ).timeit(1000)0.8004439630312845
hamx0r

15

警告:给定的两个解决方案 astype()和apply()都不以nan或None形式保留NULL值。

import pandas as pd
import numpy as np

df = pd.DataFrame([None,'string',np.nan,42], index=[0,1,2,3], columns=['A'])

df1 = df['A'].astype(str)
df2 =  df['A'].apply(str)

print df.isnull()
print df1.isnull()
print df2.isnull()

我相信这是由to_string()的实现解决的


1
to_string允许您选择Nan的处理方式,例如返回空字符串而不是'
Nan'– seanv507

1
(我并没有不同意,只是在谈您所说的内容)–想说+1
seanv507


0

仅供参考。

以上所有答案均适用于数据帧的情况。但是,如果您在创建/修改列时使用lambda,则此方法将不起作用,因为在那里将其视为int属性而不是pandas系列。您必须使用str(target_attribute)使其成为字符串。请参考以下示例。

def add_zero_in_prefix(df):
    if(df['Hour']<10):
        return '0' + str(df['Hour'])

data['str_hr'] = data.apply(add_zero_in_prefix, axis=1)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.