两个熊猫列的字符串串联


84

我有以下内容DataFrame

from pandas import *
df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]})

看起来像这样:

    bar foo
0    1   a
1    2   b
2    3   c

现在我想拥有类似的东西:

     bar
0    1 is a
1    2 is b
2    3 is c

我该如何实现?我尝试了以下方法:

df['foo'] = '%s is %s' % (df['bar'], df['foo'])

但这给我一个错误的结果:

>>>print df.ix[0]

bar                                                    a
foo    0    a
1    b
2    c
Name: bar is 0    1
1    2
2
Name: 0

抱歉,您有一个愚蠢的问题,但这只熊猫:在DataFrame中合并两列对我没有帮助。

Answers:



65

这个问题已经得到了回答,但是我相信最好将一些以前没有讨论过的有用方法混入混合物中,并从性能上比较迄今为止提出的所有方法。

以下是按性能递增顺序解决此问题的一些有用方法。


DataFrame.agg

这是一种简单str.format的方法。

df['baz'] = df.agg('{0[bar]} is {0[foo]}'.format, axis=1)
df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

您还可以在此处使用f字符串格式:

df['baz'] = df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

char.array基于的级联

将这些列转换为chararrays,然后将它们添加在一起。

a = np.char.array(df['bar'].values)
b = np.char.array(df['foo'].values)

df['baz'] = (a + b' is ' + b).astype(str)
df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

列表理解zip

我不能高估熊猫的列表理解程度。

df['baz'] = [str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])]

或者,使用str.joinconcat(也可以更好地扩展):

df['baz'] = [
    ' '.join([str(x), 'is', y]) for x, y in zip(df['bar'], df['foo'])]

df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

列表理解在字符串操作方面表现出色,因为字符串操作本来就难以向量化,并且大多数熊猫“向量化”函数基本上都是循环的包装器。我在For循环与熊猫中写了很多有关该主题的文章-什么时候应该关心?。通常,如果您不必担心索引对齐,请在处理字符串和正则表达式操作时使用列表理解。

默认情况下,上面的list comp不处理NaN。但是,您始终可以编写包装try-except的函数,除非需要处理它。

def try_concat(x, y):
    try:
        return str(x) + ' is ' + y
    except (ValueError, TypeError):
        return np.nan


df['baz'] = [try_concat(x, y) for x, y in zip(df['bar'], df['foo'])]

perfplot 绩效评估

在此处输入图片说明

使用perfplot生成的图。这是完整的代码清单

职能

def brenbarn(df):
    return df.assign(baz=df.bar.map(str) + " is " + df.foo)

def danielvelkov(df):
    return df.assign(baz=df.apply(
        lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1))

def chrimuelle(df):
    return df.assign(
        baz=df['bar'].astype(str).str.cat(df['foo'].values, sep=' is '))

def vladimiryashin(df):
    return df.assign(baz=df.astype(str).apply(lambda x: ' is '.join(x), axis=1))

def erickfis(df):
    return df.assign(
        baz=df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1))

def cs1_format(df):
    return df.assign(baz=df.agg('{0[bar]} is {0[foo]}'.format, axis=1))

def cs1_fstrings(df):
    return df.assign(baz=df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1))

def cs2(df):
    a = np.char.array(df['bar'].values)
    b = np.char.array(df['foo'].values)

    return df.assign(baz=(a + b' is ' + b).astype(str))

def cs3(df):
    return df.assign(
        baz=[str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])])

4
这就是我一直想了解的有关熊猫中字符串串联的全部信息,但又太害怕了!
IanS

您能否将图更新到下一个10 4(甚至更高)级别,将当前图限制为10 3(1000在今天的情况下很小)的快速视觉答案是cs3是最好的,最终当您看到brenbarn看起来比cs3的指数少,因此,对于大型数据集,brenbarn最有可能(最好)答案。
Velizar VESSELINOV

1
@VelizarVESSELINOV更新!令我惊讶的是,numpy的连接速度比list comp和pandas的连接速度慢。
cs95

1
您考虑过使用df['bar'].tolist()df['foo'].tolist()incs3()吗?我的猜测是,它将稍微增加“基本”时间,但会更好地扩展。
shadowtalker

44

代码中的问题是您想在每一行上应用该操作。不过,您编写的方式需要整个'bar'和'foo'列,将它们转换为字符串,然后再给您一个大字符串。您可以这样写:

df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)

它比其他答案更长,但更通用(可用于非字符串值)。


13

您也可以使用

df['bar'] = df['bar'].str.cat(df['foo'].values.astype(str), sep=' is ')

1
这不起作用,因为df ['bar']不是字符串列。正确的分配是df['bar'] = df['bar'].astype(str).str.cat(df['foo'], sep=' is ')
cbrnr

8
df.astype(str).apply(lambda x: ' is '.join(x), axis=1)

0    1 is a
1    2 is b
2    3 is c
dtype: object

此答案还适用于不确定的列数(> 1)和不确定的列名,使其比其他列更有用。
johnDanger

4

@DanielVelkov答案是使用字符串文字的正确方法,但速度更快:

# Daniel's
%timeit df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)
## 963 µs ± 157 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# String literals - python 3
%timeit df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
## 849 µs ± 4.28 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

4

series.str.cat 是解决此问题的最灵活的方法:

对于 df = pd.DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]})

df.foo.str.cat(df.bar.astype(str), sep=' is ')

>>>  0    a is 1
     1    b is 2
     2    c is 3
     Name: foo, dtype: object

要么

df.bar.astype(str).str.cat(df.foo, sep=' is ')

>>>  0    1 is a
     1    2 is b
     2    3 is c
     Name: bar, dtype: object

最重要的是(与不同.join()),这使您可以忽略或用参数替换Nullna_rep


为什么不包装此功能.join()使我
感到
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.