重命名熊猫中的特定列

180

我有一个名为的数据框data。如何重命名唯一的一列标题？例如gdp到log(gdp)？

data =
    y  gdp  cap
0   1    2    5
1   2    3    9
2   8    7    2
3   3    4    7
4   6    7    7
5   4    8    3
6   8    2    8
7   9    9   10
8   6    6    4
9  10   10    7

— 夏木2002
source

7

确实存在重叠，但是“重命名熊猫中的列”对我来说还不是很清楚，您可以选择一个单独的列元素进行重命名。当然，回想起来很明显，如果我更深入地研究，我可能会想出来的，但是我认为这个问题/答案更好地指出了这一点。

— jeremiahbuddha

356

data.rename(columns={'gdp':'log(gdp)'}, inplace=True)

在rename它接受一个字典作为一个PARAM演出columns，所以你只是传递一个字典一次入境。

另请参阅相关

— 埃德·楚姆
source

3

在大数据帧上这会花费很长时间，因此我相信这会在内存中复制整个数据帧吗？

— elgehelge，2015年

1

@elgehelge它不应该这样做，大多数熊猫操作都会返回一个副本，并且某些人接受一个inplace参数，如果它忽略了这个参数，那么这就是一个错误，您是否可以在有无参数的情况下进行计时，还可以尝试类似的操作new_df = df.rename(columns={'new_name':'old_name'})，看看是否是更快还是没有

— EdChum

1

@ EdChum谢谢。删除inplace参数几乎使时间从14秒增加了一倍，达到26秒。但14秒仍然相当长一段时间只是为了改变标题..

— elgehelge

2

请注意，请注意！如果目标列不存在（拼写名称左右），这将不执行任何操作而不会出现错误或警告。

— 阿米尔（Amir）

1

@Quastiat令人沮丧的是，为什么这些简单的操作中的某些操作会通过列表理解而变得更快。尽管从根本上来说，除非您有一个很大的df，否则除非您在一个大的df上重命名很多列，否则这没什么关系

— EdChum

27

list-comprehension如果您需要重命名单个列，则将使用更快的实现。

df.columns = ['log(gdp)' if x=='gdp' else x for x in df.columns]

如果需要重命名多个列，请使用以下条件表达式：

df.columns = ['log(gdp)' if x=='gdp' else 'cap_mod' if x=='cap' else x for x in df.columns]

或者，使用a构造映射dictionary并通过将默认值设置为旧名称来list-comprehension对其执行get操作：

col_dict = {'gdp': 'log(gdp)', 'cap': 'cap_mod'}   ## key→old name, value→new name

df.columns = [col_dict.get(x, x) for x in df.columns]

时间：

%%timeit
df.rename(columns={'gdp':'log(gdp)'}, inplace=True)
10000 loops, best of 3: 168 µs per loop

%%timeit
df.columns = ['log(gdp)' if x=='gdp' else x for x in df.columns]
10000 loops, best of 3: 58.5 µs per loop

— 尼克·马维利（Nickil Maveli）
source

我喜欢使用这种方法，但遗憾的是它不工作，pd.merge_asof()因为它是一个表达式:(。

— thdoan

13

如何重命名熊猫中的特定列？

从v0.24 +起，要一次重命名一列（或多列），

DataFrame.rename()用axis=1或axis='columns'（该axis参数是在v0.21。
Index.str.replace() 用于基于字符串/正则表达式的替换。

如果您需要一次重命名所有列，

DataFrame.set_axis()的方法axis=1。传递类似列表的序列。选项也可用于就地修改。

`rename` 与 `axis=1`

df = pd.DataFrame('x', columns=['y', 'gdp', 'cap'], index=range(5))
df

   y gdp cap
0  x   x   x
1  x   x   x
2  x   x   x
3  x   x   x
4  x   x   x

使用0.21+，您现在可以使用来指定axis参数rename：

df.rename({'gdp':'log(gdp)'}, axis=1)
# df.rename({'gdp':'log(gdp)'}, axis='columns')
    
   y log(gdp) cap
0  x        x   x
1  x        x   x
2  x        x   x
3  x        x   x
4  x        x   x

（请注意，rename默认情况下它不是就地的，因此您需要将结果分配回去。）

进行此添加是为了提高与其他API的一致性。新axis参数类似于该columns参数，它们执行相同的操作。

df.rename(columns={'gdp': 'log(gdp)'})

   y log(gdp) cap
0  x        x   x
1  x        x   x
2  x        x   x
3  x        x   x
4  x        x   x

rename 还接受为每个列调用一次的回调。

df.rename(lambda x: x[0], axis=1)
# df.rename(lambda x: x[0], axis='columns')

   y  g  c
0  x  x  x
1  x  x  x
2  x  x  x
3  x  x  x
4  x  x  x

对于这种特定情况，您可能要使用

df.rename(lambda x: 'log(gdp)' if x == 'gdp' else x, axis=1)

`Index.str.replace`

与replacepython中的字符串方法类似，pandas Index和Series（仅对象dtype）定义了一种（“矢量化”）str.replace方法，用于基于字符串和正则表达式的替换。

df.columns = df.columns.str.replace('gdp', 'log(gdp)')
df
 
   y log(gdp) cap
0  x        x   x
1  x        x   x
2  x        x   x
3  x        x   x
4  x        x   x

与其他方法相比，此方法的优点是str.replace支持正则表达式（默认情况下启用）。有关更多信息，请参阅文档。

传递一个列表，`set_axis`与`axis=1`

set_axis用标题列表进行调用。该列表的长度必须等于列/索引的大小。set_axis默认情况下会更改原始DataFrame，但您可以指定inplace=False返回修改后的副本。

df.set_axis(['cap', 'log(gdp)', 'y'], axis=1, inplace=False)
# df.set_axis(['cap', 'log(gdp)', 'y'], axis='columns', inplace=False)

  cap log(gdp)  y
0   x        x  x
1   x        x  x
2   x        x  x
3   x        x  x
4   x        x  x

注意：在将来的版本中，inplace默认为True。

方法链接
为什么选择set_axis已经有一种有效的方式分配列的方式df.columns = ...？如Ted Petrou在[此答案]中所示，（https://stackoverflow.com/a/46912050/4909087）set_axis在尝试链接方法时很有用。

比较

# new for pandas 0.21+
df.some_method1()
  .some_method2()
  .set_axis()
  .some_method3()

与

# old way
df1 = df.some_method1()
        .some_method2()
df1.columns = columns
df1.some_method3()

前者是更自然和自由流动的语法。

— cs95
source

3

至少有五种不同的方法来重命名熊猫中的特定列，我在下面列出了它们以及原始答案的链接。我还对这些方法进行了计时，发现它们执行的效果大致相同（尽管YMMV取决于您的数据集和方案）。下面的试验情况下是列重命名A M N Z以A2 M2 N2 Z2在一个数据帧的列A到Z含有一百万行。

# Import required modules
import numpy as np
import pandas as pd
import timeit

# Create sample data
df = pd.DataFrame(np.random.randint(0,9999,size=(1000000, 26)), columns=list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'))

# Standard way - https://stackoverflow.com/a/19758398/452587
def method_1():
    df_renamed = df.rename(columns={'A': 'A2', 'M': 'M2', 'N': 'N2', 'Z': 'Z2'})

# Lambda function - https://stackoverflow.com/a/16770353/452587
def method_2():
    df_renamed = df.rename(columns=lambda x: x + '2' if x in ['A', 'M', 'N', 'Z'] else x)

# Mapping function - https://stackoverflow.com/a/19758398/452587
def rename_some(x):
    if x=='A' or x=='M' or x=='N' or x=='Z':
        return x + '2'
    return x
def method_3():
    df_renamed = df.rename(columns=rename_some)

# Dictionary comprehension - https://stackoverflow.com/a/58143182/452587
def method_4():
    df_renamed = df.rename(columns={col: col + '2' for col in df.columns[
        np.asarray([i for i, col in enumerate(df.columns) if 'A' in col or 'M' in col or 'N' in col or 'Z' in col])
    ]})

# Dictionary comprehension - https://stackoverflow.com/a/38101084/452587
def method_5():
    df_renamed = df.rename(columns=dict(zip(df[['A', 'M', 'N', 'Z']], ['A2', 'M2', 'N2', 'Z2'])))

print('Method 1:', timeit.timeit(method_1, number=10))
print('Method 2:', timeit.timeit(method_2, number=10))
print('Method 3:', timeit.timeit(method_3, number=10))
print('Method 4:', timeit.timeit(method_4, number=10))
print('Method 5:', timeit.timeit(method_5, number=10))

输出：

Method 1: 3.650640267
Method 2: 3.163998427
Method 3: 2.998530871
Method 4: 2.9918436889999995
Method 5: 3.2436501520000007

使用对您来说最直观，最容易在应用程序中实现的方法。

— 土安
source

重命名熊猫中的特定列

如何重命名熊猫中的特定列？

rename 与 axis=1

Index.str.replace

传递一个列表，set_axis与axis=1

`rename` 与 `axis=1`

`Index.str.replace`

传递一个列表，`set_axis`与`axis=1`