Answers:
只需将其分配给.columns
属性:
>>> df = pd.DataFrame({'$a':[1,2], '$b': [10,20]})
>>> df.columns = ['a', 'b']
>>> df
a b
0 1 10
1 2 20
new_columns = df.columns.values;
new_columns[0] = 'XX';
df.columns = new_columns
df.rename(columns = {'$b':'B'}, inplace = True)
使用该df.rename()
函数并引用要重命名的列。并非所有列都必须重命名:
df = df.rename(columns={'oldName1': 'newName1', 'oldName2': 'newName2'})
# Or rename the existing DataFrame (rather than creating a copy)
df.rename(columns={'oldName1': 'newName1', 'oldName2': 'newName2'}, inplace=True)
最小代码示例
df = pd.DataFrame('x', index=range(3), columns=list('abcde'))
df
a b c d e
0 x x x x x
1 x x x x x
2 x x x x x
下列方法均起作用并产生相同的输出:
df2 = df.rename({'a': 'X', 'b': 'Y'}, axis=1) # new method
df2 = df.rename({'a': 'X', 'b': 'Y'}, axis='columns')
df2 = df.rename(columns={'a': 'X', 'b': 'Y'}) # old method
df2
X Y c d e
0 x x x x x
1 x x x x x
2 x x x x x
切记将结果分配回去,因为修改未就位。或者,指定inplace=True
:
df.rename({'a': 'X', 'b': 'Y'}, axis=1, inplace=True)
df
X Y c d e
0 x x x x x
1 x x x x x
2 x x x x x
从v0.25版开始,如果指定errors='raise'
了无效的“要重命名的列” ,您还可以指定引发错误。参见v0.25 rename()
文档。
df.set_axis()
与axis=1
和inplace=False
一起使用(返回副本)。
df2 = df.set_axis(['V', 'W', 'X', 'Y', 'Z'], axis=1, inplace=False)
df2
V W X Y Z
0 x x x x x
1 x x x x x
2 x x x x x
这将返回一个副本,但是您可以通过设置来就地修改DataFrame inplace=True
(这是版本<= 0.24的默认行为,但将来可能会更改)。
您还可以直接分配标题:
df.columns = ['V', 'W', 'X', 'Y', 'Z']
df
V W X Y Z
0 x x x x x
1 x x x x x
2 x x x x x
code
<class'pandas.core.frame.DataFrame'> Int64Index:1000个条目,0到999数据列:BodyMarkdown 1000非空code
作品,但是当我执行dataframe.head()时,将重新显示列的旧名称。
SettingWithCopyWarning:
当我在此答案中使用第二个代码片段时,我感到恐惧。
df = df.rename(columns={'oldName1': 'newName1', 'oldName2': 'newName2'})
更改显示的名称,但不更改基础数据结构中的元素。因此,如果尝试尝试df['newName1']
,将出现错误。该inplace=True
避免gotchya是必要的。
该rename
方法可以带有一个函数,例如:
In [11]: df.columns
Out[11]: Index([u'$a', u'$b', u'$c', u'$d', u'$e'], dtype=object)
In [12]: df.rename(columns=lambda x: x[1:], inplace=True)
In [13]: df.columns
Out[13]: Index([u'a', u'b', u'c', u'd', u'e'], dtype=object)
df.rename(columns=lambda x: x.lstrip(), inplace=True)
t.columns = t.columns.str.replace(r'[^\x00-\x7F]+','')
df.rename(columns=lambda x: x.replace(' ', '_'), inplace=True)
是一颗宝石,因此我们可以写df.Column_1_Name
而不是写df.loc[:, 'Column 1 Name']
。
0.21版中对列重命名进行了一些重大更新。
rename
方法添加了axis
可以设置为columns
或的参数1
。此更新使该方法与其他pandas API匹配。它仍然具有index
和columns
参数,但是您不再被迫使用它们。set_axis
方法与inplace
设置为False
可以使所有的索引或列标签与命名列表。构造样本DataFrame:
df = pd.DataFrame({'$a':[1,2], '$b': [3,4],
'$c':[5,6], '$d':[7,8],
'$e':[9,10]})
$a $b $c $d $e
0 1 3 5 7 9
1 2 4 6 8 10
rename
与axis='columns'
或一起使用axis=1
df.rename({'$a':'a', '$b':'b', '$c':'c', '$d':'d', '$e':'e'}, axis='columns')
要么
df.rename({'$a':'a', '$b':'b', '$c':'c', '$d':'d', '$e':'e'}, axis=1)
两者都导致以下结果:
a b c d e
0 1 3 5 7 9
1 2 4 6 8 10
仍然可以使用旧的方法签名:
df.rename(columns={'$a':'a', '$b':'b', '$c':'c', '$d':'d', '$e':'e'})
该rename
函数还接受将应用于每个列名称的函数。
df.rename(lambda x: x[1:], axis='columns')
要么
df.rename(lambda x: x[1:], axis=1)
set_axis
与列表一起使用inplace=False
您可以为该set_axis
方法提供一个列表,该列表的长度等于列(或索引)的数量。当前,inplace
默认值为True
,但在将来的版本inplace
中将默认为False
。
df.set_axis(['a', 'b', 'c', 'd', 'e'], axis='columns', inplace=False)
要么
df.set_axis(['a', 'b', 'c', 'd', 'e'], axis=1, inplace=False)
df.columns = ['a', 'b', 'c', 'd', 'e']
?像这样直接分配列没有错。这是一个完美的解决方案。
using的优点set_axis
是它可以用作方法链的一部分,并返回DataFrame的新副本。没有它,您将不得不在重新分配列之前将链的中间步骤存储到另一个变量。
# new for pandas 0.21+
df.some_method1()
.some_method2()
.set_axis()
.some_method3()
# old way
df1 = df.some_method1()
.some_method2()
df1.columns = columns
df1.some_method3()
Pandas 0.21+ answer
-我不知何故错过了“新功能”部分...
(df .groupby(['page',pd.Grouper(key='date',freq='MS')])['clicks'].sum() .unstack(1) .rename(lambda x: x.strftime("%Y-%m"), axis='columns') )
由于只想删除所有列名中的$符号,因此可以执行以下操作:
df = df.rename(columns=lambda x: x.replace('$', ''))
要么
df.rename(columns=lambda x: x.replace('$', ''), inplace=True)
df.columns = ['a', 'b', 'c', 'd', 'e']
它将按照您提供的顺序用您提供的名称替换现有名称。
df.columns.values
,这是错误的。stackoverflow.com/questions/43291781/…–
old_names = ['$a', '$b', '$c', '$d', '$e']
new_names = ['a', 'b', 'c', 'd', 'e']
df.rename(columns=dict(zip(old_names, new_names)), inplace=True)
这样,您可以根据需要手动编辑new_names
。当您只需要重命名几列以纠正拼写错误,重音符号,删除特殊字符等时,效果很好。
df.columns = ['a', 'b', 'c', 'd', 'e']
更简单。
df.columns.values
用来获取旧名称。
myList = list(df) myList[10:20]
,等等-所以这很完美。
namez = df.columns.values
进行一些编辑,然后单击df.columns = namez
。
我将专注于两件事:
OP明确指出
我已经将编辑后的列名存储在列表中,但是我不知道如何替换列名。
我不想解决如何替换'$'
或删除每个列标题中的第一个字符的问题。OP已完成此步骤。相反,我想集中精力用columns
给定替换列名称列表的新对象替换现有对象。
df.columns = new
new
新列名称的列表在哪里就变得很简单。这种方法的缺点是,它需要编辑现有数据框的columns
属性,并且无法内联完成。我将展示一些通过流水执行此操作而不编辑现有数据框的方法。
设置1
为了着重于需要使用现有列表重命名替换列名称,我将创建一个df
具有初始列名称和不相关的新列名称的新示例数据框。
df = pd.DataFrame({'Jack': [1, 2], 'Mahesh': [3, 4], 'Xin': [5, 6]})
new = ['x098', 'y765', 'z432']
df
Jack Mahesh Xin
0 1 3 5
1 2 4 6
解决方案1
pd.DataFrame.rename
已经有人说过,如果您有一个字典将旧的列名映射到新的列名,则可以使用pd.DataFrame.rename
。
d = {'Jack': 'x098', 'Mahesh': 'y765', 'Xin': 'z432'}
df.rename(columns=d)
x098 y765 z432
0 1 3 5
1 2 4 6
但是,您可以轻松创建该词典并将其包含在对的调用中rename
。以下内容利用了以下事实:迭代时df
,我们迭代每个列名。
# given just a list of new column names
df.rename(columns=dict(zip(df, new)))
x098 y765 z432
0 1 3 5
1 2 4 6
如果您原始的列名是唯一的,那么这很好。但是,如果不是这样,那么就会崩溃。
设置2个
非唯一列
df = pd.DataFrame(
[[1, 3, 5], [2, 4, 6]],
columns=['Mahesh', 'Mahesh', 'Xin']
)
new = ['x098', 'y765', 'z432']
df
Mahesh Mahesh Xin
0 1 3 5
1 2 4 6
解决方案2
pd.concat
使用keys
参数
首先,请注意当我们尝试使用解决方案1时会发生什么:
df.rename(columns=dict(zip(df, new)))
y765 y765 z432
0 1 3 5
1 2 4 6
我们没有将new
列表映射为列名。我们最终重复了y765
。相反,我们可以在遍历的列时使用函数的keys
参数。pd.concat
df
pd.concat([c for _, c in df.items()], axis=1, keys=new)
x098 y765 z432
0 1 3 5
1 2 4 6
解决方案3
重建。仅当dtype
所有列都有一个时,才应使用此选项。否则,您最终将dtype
object
获得所有列,并且将它们转换回需要更多的词典工作。
单 dtype
pd.DataFrame(df.values, df.index, new)
x098 y765 z432
0 1 3 5
1 2 4 6
混合的 dtype
pd.DataFrame(df.values, df.index, new).astype(dict(zip(new, df.dtypes)))
x098 y765 z432
0 1 3 5
1 2 4 6
解决方案4
这是使用transpose
和的花招set_index
。 pd.DataFrame.set_index
允许我们设置内联索引,但没有对应的set_columns
。这样我们就可以转置,然后再set_index
转回。但是,此处适用解决方案3 的相同警告dtype
与混合dtype
警告。
单 dtype
df.T.set_index(np.asarray(new)).T
x098 y765 z432
0 1 3 5
1 2 4 6
混合的 dtype
df.T.set_index(np.asarray(new)).T.astype(dict(zip(new, df.dtypes)))
x098 y765 z432
0 1 3 5
1 2 4 6
解决方案5在循环
使用的每个元素中使用a
在此解决方案中,我们传递一个lambda来接受但忽略它。它也需要一个但并不期望。取而代之的是,将迭代器指定为默认值,然后我可以使用该迭代器一次遍历一个迭代器,而无需考虑is 的值。lambda
pd.DataFrame.rename
new
x
y
x
df.rename(columns=lambda x, y=iter(new): next(y))
x098 y765 z432
0 1 3 5
1 2 4 6
正如人们在sopython聊天中向我指出的那样,如果*
在x
和之间添加一个,则y
可以保护我的y
变量。不过,在这种情况下,我认为它不需要保护。仍然值得一提。
df.rename(columns=lambda x, *, y=iter(new): next(y))
x098 y765 z432
0 1 3 5
1 2 4 6
df.rename(lambda x : x.lstrip('$'),axis=1)
x
被忽略时,我不太理解您的意思?
我想解释一下幕后发生的事情。
数据框是一组系列。
系列又是对 numpy.array
numpy.array
有财产 .name
这是系列的名称。很少有人会尊重大熊猫的这一属性,但它会在某些地方徘徊,并可以用来破解某些大熊猫的行为。
这里有很多答案都谈到该df.columns
属性list
实际上是一个Series
。这意味着它具有.name
属性。
如果您决定填写各列的名称,则会发生这种情况Series
:
df.columns = ['column_one', 'column_two']
df.columns.names = ['name of the list of columns']
df.index.names = ['name of the index']
name of the list of columns column_one column_two
name of the index
0 4 1
1 5 2
2 6 3
请注意,索引的名称总是低一列。
该.name
属性有时会持续存在。如果设置df.columns = ['one', 'two']
,df.one.name
则将为'one'
。
如果您设置,df.one.name = 'three'
那么df.columns
仍然会给您['one', 'two']
,并df.one.name
会给您'three'
pd.DataFrame(df.one)
将返回
three
0 1
1 2
2 3
因为pandas重用.name
了已经定义的Series
。
熊猫有做多层列名的方法。没有太多魔术,但是我也想在答案中涵盖这一点,因为我看不到有人在这里进行这项工作。
|one |
|one |two |
0 | 4 | 1 |
1 | 5 | 2 |
2 | 6 | 3 |
通过将列设置为列表很容易实现,如下所示:
df.columns = [['one', 'one'], ['one', 'two']]
如果您有数据框,则df.columns会将所有内容转储到您可以操作的列表中,然后将其重新分配给数据框作为列名...
columns = df.columns
columns = [row.replace("$","") for row in columns]
df.rename(columns=dict(zip(columns, things)), inplace=True)
df.head() #to validate the output
最好的办法?IDK。一种方法-是的。
下面是使用cProfile衡量内存和执行时间的一种更好的评估问题答案中提出的所有主要技术的方法。@ kadee,@ kaitlyn和@eumiro具有执行时间最快的功能-尽管这些功能是如此之快,我们将比较所有答案的.000和.001秒舍入。道德:我上面的回答可能不是“最佳”方法。
import pandas as pd
import cProfile, pstats, re
old_names = ['$a', '$b', '$c', '$d', '$e']
new_names = ['a', 'b', 'c', 'd', 'e']
col_dict = {'$a': 'a', '$b': 'b','$c':'c','$d':'d','$e':'e'}
df = pd.DataFrame({'$a':[1,2], '$b': [10,20],'$c':['bleep','blorp'],'$d':[1,2],'$e':['texa$','']})
df.head()
def eumiro(df,nn):
df.columns = nn
#This direct renaming approach is duplicated in methodology in several other answers:
return df
def lexual1(df):
return df.rename(columns=col_dict)
def lexual2(df,col_dict):
return df.rename(columns=col_dict, inplace=True)
def Panda_Master_Hayden(df):
return df.rename(columns=lambda x: x[1:], inplace=True)
def paulo1(df):
return df.rename(columns=lambda x: x.replace('$', ''))
def paulo2(df):
return df.rename(columns=lambda x: x.replace('$', ''), inplace=True)
def migloo(df,on,nn):
return df.rename(columns=dict(zip(on, nn)), inplace=True)
def kadee(df):
return df.columns.str.replace('$','')
def awo(df):
columns = df.columns
columns = [row.replace("$","") for row in columns]
return df.rename(columns=dict(zip(columns, '')), inplace=True)
def kaitlyn(df):
df.columns = [col.strip('$') for col in df.columns]
return df
print 'eumiro'
cProfile.run('eumiro(df,new_names)')
print 'lexual1'
cProfile.run('lexual1(df)')
print 'lexual2'
cProfile.run('lexual2(df,col_dict)')
print 'andy hayden'
cProfile.run('Panda_Master_Hayden(df)')
print 'paulo1'
cProfile.run('paulo1(df)')
print 'paulo2'
cProfile.run('paulo2(df)')
print 'migloo'
cProfile.run('migloo(df,old_names,new_names)')
print 'kadee'
cProfile.run('kadee(df)')
print 'awo'
cProfile.run('awo(df)')
print 'kaitlyn'
cProfile.run('kaitlyn(df)')
假设这是您的数据框。
您可以使用两种方法重命名列。
使用 dataframe.columns=[#list]
df.columns=['a','b','c','d','e']
此方法的局限性在于,如果必须更改一列,则必须传递完整的列列表。同样,此方法不适用于索引标签。例如,如果您通过以下操作:
df.columns = ['a','b','c','d']
这将引发错误。长度不匹配:预期轴有5个元素,新值有4个元素。
另一种方法是Pandas rename()
方法,用于重命名任何索引,列或行
df = df.rename(columns={'$a':'a'})
同样,您可以更改任何行或列。
df = pd.DataFrame({'$a': [1], '$b': [1], '$c': [1], '$d': [1], '$e': [1]})
如果新的列列表与现有列的顺序相同,则分配很简单:
new_cols = ['a', 'b', 'c', 'd', 'e']
df.columns = new_cols
>>> df
a b c d e
0 1 1 1 1 1
如果您有一个将旧列名键入新列名的字典,则可以执行以下操作:
d = {'$a': 'a', '$b': 'b', '$c': 'c', '$d': 'd', '$e': 'e'}
df.columns = df.columns.map(lambda col: d[col]) # Or `.map(d.get)` as pointed out by @PiRSquared.
>>> df
a b c d e
0 1 1 1 1 1
如果没有列表或字典映射,则可以$
通过列表理解来去除前导符号:
df.columns = [col[1:] if col[0] == '$' else col for col in df]
lambda col: d[col]
您可以通过d.get
...所以它看起来像是df.columns.map(d.get)
df.rename(index=str,columns={'A':'a','B':'b'})
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html
让我们通过一个小例子来了解重命名...
1.使用映射重命名列:
df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]}) #creating a df with column name A and B
df.rename({"A": "new_a", "B": "new_b"},axis='columns',inplace =True) #renaming column A with 'new_a' and B with 'new_b'
output:
new_a new_b
0 1 4
1 2 5
2 3 6
2.使用映射重命名索引/行名:
df.rename({0: "x", 1: "y", 2: "z"},axis='index',inplace =True) #Row name are getting replaced by 'x','y','z'.
output:
new_a new_b
x 1 4
y 2 5
z 3 6
真正简单就用
df.columns = ['Name1', 'Name2', 'Name3'...]
它将按照您放置它们的顺序分配列名
我知道这个问题和答案已经被to死了。但是我提到它是为了解决我遇到的一个问题。我能够使用来自不同答案的点点滴滴来解决它,从而在有人需要时提供我的回复。
我的方法很通用,您可以通过用逗号分隔delimiters=
变量并将其过时的方式添加其他定界符。
工作代码:
import pandas as pd
import re
df = pd.DataFrame({'$a':[1,2], '$b': [3,4],'$c':[5,6], '$d': [7,8], '$e': [9,10]})
delimiters = '$'
matchPattern = '|'.join(map(re.escape, delimiters))
df.columns = [re.split(matchPattern, i)[1] for i in df.columns ]
输出:
>>> df
$a $b $c $d $e
0 1 3 5 7 9
1 2 4 6 8 10
>>> df
a b c d e
0 1 3 5 7 9
1 2 4 6 8 10
请注意,这些方法不适用于MultiIndex。对于MultiIndex,您需要执行以下操作:
>>> df = pd.DataFrame({('$a','$x'):[1,2], ('$b','$y'): [3,4], ('e','f'):[5,6]})
>>> df
$a $b e
$x $y f
0 1 3 5
1 2 4 6
>>> rename = {('$a','$x'):('a','x'), ('$b','$y'):('b','y')}
>>> df.columns = pandas.MultiIndex.from_tuples([
rename.get(item, item) for item in df.columns.tolist()])
>>> df
a b e
x y f
0 1 3 5
1 2 4 6
如果您必须处理无法由提供系统命名的列负载,那么我想出了以下方法,该方法将一次通用方法与特定替换方法结合在一起。
首先,使用正则表达式从数据框的列名称中创建字典,以丢弃某些列名称的附录,然后向字典中添加特定的替换内容,以便稍后在接收数据库中按预期命名核心列。
然后将其一次性应用到数据帧。
dict=dict(zip(df.columns,df.columns.str.replace('(:S$|:C1$|:L$|:D$|\.Serial:L$)','')))
dict['brand_timeseries:C1']='BTS'
dict['respid:L']='RespID'
dict['country:C1']='CountryID'
dict['pim1:D']='pim_actual'
df.rename(columns=dict, inplace=True)
除了已经提供的解决方案之外,您还可以在读取文件时替换所有列。我们可以使用names
并header=0
做到这一点。
首先,我们创建一个名称列表,以用作列名:
import pandas as pd
ufo_cols = ['city', 'color reported', 'shape reported', 'state', 'time']
ufo.columns = ufo_cols
ufo = pd.read_csv('link to the file you are using', names = ufo_cols, header = 0)
在这种情况下,所有列名称都将替换为列表中的名称。
这是一个我喜欢用来减少键入的漂亮小功能:
def rename(data, oldnames, newname):
if type(oldnames) == str: #input can be a string or list of strings
oldnames = [oldnames] #when renaming multiple columns
newname = [newname] #make sure you pass the corresponding list of new names
i = 0
for name in oldnames:
oldvar = [c for c in data.columns if name in c]
if len(oldvar) == 0:
raise ValueError("Sorry, couldn't find that column in the dataset")
if len(oldvar) > 1: #doesn't have to be an exact match
print("Found multiple columns that matched " + str(name) + " :")
for c in oldvar:
print(str(oldvar.index(c)) + ": " + str(c))
ind = input('please enter the index of the column you would like to rename: ')
oldvar = oldvar[int(ind)]
if len(oldvar) == 1:
oldvar = oldvar[0]
data = data.rename(columns = {oldvar : newname[i]})
i += 1
return data
这是它如何工作的示例:
In [2]: df = pd.DataFrame(np.random.randint(0,10,size=(10, 4)), columns=['col1','col2','omg','idk'])
#first list = existing variables
#second list = new names for those variables
In [3]: df = rename(df, ['col','omg'],['first','ohmy'])
Found multiple columns that matched col :
0: col1
1: col2
please enter the index of the column you would like to rename: 0
In [4]: df.columns
Out[5]: Index(['first', 'col2', 'ohmy', 'idk'], dtype='object')
重命名熊猫中的列很容易。
df.rename(columns = {'$a':'a','$b':'b','$c':'c','$d':'d','$e':'e'},inplace = True)
假设您可以使用正则表达式。该解决方案无需使用正则表达式进行手动编码
import pandas as pd
import re
srch=re.compile(r"\w+")
data=pd.read_csv("CSV_FILE.csv")
cols=data.columns
new_cols=list(map(lambda v:v.group(),(list(map(srch.search,cols)))))
data.columns=new_cols