Pandas DataFrame：根据条件替换列中的所有值

132

我有一个简单的DataFrame如下所示：

熊猫数据框

我想从“第一季”列中选择所有值，然后将1990年以后的值替换为1。在此示例中，只有巴尔的摩乌鸦将1996年替换为1（其余数据保持不变）。

我使用了以下内容：

df.loc[(df['First Season'] > 1990)] = 1

但是，它将行中的所有值替换为1，而不仅仅是“第一季”列中的值。

如何仅替换该列中的值？

python pandas dataframe

— 一木
source

226

您需要选择该列：

In [41]:
df.loc[df['First Season'] > 1990, 'First Season'] = 1
df

Out[41]:
                 Team  First Season  Total Games
0      Dallas Cowboys          1960          894
1       Chicago Bears          1920         1357
2   Green Bay Packers          1921         1339
3      Miami Dolphins          1966          792
4    Baltimore Ravens             1          326
5  San Franciso 49ers          1950         1003

所以这里的语法是：

df.loc[<mask>(here mask is generating the labels to index) , <optional column(s)> ]

您可以检查文档以及显示语义的10分钟熊猫查询

编辑

如果你想生成一个布尔值指标，那么你可以只使用布尔条件产生boolean值系列和铸铁的D型到int这将转换True并False以1和0分别为：

In [43]:
df['First Season'] = (df['First Season'] > 1990).astype(int)
df

Out[43]:
                 Team  First Season  Total Games
0      Dallas Cowboys             0          894
1       Chicago Bears             0         1357
2   Green Bay Packers             0         1339
3      Miami Dolphins             0          792
4    Baltimore Ravens             1          326
5  San Franciso 49ers             0         1003

— 埃德·楚姆
source

40

聚会晚了一点，但仍然-我更喜欢在以下地方使用numpy：

import numpy as np
df['First Season'] = np.where(df['First Season'] > 1990, 1, df['First Season'])

— 阿米尔F
source

2

我一直在寻找一种有条件地覆盖列值的解决方案，但是要基于另一列的值，例如：df ['col1'] = np.where（df ['id'] =='318431682259014'，'NEW'， df ['col1']）这是解决方案。

— user582175 '19

我正在尝试针对多个类似情况进行此操作，但我一直在不断尝试ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()。我想做的基本上是df['A'] = np.where(df['B'] in some_values, df['A']*2, df['A]。有人对此有想法吗？

— M.Schalk

5

df['First Season'].loc[(df['First Season'] > 1990)] = 1

奇怪的是没有人有这个答案，您的代码唯一缺少的部分是df之后的['First Season']，只需删除其中的大括号即可。

— 奥兹
source

这给出了一个“ SettingWithCopyWarning：”，最好像EdChum的回答中那样对整个内容使用.loc。

— 雄心勃勃

2

对于单一条件，即。 ( 'employrate'] > 70 )

       country        employrate alcconsumption
0  Afghanistan  55.7000007629394            .03
1      Albania  51.4000015258789           7.29
2      Algeria              50.5            .69
3      Andorra                            10.17
4       Angola  75.6999969482422           5.57

用这个：

df.loc[df['employrate'] > 70, 'employrate'] = 7

       country  employrate alcconsumption
0  Afghanistan   55.700001            .03
1      Albania   51.400002           7.29
2      Algeria   50.500000            .69
3      Andorra         nan          10.17
4       Angola    7.000000           5.57

因此，语法如下：

df.loc[<mask>(here mask is generating the labels to index) , <optional column(s)> ]

对于多个条件，即。 (df['employrate'] <=55) & (df['employrate'] > 50)

用这个：

df['employrate'] = np.where(
   (df['employrate'] <=55) & (df['employrate'] > 50) , 11, df['employrate']
   )

out[108]:
       country  employrate alcconsumption
0  Afghanistan   55.700001            .03
1      Albania   11.000000           7.29
2      Algeria   11.000000            .69
3      Andorra         nan          10.17
4       Angola   75.699997           5.57

因此，语法如下：

 df['<column_name>'] = np.where((<filter 1> ) & (<filter 2>) , <new value>, df['column_name'])

— 哈西特·贾恩（Harshit Jain）
source

0

df.loc[df['First season'] > 1990, 'First Season'] = 1

说明：

df.loc接受两个参数，“行索引”和“列索引”。我们正在“第一季”列下检查该值是否大于每行值的27，然后将其替换为1。

— 阿卜杜拉·沙菲
source