熊猫中布尔索引的逻辑运算符

152

我正在Pandas中使用布尔值索引。问题是为什么声明：

a[(a['some_column']==some_number) & (a['some_other_column']==some_other_number)]

工作正常而

a[(a['some_column']==some_number) and (a['some_other_column']==some_other_number)]

退出错误？

例：

a=pd.DataFrame({'x':[1,1],'y':[10,20]})

In: a[(a['x']==1)&(a['y']==10)]
Out:    x   y
     0  1  10

In: a[(a['x']==1) and (a['y']==10)]
Out: ValueError: The truth value of an array with more than one element is ambiguous.     Use a.any() or a.all()

— 用户名
source

这是因为在将数组/系列中的每个元素与另一个元素进行比较时，numpy数组和熊猫系列使用按位运算符而不是逻辑。因此，在这种情况下使用逻辑运算符是没有意义的。查看相关：stackoverflow.com/questions/8632033/...

— EdChum

在Python中and != &。andPython中的运算符不能被覆盖，而&运算符（__and__）可以被覆盖。因此选择&在numpy和pandas中使用。

— Steven Rumbalski 2014年

相关：系列的真值不明确。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）

— cs95

Answers:

208

当你说

(a['x']==1) and (a['y']==10)

您暗中要求Python进行转换(a['x']==1)并转换(a['y']==10)为布尔值。

NumPy数组（长度大于1）和Pandas对象（例如Series）没有布尔值-换句话说，它们引发

ValueError: The truth value of an array is ambiguous. Use a.empty, a.any() or a.all().

当用作布尔值时。这是因为尚不清楚何时应为True或False。如果某些用户的长度非零，则可能会认为它们为True，例如Python列表。其他人可能只希望它的所有元素都为真，才希望它为真。如果其他任何元素为True，则其他人可能希望它为True。

由于期望值如此之多，因此NumPy和Pandas的设计师拒绝猜测，而是提出了ValueError。

相反，你必须是明确的，通过调用empty()，all()或any()方法来表示你的愿望是什么行为。

但是，在这种情况下，您似乎不希望布尔值求值，而是希望按元素进行逻辑与。这就是&二进制运算符执行的操作：

(a['x']==1) & (a['y']==10)

返回一个布尔数组。

顺便说一句，正如alexpmil所指出的，括号是强制性的，因为&其运算符优先级高于==。如果没有括号，a['x']==1 & a['y']==10则将被评估为a['x'] == (1 & a['y']) == 10等效于链式比较(a['x'] == (1 & a['y'])) and ((1 & a['y']) == 10)。那是形式的表达Series and Series。and与两个Series一起使用将再次触发与ValueError上述相同的操作。这就是为什么括号是强制性的。

— Unutbu
source

如果numpy数组的长度为1，则确实具有此属性。只有熊猫开发者（顽固地）拒绝猜测：p

— 安迪·海登2014年

“＆”是否不具有与“ and”相同的模糊曲线？当涉及到“＆”时，突然之间所有用户都同意它应该是元素化的，而当他们看到“ and”时，他们的期望却有所不同？

— Indominus

@Indominus：Python语言本身要求表达式x and y触发对bool(x)和的求值bool(y)。Python“首先求值x；如果x为false，则返回其值；否则，y求值并返回结果值。” 因此，该语法x and y不能用于面向元素的逻辑，并且只能x或y可以返回。相反，可以定义x & y触发器x.__and__(y)和__and__方法以返回我们喜欢的任何东西。

— unutbu '16

重要说明：该==子句的括号是强制性的。a['x']==1 & a['y']==10返回与问题相同的错误。

— 亚历克斯·米勒

“ |”的作用是什么？

— Euler_Salter '18

TLDR；_{在熊猫逻辑运算符&，|并~和括号(...)是很重要的！}

Python的and，or和not逻辑运算符的设计与标量的工作。因此，Pandas必须做得更好，并覆盖按位运算符，以实现此功能的矢量化（逐元素）版本。

因此，以下是python中的（exp1以及exp2是计算结果为布尔结果的表达式）...

exp1 and exp2              # Logical AND
exp1 or exp2               # Logical OR
not exp1                   # Logical NOT

...将转换为...

exp1 & exp2                # Element-wise logical AND
exp1 | exp2                # Element-wise logical OR
~exp1                      # Element-wise logical NOT

大熊猫。

如果在执行逻辑运算的过程中得到ValueError，则需要使用括号进行分组：

(exp1) op (exp2)

例如，

(df['col1'] == x) & (df['col2'] == y)

等等。

布尔索引：常见的操作是通过逻辑条件来计算布尔掩码，以过滤数据。熊猫提供了三种运算符：&用于逻辑与，|逻辑或，以及~逻辑非。

请考虑以下设置：

np.random.seed(0)
df = pd.DataFrame(np.random.choice(10, (5, 3)), columns=list('ABC'))
df

   A  B  C
0  5  0  3
1  3  7  9
2  3  5  2
3  4  7  6
4  8  8  1

逻辑与

对于df上面的内容，假设您想返回A <5和B> 5的所有行。这是通过分别计算每个条件的掩码并将它们与与完成的。

重载的按位&运算符
在继续之前，请注意文档的此特定摘录，其中指出

另一个常见的操作是使用布尔向量来过滤数据。运算符是：|for or，&for and和~for not。这些必须通过使用括号来分组，由于由默认的Python将评估的表达式如df.A > 2 & df.B < 3如df.A > (2 & df.B) < 3，而所期望的评价顺序是(df.A > 2) & (df.B < 3)。

因此，考虑到这一点，可以使用按位运算符实现按元素逻辑与&：

df['A'] < 5

0    False
1     True
2     True
3     True
4    False
Name: A, dtype: bool

df['B'] > 5

0    False
1     True
2    False
3     True
4     True
Name: B, dtype: bool

(df['A'] < 5) & (df['B'] > 5)

0    False
1     True
2    False
3     True
4    False
dtype: bool

接下来的过滤步骤很简单，

df[(df['A'] < 5) & (df['B'] > 5)]

   A  B  C
1  3  7  9
3  4  7  6

括号用于覆盖按位运算符的默认优先级顺序，后者比条件运算符<和具有更高的优先级>。请参阅python文档中的“ 运算符优先级 ”部分。

如果不使用括号，则表达式的计算不正确。例如，如果您不小心尝试了诸如

df['A'] < 5 & df['B'] > 5

它被解析为

df['A'] < (5 & df['B']) > 5

变成

df['A'] < something_you_dont_want > 5

变成了（请参阅有关链接运算符比较的python文档），

(df['A'] < something_you_dont_want) and (something_you_dont_want > 5)

变成

# Both operands are Series...
something_else_you_dont_want1 and something_else_you_dont_want2

哪个抛出

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

所以，不要犯那个错误！^1个

避免括号分组
该修补程序实际上非常简单。大多数运算符都有对应的DataFrame绑定方法。如果使用函数而不是条件运算符来构建单个掩码，则不再需要按括号分组以指定评估顺序：

df['A'].lt(5)

0     True
1     True
2     True
3     True
4    False
Name: A, dtype: bool

df['B'].gt(5)

0    False
1     True
2    False
3     True
4     True
Name: B, dtype: bool

df['A'].lt(5) & df['B'].gt(5)

0    False
1     True
2    False
3     True
4    False
dtype: bool

请参阅“ 灵活比较 ”部分。。总而言之，我们有

╒════╤════════════╤════════════╕
│    │ Operator   │ Function   │
╞════╪════════════╪════════════╡
│  0 │ >          │ gt         │
├────┼────────────┼────────────┤
│  1 │ >=         │ ge         │
├────┼────────────┼────────────┤
│  2 │ <          │ lt         │
├────┼────────────┼────────────┤
│  3 │ <=         │ le         │
├────┼────────────┼────────────┤
│  4 │ ==         │ eq         │
├────┼────────────┼────────────┤
│  5 │ !=         │ ne         │
╘════╧════════════╧════════════╛

避免括号的另一种方法是使用DataFrame.query（或eval）：

df.query('A < 5 and B > 5')

   A  B  C
1  3  7  9
3  4  7  6

我已经广泛地记录query和eval在使用pd.eval动态表达评价大熊猫（）。

operator.and_
允许您以功能方式执行此操作。内部调用Series.__and__，它对应于按位运算符。

import operator 

operator.and_(df['A'] < 5, df['B'] > 5)
# Same as,
# (df['A'] < 5).__and__(df['B'] > 5) 

0    False
1     True
2    False
3     True
4    False
dtype: bool

df[operator.and_(df['A'] < 5, df['B'] > 5)]

   A  B  C
1  3  7  9
3  4  7  6

您通常不需要此功能，但了解它很有用。

概括：（np.logical_and和logical_and.reduce）
另一种替代方法是使用 np.logical_and，它也不需要括号分组：

np.logical_and(df['A'] < 5, df['B'] > 5)

0    False
1     True
2    False
3     True
4    False
Name: A, dtype: bool

df[np.logical_and(df['A'] < 5, df['B'] > 5)]

   A  B  C
1  3  7  9
3  4  7  6

np.logical_and是ufunc （通用函数），大多数ufunc都有一个reduce方法。这意味着logical_and如果对AND有多个掩码，则更容易一概而论。例如，对于AND遮罩m1以及m2和m3和&，您必须要做

m1 & m2 & m3

但是，一个更简单的选择是

np.logical_and.reduce([m1, m2, m3])

这很强大，因为它使您可以使用更复杂的逻辑在此基础上构建（例如，在列表理解中动态生成掩码并添加所有掩码）：

import operator

cols = ['A', 'B']
ops = [np.less, np.greater]
values = [5, 5]

m = np.logical_and.reduce([op(df[c], v) for op, c, v in zip(ops, cols, values)])
m 
# array([False,  True, False,  True, False])

df[m]
   A  B  C
1  3  7  9
3  4  7  6

_{1-我知道我在这一点上很困难，但是请耐心等待。这是一个非常，非常常见的初学者的错误，必须非常有详尽的解释。}

逻辑或

对于df上述内容，假设您想返回A == 3或B == 7的所有行。

按位重载 |

df['A'] == 3

0    False
1     True
2     True
3    False
4    False
Name: A, dtype: bool

df['B'] == 7

0    False
1     True
2    False
3     True
4    False
Name: B, dtype: bool

(df['A'] == 3) | (df['B'] == 7)

0    False
1     True
2     True
3     True
4    False
dtype: bool

df[(df['A'] == 3) | (df['B'] == 7)]

   A  B  C
1  3  7  9
2  3  5  2
3  4  7  6

如果您还没有阅读过，请同时阅读上面“ 逻辑与 ”部分，所有注意事项均在此处适用。

或者，可以使用

df[df['A'].eq(3) | df['B'].eq(7)]

   A  B  C
1  3  7  9
2  3  5  2
3  4  7  6

operator.or_
在后台调用Series.__or__。

operator.or_(df['A'] == 3, df['B'] == 7)
# Same as,
# (df['A'] == 3).__or__(df['B'] == 7)

0    False
1     True
2     True
3     True
4    False
dtype: bool

df[operator.or_(df['A'] == 3, df['B'] == 7)]

   A  B  C
1  3  7  9
2  3  5  2
3  4  7  6

np.logical_or
对于两个条件，请使用logical_or：

np.logical_or(df['A'] == 3, df['B'] == 7)

0    False
1     True
2     True
3     True
4    False
Name: A, dtype: bool

df[np.logical_or(df['A'] == 3, df['B'] == 7)]

   A  B  C
1  3  7  9
2  3  5  2
3  4  7  6

对于多个口罩，请使用logical_or.reduce：

np.logical_or.reduce([df['A'] == 3, df['B'] == 7])
# array([False,  True,  True,  True, False])

df[np.logical_or.reduce([df['A'] == 3, df['B'] == 7])]

   A  B  C
1  3  7  9
2  3  5  2
3  4  7  6

逻辑非

给定口罩，例如

mask = pd.Series([True, True, False])

如果您需要反转每个布尔值（以使最终结果为[False, False, True]），则可以使用以下任何方法。

按位 ~

~mask

0    False
1    False
2     True
dtype: bool

同样，表达式需要加上括号。

~(df['A'] == 3)

0     True
1    False
2    False
3     True
4     True
Name: A, dtype: bool

这在内部调用

mask.__invert__()

0    False
1    False
2     True
dtype: bool

但是不要直接使用它。

operator.inv
内部调用__invert__该系列。

operator.inv(mask)

0    False
1    False
2     True
dtype: bool

np.logical_not
这是numpy的变体。

np.logical_not(mask)

0    False
1    False
2     True
dtype: bool

注意，np.logical_and可以代替np.bitwise_and，logical_or同bitwise_or，并logical_not用invert。

— cs95
source

TLDR中的@ cs95，对于按元素的布尔OR，您主张使用|，等效于numpy.bitwise_or，而不是numpy.logical_or。请问为什么？不是numpy.logical_or专门为此任务设计的吗？为什么要为每对元素增加按位分配的负担？

— flow2k

@ flow2k您能引用相关文字吗？我找不到您指的是什么。FWIW我坚持认为logical_ *是运算符的正确功能等效项。

— cs95

@ cs95我指的是答案的第一行：“ TLDR； Pandas中的逻辑运算符是＆，|和〜”。

— flow2k

@ flow2k实际上是在文档中：“另一个常见的操作是使用布尔向量来过滤数据。运算符是：|表示或，＆表示和，而〜表示不。

— cs95

@ cs95，好吧，我刚刚阅读了本节，它确实|用于按元素进行布尔操作。但是对我来说，该文档更多是“教程”，相反，我认为这些API引用更接近真理的源头：numpy.bitwise_or和numpy.logical_or-因此，我试图弄清到底是什么在这里描述。

— flow2k

熊猫中布尔索引的逻辑运算符

要认识到，你不能使用任何的Python是很重要的逻辑运算符（and，or或not上）pandas.Series或pandas.DataFrameS（同样，你不能上使用它们numpy.array有一个以上的元素S）。之所以不能使用它们，是因为它们隐式地调用bool其操作数，从而引发异常，因为这些数据结构确定数组的布尔值是不明确的：

>>> import numpy as np
>>> import pandas as pd
>>> arr = np.array([1,2,3])
>>> s = pd.Series([1,2,3])
>>> df = pd.DataFrame([1,2,3])
>>> bool(arr)
ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()
>>> bool(s)
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
>>> bool(df)
ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

我确实在回答“系列的真值不明确。请使用a.empty，a.bool（），a.item（），a.any（）或a.all（）”时回答这个问题。 + A。

NumPys逻辑功能

然而NumPy的提供逐元素的操作等同于这些运营商的功能，可以在被使用numpy.array，pandas.Series，pandas.DataFrame，或任何其他（符合）numpy.array亚类：

and 有 np.logical_and
or 有 np.logical_or
not 有 np.logical_not
numpy.logical_xor没有Python等效项，但是是逻辑“异或”操作

因此，从本质上讲，应该使用（假设df1并且df2是pandas DataFrames）：

np.logical_and(df1, df2)
np.logical_or(df1, df2)
np.logical_not(df1)
np.logical_xor(df1, df2)

布尔的按位函数和按位运算符

但是，如果您具有布尔NumPy数组，pandas系列或pandas DataFrame，则也可以使用按元素逐位的函数（对于布尔，它们与逻辑函数是（或至少应该是）不可区分的）：

按位与：np.bitwise_and或&运算符
按位或：np.bitwise_or或|运算符
按位不：（np.invert或别名np.bitwise_not）或~运算符
按位异np.bitwise_xor或：或^运算符

通常使用运算符。但是，当与比较运算符组合使用时，必须记住将比较括在括号中，因为按位运算符的优先级高于比较运算符：

(df1 < 10) | (df2 > 10)  # instead of the wrong df1 < 10 | df2 > 10

这可能很烦人，因为Python逻辑运算符的优先级比比较运算符的优先级低，因此您通常可以编写a < 10 and b > 10（其中a并且b是简单整数），并且不需要括号。

逻辑和按位运算之间的差异（非布尔值）

需要特别强调的是，位和逻辑运算仅对布尔NumPy数组（以及布尔Series和DataFrame）是等效的。如果这些不包含布尔值，则这些操作将给出不同的结果。我将包括使用NumPy数组的示例，但对于pandas数据结构，结果将相似：

>>> import numpy as np
>>> a1 = np.array([0, 0, 1, 1])
>>> a2 = np.array([0, 1, 0, 1])

>>> np.logical_and(a1, a2)
array([False, False, False,  True])
>>> np.bitwise_and(a1, a2)
array([0, 0, 0, 1], dtype=int32)

而且由于NumPy（和类似的pandas）对boolean（布尔或“掩码”索引数组）和integer（Index数组）索引所做的操作不同，因此索引的结果也将不同：

>>> a3 = np.array([1, 2, 3, 4])

>>> a3[np.logical_and(a1, a2)]
array([4])
>>> a3[np.bitwise_and(a1, a2)]
array([1, 1, 1, 2])

汇总表

Logical operator | NumPy logical function | NumPy bitwise function | Bitwise operator
-------------------------------------------------------------------------------------
       and       |  np.logical_and        | np.bitwise_and         |        &
-------------------------------------------------------------------------------------
       or        |  np.logical_or         | np.bitwise_or          |        |
-------------------------------------------------------------------------------------
                 |  np.logical_xor        | np.bitwise_xor         |        ^
-------------------------------------------------------------------------------------
       not       |  np.logical_not        | np.invert              |        ~

其中的逻辑运算符不适合与NumPy阵列工作，熊猫系列，和熊猫DataFrames。其他的则在这些数据结构（和普通的Python对象）上工作，并在元素方面工作。但是，请对纯Python上的按位取反要小心，bool因为在这种情况下，布尔将被解释为整数（例如~Falsereturn -1和~Truereturn -2）。

— 塞弗特
source

熊猫中布尔索引的逻辑运算符

TLDR；在熊猫逻辑运算符&，|并~和括号(...)是很重要的！

逻辑与

逻辑或

逻辑非

NumPys逻辑功能

布尔的按位函数和按位运算符

逻辑和按位运算之间的差异（非布尔值）

汇总表

TLDR；_{在熊猫逻辑运算符&，|并~和括号(...)是很重要的！}