如何获得熊猫系列的按元素逻辑非?


229

我有一个Series包含布尔值的pandas 对象。如何获得包含NOT每个值逻辑的序列?

例如,考虑一个包含以下内容的系列:

True
True
True
False

我想要获得的系列将包含:

False
False
False
True

这似乎应该相当简单,但是显然我放错了我的mojo =(


1
重要的是,数据不要包含object以下答案的类型,因此请使用:~ df.astype('bool')
LearnOPhile

我已经在这篇文章中写了所有逻辑运算符。该职位还包括其他选择。
cs95

Answers:


259

要反转布尔系列,请使用~s

In [7]: s = pd.Series([True, True, False, True])

In [8]: ~s
Out[8]: 
0    False
1    False
2     True
3    False
dtype: bool

使用Python2.7,NumPy 1.8.0,Pandas 0.13.1:

In [119]: s = pd.Series([True, True, False, True]*10000)

In [10]:  %timeit np.invert(s)
10000 loops, best of 3: 91.8 µs per loop

In [11]: %timeit ~s
10000 loops, best of 3: 73.5 µs per loop

In [12]: %timeit (-s)
10000 loops, best of 3: 73.5 µs per loop

从Pandas 0.13.0开始,Series不再是numpy.ndarray;的子类。它们现在是的子类pd.NDFrame。这可能与为什么np.invert(s)不再像~s或一样快有关-s

注意:timeit结果可能取决于许多因素,包括硬件,编译器,操作系统,Python,NumPy和Pandas版本。


适当注意。除了变慢之外,代字号和之间还有什么区别-
blz 2013年

Wierd,我实际上tilde对文档中提到的进行了测试,但它与np.invert:S的性能不同:
root

@blz:至少在运行NumPy 1.6.2的Ubuntu计算机上np.invert(s)~s和的性能-s都相同。
unutbu 2013年

@root:我不确定为什么我们的时间结果之间会有如此大的差异,但这肯定会发生。您正在使用什么操作系统和NumPy版本?
unutbu 2013年

同样在Ubuntu上,但是使用NumPy 1.7.0 ...(np.bitwise_not(s)执行与)相同np.inverse

32

@unutbu的答案是正确的,只是想添加一个警告,说明您的蒙版必须是dtype bool,而不是'object'。也就是说,您的面具永远都不会有。看到这里 -即使您的面具现在是不含纳米的,它仍将是“对象”类型。

“对象”系列的逆函数不会引发错误,相反,您将获得整数的垃圾掩码,这些掩码将无法按预期工作。

In[1]: df = pd.DataFrame({'A':[True, False, np.nan], 'B':[True, False, True]})
In[2]: df.dropna(inplace=True)
In[3]: df['A']
Out[3]:
0    True
1   False
Name: A, dtype object
In[4]: ~df['A']
Out[4]:
0   -2
0   -1
Name: A, dtype object

与同事讨论了这个问题之后,我得到了一个解释:看起来熊猫正在恢复按位运算符:

In [1]: ~True
Out[1]: -2

正如@geher所说,您可以先将其转换为具有astype的bool,然后再使用〜逆

~df['A'].astype(bool)
0    False
1     True
Name: A, dtype: bool
(~df['A']).astype(bool)
0    True
1    True
Name: A, dtype: bool

在您的示例中,可以使用.astype(bool)例如~df['A'].astype(bool)
geher

之所以有效,astype(bool)是因为发生在~ ~df['A'].astype(bool)vs(~df['A']).astype(bool)
JSharm

16

我只是试一试:

In [9]: s = Series([True, True, True, False])

In [10]: s
Out[10]: 
0     True
1     True
2     True
3    False

In [11]: -s
Out[11]: 
0    False
1    False
2    False
3     True

我实际上尝试了除-!下次我会记住这一点。
blz 2013年

6

您也可以使用numpy.invert

In [1]: import numpy as np

In [2]: import pandas as pd

In [3]: s = pd.Series([True, True, False, True])

In [4]: np.invert(s)
Out[4]: 
0    False
1    False
2     True
3    False

编辑:性能差异出现在Ubuntu 12.04,Python 2.7,NumPy 1.7.0上-尽管使用NumPy 1.6.2似乎不存在:

In [5]: %timeit (-s)
10000 loops, best of 3: 26.8 us per loop

In [6]: %timeit np.invert(s)
100000 loops, best of 3: 7.85 us per loop

In [7]: %timeit ~s
10000 loops, best of 3: 27.3 us per loop

在其他平台上可能不正确。Win 7,python 3.6.3 numpy 1.13.3,pandas 0.20.3,(-s)是最快的,(〜s)是第二个,np.invert(s)是最慢的一个
gaozhidf

0

NumPy较慢,因为它将输入强制转换为布尔值(因此None和0变为False,其他所有值变为True)。

import pandas as pd
import numpy as np
s = pd.Series([True, None, False, True])
np.logical_not(s)

给你

0    False
1     True
2     True
3    False
dtype: object

而〜s会崩溃。在大多数情况下,与NumPy相比,波浪号是一个更安全的选择。

熊猫0.25,小米1.17

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.