在熊猫数据框中删除全零的行


102

我可以使用pandas dropna()功能来删除将部分或全部列设置为NA的行。是否存在用于删除所有列的值为0的行的等效函数?

P   kt  b   tt  mky depth
1   0   0   0   0   0
2   0   0   0   0   0
3   0   0   0   0   0
4   0   0   0   0   0
5   1.1 3   4.5 2.3 9.0

在此示例中,我们要删除数据帧的前4行。

谢谢!


为了澄清,这是两个问题。之一,以删除列与所有的值为0。但同时,对于功能的等效于dropna(),其将与删除列的任何值作为0
炼金术

Answers:


110

事实证明,这可以很好地以矢量化方式表达:

> df = pd.DataFrame({'a':[0,0,1,1], 'b':[0,1,0,1]})
> df = df[(df.T != 0).any()]
> df
   a  b
1  0  1
2  1  0
3  1  1

6
很好,但我认为您可以避免与df = df[(df.T != 0).any()]
Akavall的反对

1
@Akavall好多了!
U2EF1 2014年

1
请注意:OP想要删除rows with all columns having value 0,但是可以推断出all方法。
paulochf '16

1
所有这些答案都说明了如何删除全零的行,但是,我想删除第一列为0的行。借助本文中的所有讨论和答案,我通过执行df.loc [df.iloc [:, 0]!= 0]来完成此任务。只想分享,因为这个问题与这个问题有关!!
hemanta '19

2
不需要转置,any()可以将轴作为参数。如此有效:df = df [df.any(axis = 1)]
拉胡尔·贾

129

一线。无需移调:

df.loc[~(df==0).all(axis=1)]

对于那些喜欢对称的人,这也适用...

df.loc[(df!=0).any(axis=1)]

1
为了简洁(我认为目的明确),请结合此内容和Akavall的评论:df.loc[(df != 0).any(1)]。团队合作!
2014年

1
+1,转换速度提高了30%-491至614微秒,我喜欢axis=1显示的方式;我认为
还有

应该提到使用.all和.any之间的区别,因为原始问题提到了dropna的等效性。如果要删除所有包含零列的行,则必须反转以上答案中的.all和.any。在寻找该功能时,花了我一段时间才意识到这一点。
扎克·凯恩

这对我不起作用,但df
会给

是否有此的“就地”版本?我看到要按照OP的要求在df中删除行,这将是必需的,df = df.loc[(df!=0).all(axis=1)]df = df.loc[(df!=0).any(axis=1)]删除任何零的行,这实际上与dropna()等效。
炼金术

19

我大约每月一次查找此问题,并且总是必须从评论中找出最佳答案:

df.loc[(df!=0).any(1)]

谢谢丹·艾伦!


2
无需挖掘。@ 8one6早在2014年就将其包含在他的回答中,该部分说:“以及那些喜欢对称的人...”。
拉胡尔·穆穆里亚

14

用替换零,nan然后将所有条目的行都删除为nan。之后,将其替换nan为零。

import numpy as np
df = df.replace(0, np.nan)
df = df.dropna(how='all', axis=0)
df = df.replace(np.nan, 0)

3
如果数据中有任何预先存在的NaN,这将失败。
OmerB


7

我发现一些解决方案在查找时很有用,尤其是对于较大的数据集:

df[(df.sum(axis=1) != 0)]       # 30% faster 
df[df.values.sum(axis=1) != 0]  # 3X faster 

继续@ U2EF1中的示例:

In [88]: df = pd.DataFrame({'a':[0,0,1,1], 'b':[0,1,0,1]})

In [91]: %timeit df[(df.T != 0).any()]
1000 loops, best of 3: 686 µs per loop

In [92]: df[(df.sum(axis=1) != 0)]
Out[92]: 
   a  b
1  0  1
2  1  0
3  1  1

In [95]: %timeit df[(df.sum(axis=1) != 0)]
1000 loops, best of 3: 495 µs per loop

In [96]: %timeit df[df.values.sum(axis=1) != 0]
1000 loops, best of 3: 217 µs per loop

在更大的数据集上:

In [119]: bdf = pd.DataFrame(np.random.randint(0,2,size=(10000,4)))

In [120]: %timeit bdf[(bdf.T != 0).any()]
1000 loops, best of 3: 1.63 ms per loop

In [121]: %timeit bdf[(bdf.sum(axis=1) != 0)]
1000 loops, best of 3: 1.09 ms per loop

In [122]: %timeit bdf[bdf.values.sum(axis=1) != 0]
1000 loops, best of 3: 517 µs per loop

如果您的行包含-1和1会发生不好的事情吗?
Rhys Ulerich'3

当然,如果您有相等的行加到0,则总和将不起作用。这是一种快速的解决方法,它的速度稍慢一些: df[~(df.values.prod(axis=1) == 0) | ~(df.values.sum(axis=1)==0)]
clocker

prod()函数无法解决任何问题。如果行中有任何0都将返回0。如果必须像这样处理一行:[-1,-0.5、0、0.5、1],那么您的解决方案都将无法工作。
Rahul Murmuria'6

这是一个比接受的答案快3倍的正确版本:bdf[np.square(bdf.values).sum(axis=1) != 0]
Rahul Murmuria

5
import pandas as pd

df = pd.DataFrame({'a' : [0,0,1], 'b' : [0,0,-1]})

temp = df.abs().sum(axis=1) == 0      
df = df.drop(temp)

结果:

>>> df
   a  b
2  1 -1

1列数据框对我不起作用。有ValueError: labels [True ... ] not contained in matrix
的Unfun猫

而不是df = df.drop(temp)使用df = df.drop(df[temp].index)
道格拉斯·费雷拉

3

您可以使用快速lambda功能来检查给定行中的所有值是否均为0。然后,您可以将应用该结果的结果lambda用作仅选择与该条件匹配或不匹配的行的一种方式:

import pandas as pd
import numpy as np

np.random.seed(0)

df = pd.DataFrame(np.random.randn(5,3), 
                  index=['one', 'two', 'three', 'four', 'five'],
                  columns=list('abc'))

df.loc[['one', 'three']] = 0

print df
print df.loc[~df.apply(lambda row: (row==0).all(), axis=1)]

产量:

              a         b         c
one    0.000000  0.000000  0.000000
two    2.240893  1.867558 -0.977278
three  0.000000  0.000000  0.000000
four   0.410599  0.144044  1.454274
five   0.761038  0.121675  0.443863

[5 rows x 3 columns]
             a         b         c
two   2.240893  1.867558 -0.977278
four  0.410599  0.144044  1.454274
five  0.761038  0.121675  0.443863

[3 rows x 3 columns]

1

另一种选择:

# Is there anything in this row non-zero?
# df != 0 --> which entries are non-zero? T/F
# (df != 0).any(axis=1) --> are there 'any' entries non-zero row-wise? T/F of rows that return true to this statement.
# df.loc[all_zero_mask,:] --> mask your rows to only show the rows which contained a non-zero entry.
# df.shape to confirm a subset.

all_zero_mask=(df != 0).any(axis=1) # Is there anything in this row non-zero?
df.loc[all_zero_mask,:].shape

0

对我来说这段代码: df.loc[(df!=0).any(axis=0)] 没有用。它返回了确切的数据集。

相反,我用 df.loc[:, (df!=0).any(axis=0)]并删除了数据集中所有具有0值的列

该函数.all()删除了我的数据集中所有零值的所有列。



-2

要在任何行中删除所有值为0的列:

new_df = df[df.loc[:]!=0].dropna()
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.