检查pandas列是否包含列表中的所有元素


20

我有这样的df:

frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']})

以及物品清单:

letters = ['a','c']

我的目标是从中获取frame至少包含2个元素的所有行。letters

我想出了以下解决方案:

for i in letters:
    subframe = frame[frame['a'].str.contains(i)]

这给了我我想要的,但是就可伸缩性而言,它可能不是最佳的解决方案。是否有任何“向量化”解决方案?谢谢


4
它只会给您包含最后一个字母的行,因为您可以在任何迭代中覆盖子帧
Tom Ron

@TomRon你是对的,真是大错特错了:)
考伯

Answers:


12

我将建立一个Series列表,然后应用vectorized np.all

contains = [frame['a'].str.contains(i) for i in letters]
resul = frame[np.all(contains, axis=0)]

它给出了预期的结果:

       a
0  a,b,c
1  a,c,f
3  a,z,c

3
祝贺10万!
Peter Haddad

14

一种方法是使用将列值拆分为列表str.split,然后检查获取的列表中的set(letters)a 是否为subset

letters_s = set(letters)
frame[frame.a.str.split(',').map(letters_s.issubset)]

     a
0  a,b,c
1  a,c,f
3  a,z,c

基准测试:

def serge(frame):
    contains = [frame['a'].str.contains(i) for i in letters]
    return frame[np.all(contains, axis=0)]

def yatu(frame):
    letters_s = set(letters)
    return frame[frame.a.str.split(',').map(letters_s.issubset)]

def austin(frame):
    mask =  frame.a.apply(lambda x: np.intersect1d(x.split(','), letters).size > 0)
    return frame[mask]

def datanovice(frame):
    s = frame['a'].str.split(',').explode().isin(letters).groupby(level=0).cumsum()
    return frame.loc[s[s.ge(2)].index.unique()]

perfplot.show(
    setup=lambda n: pd.concat([frame]*n, axis=0).reset_index(drop=True), 

    kernels=[
        lambda df: serge(df),
        lambda df: yatu(df),
        lambda df: df[df['a'].apply(lambda x: np.all([*map(lambda l: l in x, letters)]))],
        lambda df: austin(df),
        lambda df: datanovice(df),
    ],

    labels=['serge', 'yatu', 'bruno','austin', 'datanovice'],
    n_range=[2**k for k in range(0, 18)],
    equality_check=lambda x, y: x.equals(y),
    xlabel='N'
)

在此处输入图片说明


TypeError: unhashable type: 'set'在运行您的代码时得到了?在提供的框架上运行它
Datanovice

什么版本的?@Datanovice仔细检查,一切似乎都很好
yatu,

我的熊猫是1.0.3python 3.7可能就是我
Datanovice

3
@Datanovice我认为您需要使用python 3.8 :)
Anky

2
谢谢,我得到与@Datanovice相同的错误,不幸的是无法跳转到python 3.8
Kauber

7

您可以使用np.intersect1d

import pandas as pd
import numpy as np

frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']})
letters = ['a','c']

mask =  frame.a.apply(lambda x: np.intersect1d(x.split(','), letters).size > 0)
print(frame[mask])

    a
0  a,b,c
1  a,c,f
3  a,z,c

7

这也可以解决它:

frame[frame['a'].apply(lambda x: np.all([*map(lambda l: l in x, letters)]))]

6

使用set.issubset

frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c','x,y']})
letters = ['a','c']

frame[frame['a'].apply(lambda x: set(letters).issubset(x))]

Out:

       a
0  a,b,c
1  a,c,f
3  a,z,c

5

IIUC explode和一个布尔过滤器

这个想法是创建一个单一的序列,然后我们可以使用累积总和对索引进行分组,以计算列表的真实出现次数

s = frame['a'].str.split(',').explode().isin(letters).groupby(level=0).cumsum()

print(s)

0    1.0
0    1.0
0    2.0
1    1.0
1    2.0
1    2.0
2    0.0
2    0.0
2    0.0
3    1.0
3    1.0
3    2.0

frame.loc[s[s.ge(2)].index.unique()]

out:

       a
0  a,b,c
1  a,c,f
3  a,z,c

1
frame.iloc[[x for x in range(len(frame)) if set(letters).issubset(frame.iloc[x,0])]]

输出:

        a
 0  a,b,c
 1  a,c,f
 3  a,z,c

时间

%%timeit
#hermes
frame.iloc[[x for x in range(len(frame)) if set(letters).issubset(frame.iloc[x,0])]]

输出

300 µs ± 32.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.