查找两个嵌套列表的交集?


468

我知道如何得到两个平面列表的交集:

b1 = [1,2,3,4,5,9,11,15]
b2 = [4,5,6,7,8]
b3 = [val for val in b1 if val in b2]

要么

def intersect(a, b):
    return list(set(a) & set(b))

print intersect(b1, b2)

但是当我必须找到嵌套列表的交集时,我的问题就开始了:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

最后,我希望收到:

c3 = [[13,32],[7,13,28],[1,6]]

你们能帮我这个忙吗?

有关


c1与c2相交的交点是什么?您是否只想查找c1是否在c2中?还是要查找c1中出现在c2中任何位置的所有元素?
Brian R. Bondy

阅读和在解释玩耍。
2015年

Answers:


177

如果你想:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
c3 = [[13, 32], [7, 13, 28], [1,6]]

然后这是您的Python 2解决方案:

c3 = [filter(lambda x: x in c1, sublist) for sublist in c2]

在Python 3中,filter返回的是一个Iterable而不是list,因此您需要使用以下命令包装filter调用list()

c3 = [list(filter(lambda x: x in c1, sublist)) for sublist in c2]

说明:

过滤器部分接受每个子列表的项目,并检查它是否在源列表c1中。对c2中的每个子列表执行列表推导。


35
您可以使用它filter(set(c1).__contains__, sublist)来提高效率。顺便说一句,此解决方案的优点是filter()保留字符串和元组类型。
jfs

3
我喜欢这种方法,但我在我的结果列表中越来越空白“”
乔纳森·翁

我在这里添加了Python 3 compat,因为我将其用作重复Python 3问题的重复目标
Antti Haapala,2016年

9
通过嵌套的理解,这可以更好地阅读IMO:c3 = [[x for x in sublist if x in c1] for sublist in c2]
Eric

894

您无需定义交集。它已经是场景的一流组成部分。

>>> b1 = [1,2,3,4,5,9,11,15]
>>> b2 = [4,5,6,7,8]
>>> set(b1).intersection(b2)
set([4, 5])

3
因为转换为set,这会比lambda慢吗?
西罗Santilli郝海东冠状病六四事件法轮功

32
@ S.Lott,有什么问题set(b1) & set(b2)吗?IMO的清洁剂可以使用操作员。
gwg 2015年

4
另外,使用set会导致代码快几个数量级。这是一个示例基准®
andersonvom

5
仅在不需要订购结果的情况下才有效。
Borbag​​ '17

7
所以...这个答案绝不会回答问题,对吗?因为这现在适用于嵌套列表。
Mayou17年

60

对于只想查找两个列表的交集的人们,Asker提供了两种方法:

b1 = [1,2,3,4,5,9,11,15]
b2 = [4,5,6,7,8]
b3 = [val for val in b1 if val in b2]

def intersect(a, b):
     return list(set(a) & set(b))

print intersect(b1, b2)

但是有一种更有效的混合方法,因为您只需要在列表/集合之间进行一次转换,而不是三种:

b1 = [1,2,3,4,5]
b2 = [3,4,5,6]
s2 = set(b2)
b3 = [val for val in b1 if val in s2]

这将在O(n)中运行,而他涉及列表理解的原始方法将在O(n ^ 2)中运行


由于“如果s2中的val”以O(N)运行,建议的代码段复杂度也为O(n ^ 2)
Romeno

8
根据wiki.python.org/moin/TimeComplexity#set,“s2中的 val”的平均情况为O(1)-因此,在n次操作中,预期时间为O(n)(最坏情况下的时间是否为O( n)或O(n ^ 2)取决于此平均情况是否表示摊销时间,但这在实践中不是很重要。
D Coetzee

2
运行时间为O(N)并不是因为要进行摊销,而是因为集合成员资格平均为O(1)(例如,在使用哈希表时),所以差异很大,例如,因为可以保证摊销时间。
miroB

28

功能方法:

input_list = [[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]]

result = reduce(set.intersection, map(set, input_list))

它可以应用于1+列表的更一般情况


允许输入列表为空:set(*input_list[:1]).intersection(*input_list[1:])。迭代版本(it = iter(input_list)reduce(set.intersection, it, set(next(it, [])))。两种版本都不需要将所有输入列表都转换为set。后者具有更高的内存效率。
jfs 2012年

用于from functools import reduce在Python 3中使用它。或者更好的是使用显式for循环。
TrigonaMinima '16

27

纯列表理解版本

>>> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
>>> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
>>> c1set = frozenset(c1)

展平变体:

>>> [n for lst in c2 for n in lst if n in c1set]
[13, 32, 7, 13, 28, 1, 6]

嵌套变体:

>>> [[n for n in lst if n in c1set] for lst in c2]
[[13, 32], [7, 13, 28], [1, 6]]

20

&运算符采用两组的交集。

{1, 2, 3} & {2, 3, 4}
Out[1]: {2, 3}

很好,但是此主题仅用于列表!
Rafa0809 '17

3
两个列表相交的结果是一个集合,因此此答案完全正确。
shrewmouse17年

列表可以包含重复值,但集合不能包含重复值。
diewland

13

采取2个列表的交集的pythonic方法是:

[x for x in list1 if x in list2]

2
这个问题是关于嵌套列表的。您的答案没有回答问题。
托马斯

8

您应该使用此代码(取自http://kogs-www.informatik.uni-hamburg.de/~meine/python_tricks)进行拼合,该代码未经测试,但我确定它可以正常工作:


def flatten(x):
    """flatten(sequence) -> list

    Returns a single, flat list which contains all elements retrieved
    from the sequence and all recursively contained sub-sequences
    (iterables).

    Examples:
    >>> [1, 2, [3,4], (5,6)]
    [1, 2, [3, 4], (5, 6)]
    >>> flatten([[[1,2,3], (42,None)], [4,5], [6], 7, MyVector(8,9,10)])
    [1, 2, 3, 42, None, 4, 5, 6, 7, 8, 9, 10]"""

    result = []
    for el in x:
        #if isinstance(el, (list, tuple)):
        if hasattr(el, "__iter__") and not isinstance(el, basestring):
            result.extend(flatten(el))
        else:
            result.append(el)
    return result

展平列表后,可以按通常方式执行交集:


c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

def intersect(a, b):
     return list(set(a) & set(b))

print intersect(flatten(c1), flatten(c2))

2
这可以使代码Geo更加平整,但是并不能回答问题。询问者特别希望结果的形式为[[13,32],[7,13,28],[1,6]]。
罗布·杨

8

intersect定义以来,基本的列表理解就足够了:

>>> c3 = [intersect(c1, i) for i in c2]
>>> c3
[[32, 13], [28, 13, 7], [1, 6]]

得益于S. Lott的评论和TM。的相关评论:

>>> c3 = [list(set(c1).intersection(i)) for i in c2]
>>> c3
[[32, 13], [28, 13, 7], [1, 6]]

5

鉴于:

> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]

> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

我发现以下代码运行良好,并且如果使用set操作,则可能更简洁:

> c3 = [list(set(f)&set(c1)) for f in c2] 

它得到:

> [[32, 13], [28, 13, 7], [1, 6]]

如果需要订购:

> c3 = [sorted(list(set(f)&set(c1))) for f in c2] 

我们有:

> [[13, 32], [7, 13, 28], [1, 6]]

顺便说一句,对于更多的python样式,这个也很好:

> c3 = [ [i for i in set(f) if i in c1] for f in c2]

3

我不知道我是否迟于回答你的问题。阅读完您的问题后,我想到了一个可在列表和嵌套列表上使用的函数intersect()。我使用递归来定义此功能,这非常直观。希望它是您要寻找的:

def intersect(a, b):
    result=[]
    for i in b:
        if isinstance(i,list):
            result.append(intersect(a,i))
        else:
            if i in a:
                 result.append(i)
    return result

例:

>>> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
>>> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
>>> print intersect(c1,c2)
[[13, 32], [7, 13, 28], [1, 6]]

>>> b1 = [1,2,3,4,5,9,11,15]
>>> b2 = [4,5,6,7,8]
>>> print intersect(b1,b2)
[4, 5]

2

你考虑[1,2]相交[1, [2]]吗?也就是说,仅仅是您关心的数字还是列表结构?

如果只是数字,请研究如何“拉平”列表,然后使用该set()方法。


我想保持列表的结构不变。
elfuego1年

1

我也在寻找一种实现方法,最终它最终像这样:

def compareLists(a,b):
    removed = [x for x in a if x not in b]
    added = [x for x in b if x not in a]
    overlap = [x for x in a if x in b]
    return [removed,added,overlap]

如果不使用set.intersection,那么我也将使用这些简单的衬板。
slaughter98

0
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]

c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

c3 = [list(set(c2[i]).intersection(set(c1))) for i in xrange(len(c2))]

c3
->[[32, 13], [28, 13, 7], [1, 6]]

0

我们可以为此使用set方法:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

   result = [] 
   for li in c2:
       res = set(li) & set(c1)
       result.append(list(res))

   print result

0

要定义正确考虑元素基数的交集,请使用Counter

from collections import Counter

>>> c1 = [1, 2, 2, 3, 4, 4, 4]
>>> c2 = [1, 2, 4, 4, 4, 4, 5]
>>> list((Counter(c1) & Counter(c2)).elements())
[1, 2, 4, 4, 4]

0
# Problem:  Given c1 and c2:
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
# how do you get c3 to be [[13, 32], [7, 13, 28], [1, 6]] ?

这是一种c3不涉及集合的设置方法:

c3 = []
for sublist in c2:
    c3.append([val for val in c1 if val in sublist])

但是,如果您只想使用一行,则可以执行以下操作:

c3 = [[val for val in c1 if val in sublist]  for sublist in c2]

这是列表理解中的列表理解,这有点不寻常,但是我认为您在遵循它时应该不会有太多麻烦。


0
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
c3 = [list(set(i) & set(c1)) for i in c2]
c3
[[32, 13], [28, 13, 7], [1, 6]]

对我来说,这是一种非常优雅,快捷的方法:)


0

平面清单可以reduce很容易地通过。

您需要使用初始化程序 -函数中的第三个参数reduce

reduce(
   lambda result, _list: result.append(
       list(set(_list)&set(c1)) 
     ) or result, 
   c2, 
   [])

上面的代码适用于python2和python3,但是您需要将reduce模块导入为from functools import reduce。有关详细信息,请参见下面的链接。


-1

查找可迭代对象之间的差异和交集的简单方法

如果重复很重要,请使用此方法

from collections import Counter

def intersection(a, b):
    """
    Find the intersection of two iterables

    >>> intersection((1,2,3), (2,3,4))
    (2, 3)

    >>> intersection((1,2,3,3), (2,3,3,4))
    (2, 3, 3)

    >>> intersection((1,2,3,3), (2,3,4,4))
    (2, 3)

    >>> intersection((1,2,3,3), (2,3,4,4))
    (2, 3)
    """
    return tuple(n for n, count in (Counter(a) & Counter(b)).items() for _ in range(count))

def difference(a, b):
    """
    Find the symmetric difference of two iterables

    >>> difference((1,2,3), (2,3,4))
    (1, 4)

    >>> difference((1,2,3,3), (2,3,4))
    (1, 3, 4)

    >>> difference((1,2,3,3), (2,3,4,4))
    (1, 3, 4, 4)
    """
    diff = lambda x, y: tuple(n for n, count in (Counter(x) - Counter(y)).items() for _ in range(count))
    return diff(a, b) + diff(b, a)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.