那是组织事情的一种非常奇怪的方式。如果存储在字典中,这很容易:
# This example should work in any version of Python.
# urls_d will contain URL keys, with counts as values, like: {'http://www.google.fr/' : 1 }
urls_d = {}
for url in list_of_urls:
if not url in urls_d:
urls_d[url] = 1
else:
urls_d[url] += 1
这段更新计数字典的代码是Python中常见的“模式”。常见的是defaultdict
,创建了一个特殊的数据结构,以使其变得更加容易:
from collections import defaultdict # available in Python 2.5 and newer
urls_d = defaultdict(int)
for url in list_of_urls:
urls_d[url] += 1
如果您defaultdict
使用键访问,而该键尚未在中defaultdict
,则该键会自动添加一个默认值。将defaultdict
采取调用您传递,并调用它来获得默认值。在这种情况下,我们在课堂上通过了int
;当Python调用时,int()
它返回零值。因此,第一次引用URL时,其计数将初始化为零,然后将一个添加到计数中。
但是充满计数的字典也是一种常见的模式,因此Python提供了一个现成的类:containers.Counter
您只需Counter
通过调用该类并传递任何可迭代的类来创建实例;它会建立一个字典,其中的键是可迭代的值,而值是键在可迭代中出现的次数的计数。上面的示例变为:
from collections import Counter # available in Python 2.7 and newer
urls_d = Counter(list_of_urls)
如果您确实需要按照显示的方式进行操作,则最简单,最快的方法是使用这三个示例中的任何一个,然后构建所需的示例。
from collections import defaultdict # available in Python 2.5 and newer
urls_d = defaultdict(int)
for url in list_of_urls:
urls_d[url] += 1
urls = [{"url": key, "nbr": value} for key, value in urls_d.items()]
如果您使用的是Python 2.7或更高版本,则可以单行执行:
from collections import Counter
urls = [{"url": key, "nbr": value} for key, value in Counter(list_of_urls).items()]