Python的清单是如何实现的?


Answers:


56

这是一个动态数组。实际证明:不管索引如何,索引都需要花费同一时间(当然,差异很小(0.0013微秒!)):

...>python -m timeit --setup="x = [None]*1000" "x[500]"
10000000 loops, best of 3: 0.0579 usec per loop

...>python -m timeit --setup="x = [None]*1000" "x[0]"
10000000 loops, best of 3: 0.0566 usec per loop

如果IronPython或Jython使用链接列表,我会感到惊讶-它们会破坏许多基于列表是动态数组的假设而广泛使用的库的性能。


1
@Ralf:我知道我的CPU(就这件事而言,也是大多数其他硬件)很老而且速度很慢-从好的方面来说,我可以假设对于我来说足够快的代码对于所有用户来说都足够快:D

87
@delnan:-1您的“实践证明”是胡扯,这是6个赞成票。大约有98%的时间被占用x=[None]*1000,因此对任何可能的列表访问差异的度量都不够精确。您需要单独进行初始化:-s "x=[None]*100" "x[0]"
John Machin 2010年

26
表明它不是链表的幼稚实现。不能明确表明它是一个数组。
Michael Mior 2010年


3
除了链接列表和数组之外,还有更多的结构,时序在它们之间进行决策没有实际用途。
罗斯·赫姆斯利

236

实际上,C代码非常简单。扩展一个宏并修剪一些不相关的注释,其基本结构在中listobject.h,该结构将列表定义为:

typedef struct {
    PyObject_HEAD
    Py_ssize_t ob_size;

    /* Vector of pointers to list elements.  list[0] is ob_item[0], etc. */
    PyObject **ob_item;

    /* ob_item contains space for 'allocated' elements.  The number
     * currently in use is ob_size.
     * Invariants:
     *     0 <= ob_size <= allocated
     *     len(list) == ob_size
     *     ob_item == NULL implies ob_size == allocated == 0
     */
    Py_ssize_t allocated;
} PyListObject;

PyObject_HEAD包含引用计数和类型标识符。因此,它是一个整体的向量/数组。用于在此类数组已满时调整其大小的代码在中listobject.c。它实际上并没有将数组加倍,而是通过分配来增长

new_allocated = (newsize >> 3) + (newsize < 9 ? 3 : 6);
new_allocated += newsize;

每次达到最大容量时,newsize请求的大小在哪里(不一定allocated + 1是因为您可以添加extend任意数量的元素,而不是append一个一个地添加它们)。

另请参阅Python FAQ


6
因此,当遍历python列表时,它与链接列表一样慢,因为每个条目只是一个指针,所以每个元素很可能会导致缓存未命中。
Kr0e 2014年

9
@ Kr0e:如果后续元素实际上是同一对象,则不是:)但是,如果您需要更小/更友好于缓存的数据结构,则array首选模块或NumPy。
Fred Foo 2014年

@ Kr0e我不会说遍历列表就像链表一样慢,但是遍历链表的就像链表一样慢,Fred提到了警告。例如,遍历列表以将其复制到另一个列表应该比链接列表更快。
甘妮·丹·安德烈

35

在CPython中,列表是指针数组。Python的其他实现可能选择以不同的方式存储它们。


32

这取决于实现,但是IIRC:

  • CPython使用了一个指针数组
  • Jython使用 ArrayList
  • IronPython显然也使用数组。您可以浏览源代码以找出答案。

因此,它们都具有O(1)随机访问权限。


1
依赖于python解释器中的实现,该实现以链表的形式实现列表将是python语言的有效实现?换句话说:O(1)是否不能保证随机访问列表?难道不依靠实现细节就不可能编写高效的代码吗?
sepp2k 2010年

2
@sepp我相信Python中的列表只是有序集合;没有明确说明该实现的实现和/或性能要求
NullUserException's

6
@ sppe2k:由于Python并没有真正的标准或正式规范(尽管有些文档说“ ...可以保证...”),所以不能百分百确定“ this有一张纸保证”。但是由于O(1)列表索引是一个相当普遍且有效的假设,因此没有实现敢于打破它。

@Paul关于如何实现列表的底层实现一无所获。
NullUserException 2010年

指定事物的大O运行时间只是没有发生。语言语法规范不一定与实现细节具有相同的含义,只是经常如此。
保罗·麦克米兰

26

我建议Laurent Luce的文章“ Python列表实现”。这对我真的很有用,因为作者解释了该列表是如何在CPython中实现的,并为此使用了出色的图表。

列出对象C的结构

CPython中的列表对象由以下C结构表示。ob_item是指向列表元素的指针的列表。已分配是在内存中分配的插槽数。

typedef struct {
    PyObject_VAR_HEAD
    PyObject **ob_item;
    Py_ssize_t allocated;
} PyListObject;

重要的是要注意分配的插槽和列表大小之间的差异。列表的大小与相同len(l)。分配的插槽数是已在内存中分配的数量。通常,您会看到分配的大小可能大于大小。这是为了避免realloc每次将新元素添加到列表时都需要调用。

...

附加

我们将一个整数附加到列表中:l.append(1)。怎么了?
在此处输入图片说明

我们继续添加一个元素:l.append(2)list_resize在n + 1 = 2时调用,但是由于分配的大小为4,因此无需分配更多的内存。同样的事情发生时,我们增加2个整数:l.append(3)l.append(4)。下图显示了到目前为止的内容。

在此处输入图片说明

...

让我们在位置1处插入一个新的整数(5),l.insert(1,5)看看内部发生了什么。在此处输入图片说明

...

流行音乐

当您弹出最后一个元素:时l.pop(),将listpop()被调用。list_resize在内部调用listpop(),如果新大小小于分配大小的一半,则列表将缩小。在此处输入图片说明

您可以观察到插槽4仍指向整数,但重要的是列表的大小现在为4。让我们再弹出一个元素。在中list_resize(),大小– 1 = 4 – 1 = 3小于分配的插槽的一半,因此列表缩小为6个插槽,现在列表的新大小为3。

您可以观察到插槽3和4仍指向一些整数,但重要的是列表的大小现在为3。在此处输入图片说明

...

删除 Python列表对象具有删除特定元素的方法:l.remove(5)在此处输入图片说明


谢谢,我现在更加了解列表的链接部分。Python列表是一个aggregation,不是composition。我希望也有一个组成列表。
舒瓦

22

根据文档

Python的列表实际上是可变长度数组,而不是Lisp样式的链接列表。


5

正如上面其他人所述,这些列表(当列表很大时)是通过分配固定数量的空间来实现的;如果该空间应填充,则分配更大的空间并在元素上进行复制。

为了理解为什么在不损失一般性的情况下对O(1)进行摊销,假设我们插入了a = 2 ^ n个元素,现在我们必须将表加倍为2 ^(n + 1)个大小。这意味着我们当前正在执行2 ^(n + 1)个操作。最后一个副本,我们进行了2 ^ n次操作。在此之前,我们做了2 ^(n-1)...一直到8,4,2,1。现在,如果将它们加起来,我们得到1 + 2 + 4 + 8 + ... + 2 ^(n + 1)= 2 ^(n + 2)-1 <4 * 2 ^ n = O(2 ^ n)= O(a)总插入(即O(1)摊销时间)。另外,应注意,如果表允许删除,则表收缩必须以其他因子(例如3倍)完成


据我了解,没有复制较旧的元素。分配了更多空间,但是新空间与已被利用的空间不连续,并且仅将要插入的较新元素复制到新空间。如果我错了,请纠正我。
Tushar Vazirani

1

Python中的列表类似于数组,您可以在其中存储多个值。列表是可变的,这意味着您可以更改它。您应该知道的更重要的事情是,当我们创建列表时,Python会自动为该列表变量创建reference_id。如果通过分配其他变量来更改它,则主列表将被更改。让我们尝试一个例子:

list_one = [1,2,3,4]

my_list = list_one

#my_list: [1,2,3,4]

my_list.append("new")

#my_list: [1,2,3,4,'new']
#list_one: [1,2,3,4,'new']

我们追加了,my_list但是我们的主要列表已更改。这意味着没有将列表指定为副本列表,将其指定为参考。


0

在CPython中,列表是作为动态数组实现的,因此,当我们在那时追加时,不仅添加了一个宏,而且还分配了更多空间,因此每次都不应添加新空间。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.