有效的循环缓冲区?


109

我想在python中创建一个高效的循环缓冲区(目标是取缓冲区中整数值的平均值)。

这是使用列表收集值的有效方法吗?

def add_to_buffer( self, num ):
    self.mylist.pop( 0 )
    self.mylist.append( num )

什么会更有效(为什么)?


这不是实现循环缓冲区的有效方法,因为pop(0)是列表中的O(n)操作。pop(0)删除列表中的第一个元素,所有元素都必须向左移动。请使用具有maxlen属性的collections.deque。deque对附加和弹出操作执行O(1)操作。
弗拉德·贝兹登(Flad Bezden)

Answers:


204

我会用collections.deque一个maxlenarg

>>> import collections
>>> d = collections.deque(maxlen=10)
>>> d
deque([], maxlen=10)
>>> for i in xrange(20):
...     d.append(i)
... 
>>> d
deque([10, 11, 12, 13, 14, 15, 16, 17, 18, 19], maxlen=10)

在文档中有一个与您想要的菜谱deque相似的菜谱。我断言它是最有效的,这完全取决于它是由C语言以熟练掌握一流代码的习惯由非常熟练的工作人员实现的。


7
+1是的,这是不错的电池收纳方式。循环缓冲区的操作为O(1),正如您所说的那样,额外的开销在C中,因此应该仍然非常快
John La Rooy 2010年

7
我不喜欢这种解决方案,因为maxlen定义时文档不保证O(1)随机访问。当deque可以增长到无穷大时,O(n)是可以理解的,但是如果maxlen给出,则索引元素应该是恒定的时间。
lvella

1
我的猜测是将其实现为链接列表而不是数组。
e-satis

1
如果以下我的回答中的时间安排正确,似乎正确。
djvg

13

从列表的开头弹出会导致整个列表被复制,因此效率低下

相反,您应该使用固定大小的列表/数组以及在添加/删除项目时在缓冲区中移动的索引


4
同意。无论它看起来多么优雅或雅致,或使用什么语言。实际上,您对垃圾收集器(或堆管理器,分页/映射机制或执行实际内存魔术的任何事情)的干扰越少越好。

@RocketSurgeon这不是魔术,只是它是第一个元素被删除的数组。因此,对于大小为n的数组,这意味着n-1个复制操作。这里不涉及垃圾收集器或类似设备。
基督教徒

3
我同意。这样做也比某些人想象的容易得多。只需使用一个不断增加的计数器,并在访问该项目时使用模运算符(%arraylen)。
安德烈·布鲁姆

idem,您可以在上面检查我的帖子,这就是我的做法
MoonCactus 2014年

10

根据MoonCactus的答案,这是一个circularlist类。与他的版本的不同之处在于,此处 c[0]始终会给出最旧的追加元素,c[-1]最新的追加元素,c[-2]倒数第二个……这对于应用程序来说更自然。

c = circularlist(4)
c.append(1); print c, c[0], c[-1]    #[1]              1, 1
c.append(2); print c, c[0], c[-1]    #[1, 2]           1, 2
c.append(3); print c, c[0], c[-1]    #[1, 2, 3]        1, 3
c.append(8); print c, c[0], c[-1]    #[1, 2, 3, 8]     1, 8
c.append(10); print c, c[0], c[-1]   #[10, 2, 3, 8]    2, 10
c.append(11); print c, c[0], c[-1]   #[10, 11, 3, 8]   3, 11

类:

class circularlist(object):
    def __init__(self, size, data = []):
        """Initialization"""
        self.index = 0
        self.size = size
        self._data = list(data)[-size:]

    def append(self, value):
        """Append an element"""
        if len(self._data) == self.size:
            self._data[self.index] = value
        else:
            self._data.append(value)
        self.index = (self.index + 1) % self.size

    def __getitem__(self, key):
        """Get element by index, relative to the current index"""
        if len(self._data) == self.size:
            return(self._data[(key + self.index) % self.size])
        else:
            return(self._data[key])

    def __repr__(self):
        """Return string representation"""
        return self._data.__repr__() + ' (' + str(len(self._data))+' items)'

[编辑]:添加了可选data参数以允许从现有列表中进行初始化,例如:

circularlist(4, [1, 2, 3, 4, 5])      #  [2, 3, 4, 5] (4 items)
circularlist(4, set([1, 2, 3, 4, 5])) #  [2, 3, 4, 5] (4 items)
circularlist(4, (1, 2, 3, 4, 5))      #  [2, 3, 4, 5] (4 items)

很好的补充。Python列表已经允许使用负索引,但是(-1)例如,一旦循环缓冲区已满,就不会返回期望值,因为对列表的“最后”添加最终在列表
MoonCactus

1
它确实适用于@MoonCactus,请参见我在答案上方给出的6个示例;在最后一个中,您可以看到c[-1]始终是正确的元素。__getitem__做对了。
巴斯基(Basj)

哦,是的,我的意思是我的失败了,不是您的失败了,对不起:DI将使我的评论更清楚!-哦,我不能,评论太旧了。
MoonCactus

不错的简单解决方案。我添加了一个可选参数以允许从现有数据初始化列表,这种方式更具pythonpathetic的功能。
Orwellophile

9

Python的双端队列很慢。您也可以改用numpy.roll 如何旋转形状为(n,)或(n,1)的numpy数组中的数字?

在此基准测试中,双端队列为448ms。Numpy.roll是29毫秒 http://scimusing.wordpress.com/2013/10/25/ring-buffers-in-pythonnumpy/


1
但是numpy.roll返回数组的副本,对吗?
djvg

3
这个答案很容易引起误解-Python的双端队列看起来非常快,但是在您链接到的基准测试中,从numpy数组转换到numpy数组会使速度大大降低。
xitrium

7

可以使用双端队列类,但是对于问题的查询(平均),这是我的解决方案:

>>> from collections import deque
>>> class CircularBuffer(deque):
...     def __init__(self, size=0):
...             super(CircularBuffer, self).__init__(maxlen=size)
...     @property
...     def average(self):  # TODO: Make type check for integer or floats
...             return sum(self)/len(self)
...
>>>
>>> cb = CircularBuffer(size=10)
>>> for i in range(20):
...     cb.append(i)
...     print "@%s, Average: %s" % (cb, cb.average)
...
@deque([0], maxlen=10), Average: 0
@deque([0, 1], maxlen=10), Average: 0
@deque([0, 1, 2], maxlen=10), Average: 1
@deque([0, 1, 2, 3], maxlen=10), Average: 1
@deque([0, 1, 2, 3, 4], maxlen=10), Average: 2
@deque([0, 1, 2, 3, 4, 5], maxlen=10), Average: 2
@deque([0, 1, 2, 3, 4, 5, 6], maxlen=10), Average: 3
@deque([0, 1, 2, 3, 4, 5, 6, 7], maxlen=10), Average: 3
@deque([0, 1, 2, 3, 4, 5, 6, 7, 8], maxlen=10), Average: 4
@deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10), Average: 4
@deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], maxlen=10), Average: 5
@deque([2, 3, 4, 5, 6, 7, 8, 9, 10, 11], maxlen=10), Average: 6
@deque([3, 4, 5, 6, 7, 8, 9, 10, 11, 12], maxlen=10), Average: 7
@deque([4, 5, 6, 7, 8, 9, 10, 11, 12, 13], maxlen=10), Average: 8
@deque([5, 6, 7, 8, 9, 10, 11, 12, 13, 14], maxlen=10), Average: 9
@deque([6, 7, 8, 9, 10, 11, 12, 13, 14, 15], maxlen=10), Average: 10
@deque([7, 8, 9, 10, 11, 12, 13, 14, 15, 16], maxlen=10), Average: 11
@deque([8, 9, 10, 11, 12, 13, 14, 15, 16, 17], maxlen=10), Average: 12
@deque([9, 10, 11, 12, 13, 14, 15, 16, 17, 18], maxlen=10), Average: 13
@deque([10, 11, 12, 13, 14, 15, 16, 17, 18, 19], maxlen=10), Average: 14

TypeError: 'numpy.float64' object is not callable在尝试调用average方法时得到提示
scls

是的...事实上,我猜想双端队列在内部使用了numpy数组(删除
@property

17
我保证双端队列在内部不使用numpy数组。collections是标准库的一部分,numpy不是。对第三方库的依赖将导致糟糕的标准库。

6

尽管这里已经有很多不错的答案,但我找不到所提及选项的任何时间直接比较。因此,请在下面的比较中找到我的谦虚尝试。

仅出于测试目的,该类可以在list基于缓冲区,collections.deque基于缓冲区和Numpy.roll基于缓冲区之间切换。

请注意,该update方法一次只添加一个值,以保持简单。

import numpy
import timeit
import collections


class CircularBuffer(object):
    buffer_methods = ('list', 'deque', 'roll')

    def __init__(self, buffer_size, buffer_method):
        self.content = None
        self.size = buffer_size
        self.method = buffer_method

    def update(self, scalar):
        if self.method == self.buffer_methods[0]:
            # Use list
            try:
                self.content.append(scalar)
                self.content.pop(0)
            except AttributeError:
                self.content = [0.] * self.size
        elif self.method == self.buffer_methods[1]:
            # Use collections.deque
            try:
                self.content.append(scalar)
            except AttributeError:
                self.content = collections.deque([0.] * self.size,
                                                 maxlen=self.size)
        elif self.method == self.buffer_methods[2]:
            # Use Numpy.roll
            try:
                self.content = numpy.roll(self.content, -1)
                self.content[-1] = scalar
            except IndexError:
                self.content = numpy.zeros(self.size, dtype=float)

# Testing and Timing
circular_buffer_size = 100
circular_buffers = [CircularBuffer(buffer_size=circular_buffer_size,
                                   buffer_method=method)
                    for method in CircularBuffer.buffer_methods]
timeit_iterations = 1e4
timeit_setup = 'from __main__ import circular_buffers'
timeit_results = []
for i, cb in enumerate(circular_buffers):
    # We add a convenient number of convenient values (see equality test below)
    code = '[circular_buffers[{}].update(float(j)) for j in range({})]'.format(
        i, circular_buffer_size)
    # Testing
    eval(code)
    buffer_content = [item for item in cb.content]
    assert buffer_content == range(circular_buffer_size)
    # Timing
    timeit_results.append(
        timeit.timeit(code, setup=timeit_setup, number=int(timeit_iterations)))
    print '{}: total {:.2f}s ({:.2f}ms per iteration)'.format(
        cb.method, timeit_results[-1],
        timeit_results[-1] / timeit_iterations * 1e3)

在我的系统上,结果如下:

list:  total 1.06s (0.11ms per iteration)
deque: total 0.87s (0.09ms per iteration)
roll:  total 6.27s (0.63ms per iteration)

4

来自Python Cookbook的解决方案怎么样,包括在环形缓冲区实例变满时对其进行重新分类?

class RingBuffer:
    """ class that implements a not-yet-full buffer """
    def __init__(self,size_max):
        self.max = size_max
        self.data = []

    class __Full:
        """ class that implements a full buffer """
        def append(self, x):
            """ Append an element overwriting the oldest one. """
            self.data[self.cur] = x
            self.cur = (self.cur+1) % self.max
        def get(self):
            """ return list of elements in correct order """
            return self.data[self.cur:]+self.data[:self.cur]

    def append(self,x):
        """append an element at the end of the buffer"""
        self.data.append(x)
        if len(self.data) == self.max:
            self.cur = 0
            # Permanently change self's class from non-full to full
            self.__class__ = self.__Full

    def get(self):
        """ Return a list of elements from the oldest to the newest. """
        return self.data

# sample usage
if __name__=='__main__':
    x=RingBuffer(5)
    x.append(1); x.append(2); x.append(3); x.append(4)
    print(x.__class__, x.get())
    x.append(5)
    print(x.__class__, x.get())
    x.append(6)
    print(x.data, x.get())
    x.append(7); x.append(8); x.append(9); x.append(10)
    print(x.data, x.get())

在实现中值得注意的设计选择是,由于这些对象在其生命周期中的某个点(从非完整缓冲区到完整缓冲区(在那时行为发生变化))经历不可逆的状态转换,因此我通过change对其建模self.__class__。只要两个类都具有相同的插槽,即使在Python 2.2中,此方法也可以工作(例如,对于两个经典类(如RingBuffer和__Full此食谱)也可以正常工作)。

在许多语言中,更改实例的类可能很奇怪,但是这是Pythonic的替代方法,它可以替代表示状态的偶发性,大规模,不可逆和离散状态的其他方式,这极大地影响了行为,如本食谱所述。Python对各种类都支持它的好处。

图片来源:塞巴斯蒂安·基姆(SébastienKeim)


我对此与双端队列进行了一些速度测试。这比双端队列慢7倍左右。
PolyMesh

@PolyMesh太棒了,您应该让作者知道!
d8aninja '19

1
这有什么意义呢?这是旧的公开文件。我的评论的目的是让其他人知道此答案已过时,而改用双端队列。
PolyMesh

@PolyMesh当他发布它时,它可能仍然慢一些;与作者联系的说明在本书的简介中。我只是在谈一个可能的选择。另外,“如果只有速度才是最好的指标,那可能只是一个好指标。”
d8aninja '19

3

您还可以看到这个相当古老的Python配方

这是我自己的NumPy数组版本:

#!/usr/bin/env python

import numpy as np

class RingBuffer(object):
    def __init__(self, size_max, default_value=0.0, dtype=float):
        """initialization"""
        self.size_max = size_max

        self._data = np.empty(size_max, dtype=dtype)
        self._data.fill(default_value)

        self.size = 0

    def append(self, value):
        """append an element"""
        self._data = np.roll(self._data, 1)
        self._data[0] = value 

        self.size += 1

        if self.size == self.size_max:
            self.__class__  = RingBufferFull

    def get_all(self):
        """return a list of elements from the oldest to the newest"""
        return(self._data)

    def get_partial(self):
        return(self.get_all()[0:self.size])

    def __getitem__(self, key):
        """get element"""
        return(self._data[key])

    def __repr__(self):
        """return string representation"""
        s = self._data.__repr__()
        s = s + '\t' + str(self.size)
        s = s + '\t' + self.get_all()[::-1].__repr__()
        s = s + '\t' + self.get_partial()[::-1].__repr__()
        return(s)

class RingBufferFull(RingBuffer):
    def append(self, value):
        """append an element when buffer is full"""
        self._data = np.roll(self._data, 1)
        self._data[0] = value

4
+1用于使用numpy,但-1用于不实现循环缓冲区。实现它的方式是,每次添加单个元素时都会转移所有数据,这会O(n)浪费时间。要实现适当的循环缓冲区,您应该同时具有索引和大小变量,并且需要正确处理数据“环绕”缓冲区末尾的情况。检索数据时,您可能必须在缓冲区的开始和结尾处串联两个部分。
Bas Swinckels

2

这个不需要任何库。它增长一个列表,然后在索引内循环。

占用空间非常小(没有库),并且运行速度至少是出队的两倍。确实可以很好地计算移动平均值,但是要注意,这些项不会像上述那样按年龄进行排序。

class CircularBuffer(object):
    def __init__(self, size):
        """initialization"""
        self.index= 0
        self.size= size
        self._data = []

    def record(self, value):
        """append an element"""
        if len(self._data) == self.size:
            self._data[self.index]= value
        else:
            self._data.append(value)
        self.index= (self.index + 1) % self.size

    def __getitem__(self, key):
        """get element by index like a regular array"""
        return(self._data[key])

    def __repr__(self):
        """return string representation"""
        return self._data.__repr__() + ' (' + str(len(self._data))+' items)'

    def get_all(self):
        """return a list of all the elements"""
        return(self._data)

要获取平均值,例如:

q= CircularBuffer(1000000);
for i in range(40000):
    q.record(i);
print "capacity=", q.size
print "stored=", len(q.get_all())
print "average=", sum(q.get_all()) / len(q.get_all())

结果是:

capacity= 1000000
stored= 40000
average= 19999

real 0m0.024s
user 0m0.020s
sys  0m0.000s

这大约是出队时间的1/3。


1
您不应该__getitem__变得更强大 self._data[(key + self._index + 1) % self._size]吗?
Mateen Ulhaq '18

您为什么要移动+1?现在,是的,请参见下面的Basj变体
-MoonCactus

1

在进行串行编程之前,我遇到了这个问题。一年多以前,我也找不到任何有效的实现,因此我最终将其编写为C扩展,并且在MITpi许可下的pypi中也可以使用。它是超基本的,仅处理8位带符号字符的缓冲区,但长度灵活,因此如果需要除字符以外的其他内容,则可以使用Struct或其上的内容。我现在通过Google搜索看到,尽管这些天有几种选择,所以您可能也想看看这些。


1

您的回答不对。循环缓冲区主要有两个原理(https://en.wikipedia.org/wiki/Circular_buffer

  1. 设置缓冲区的长度;
  2. 先进先出;
  3. 添加或删除项目时,其他项目不应移动其位置

您的代码如下:

def add_to_buffer( self, num ):
    self.mylist.pop( 0 )
    self.mylist.append( num )

让我们通过使用代码来考虑列表已满的情况:

self.mylist = [1, 2, 3, 4, 5]

现在我们追加6,列表更改为

self.mylist = [2, 3, 4, 5, 6]

预期清单1中的项目已更改其位置

您的代码是队列,而不是循环缓冲区。

我认为Basj的答案是最有效的答案。

顺便说一句,圆形缓冲区可以提高添加项的操作性能。


1

从Github:

class CircularBuffer:

    def __init__(self, size):
        """Store buffer in given storage."""
        self.buffer = [None]*size
        self.low = 0
        self.high = 0
        self.size = size
        self.count = 0

    def isEmpty(self):
        """Determines if buffer is empty."""
        return self.count == 0

    def isFull(self):
        """Determines if buffer is full."""
        return self.count == self.size

    def __len__(self):
        """Returns number of elements in buffer."""
        return self.count

    def add(self, value):
        """Adds value to buffer, overwrite as needed."""
        if self.isFull():
            self.low = (self.low+1) % self.size
        else:
            self.count += 1
        self.buffer[self.high] = value
        self.high = (self.high + 1) % self.size

    def remove(self):
        """Removes oldest value from non-empty buffer."""
        if self.count == 0:
            raise Exception ("Circular Buffer is empty");
        value = self.buffer[self.low]
        self.low = (self.low + 1) % self.size
        self.count -= 1
        return value

    def __iter__(self):
        """Return elements in the circular buffer in order using iterator."""
        idx = self.low
        num = self.count
        while num > 0:
            yield self.buffer[idx]
            idx = (idx + 1) % self.size
            num -= 1

    def __repr__(self):
        """String representation of circular buffer."""
        if self.isEmpty():
            return 'cb:[]'

        return 'cb:[' + ','.join(map(str,self)) + ']'

https://github.com/heineman/python-data-structures/blob/master/2.%20Ubiquitous%20Lists/circBuffer.py


0

最初的问题是:“ 高效 ”循环缓冲区。根据所要求的效率,aaronasterling的答案似乎是绝对正确的。使用Python编程的专用类,并将时间处理与collections.deque进行比较,显示deque的加速是x5.2倍!这是测试此代码的非常简单的代码:

class cb:
    def __init__(self, size):
        self.b = [0]*size
        self.i = 0
        self.sz = size
    def append(self, v):
        self.b[self.i] = v
        self.i = (self.i + 1) % self.sz

b = cb(1000)
for i in range(10000):
    b.append(i)
# called 200 times, this lasts 1.097 second on my laptop

from collections import deque
b = deque( [], 1000 )
for i in range(10000):
    b.append(i)
# called 200 times, this lasts 0.211 second on my laptop

要将双端队列转换为列表,只需使用:

my_list = [v for v in my_deque]

然后,您将获得O(1)对双端队列项的随机访问。当然,这仅在您设置一次双端队列后需要进行多次随机访问的情况下才有价值。


0

这会将相同的主体应用于旨在保存最新文本消息的某些缓冲区。

import time
import datetime
import sys, getopt

class textbffr(object):
    def __init__(self, size_max):
        #initialization
        self.posn_max = size_max-1
        self._data = [""]*(size_max)
        self.posn = self.posn_max

    def append(self, value):
        #append an element
        if self.posn == self.posn_max:
            self.posn = 0
            self._data[self.posn] = value   
        else:
            self.posn += 1
            self._data[self.posn] = value

    def __getitem__(self, key):
        #return stored element
        if (key + self.posn+1) > self.posn_max:
            return(self._data[key - (self.posn_max-self.posn)])
        else:
            return(self._data[key + self.posn+1])


def print_bffr(bffr,bffer_max): 
    for ind in range(0,bffer_max):
        stored = bffr[ind]
        if stored != "":
            print(stored)
    print ( '\n' )

def make_time_text(time_value):
    return(str(time_value.month).zfill(2) + str(time_value.day).zfill(2)
      + str(time_value.hour).zfill(2) +  str(time_value.minute).zfill(2)
      + str(time_value.second).zfill(2))


def main(argv):
    #Set things up 
    starttime = datetime.datetime.now()
    log_max = 5
    status_max = 7
    log_bffr = textbffr(log_max)
    status_bffr = textbffr(status_max)
    scan_count = 1

    #Main Loop
    # every 10 secounds write a line with the time and the scan count.
    while True: 

        time_text = make_time_text(datetime.datetime.now())
        #create next messages and store in buffers
        status_bffr.append(str(scan_count).zfill(6) + " :  Status is just fine at : " + time_text)
        log_bffr.append(str(scan_count).zfill(6) + " : " + time_text + " : Logging Text ")

        #print whole buffers so far
        print_bffr(log_bffr,log_max)
        print_bffr(status_bffr,status_max)

        time.sleep(2)
        scan_count += 1 

if __name__ == '__main__':
    main(sys.argv[1:])  

0

您可以根据预定义的大小numpy数组检出此循环缓冲区。这个想法是您创建一个缓冲区(为numpy数组分配内存),然后追加到该缓冲区。数据插入和检索非常快。我创建此模块的目的与您所需的相似。就我而言,我有一个生成整数数据的设备。我读取了数据并将其放在循环缓冲区中,以备将来分析和处理。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.