二进制流中的open和io.BytesIO之间的区别


79

我正在学习有关在Python中使用流的知识,并且我注意到IO文档说以下内容:

创建二进制流的最简单方法是使用open()在模式字符串中使用'b':

f = open("myfile.jpg", "rb")

内存中的二进制流也可以作为BytesIO对象使用:

f = io.BytesIO(b"some initial binary data: \x00\x01")

fopenf定义之间有什么区别BytesIO。换句话说,什么使“内存中的二进制流”与它有什么不同open

Answers:


108

为了简单起见,让我们考虑现在写而不是读。

所以当你使用open()像说:

with open("test.dat", "wb") as f:
    f.write(b"Hello World")
    f.write(b"Hello World")
    f.write(b"Hello World")

执行后,test.dat将创建一个名为3x的文件Hello World。数据写入文件后将不会保留在内存中(除非有名称保留)。

现在,当您考虑io.BytesIO()改为:

with io.BytesIO() as f:
    f.write(b"Hello World")
    f.write(b"Hello World")
    f.write(b"Hello World")

它不是将内容写入文件,而是写入内存缓冲区。换句话说,一块RAM。本质上,编写以下内容将是等效的:

buffer = b""
buffer += b"Hello World"
buffer += b"Hello World"
buffer += b"Hello World"

对于带有with语句的示例,最后还有一个del buffer

这里的主要区别是优化和性能。io.BytesIO能够进行一些优化,使其比简单地将所有b"Hello World"一个接一个的连接更快。

为了证明这一点,这里有一个小基准:

  • Concat:1.3529秒
  • 字节IO:0.0090秒

import io
import time

begin = time.time()
buffer = b""
for i in range(0, 50000):
    buffer += b"Hello World"
end = time.time()
seconds = end - begin
print("Concat:", seconds)

begin = time.time()
buffer = io.BytesIO()
for i in range(0, 50000):
    buffer.write(b"Hello World")
end = time.time()
seconds = end - begin
print("BytesIO:", seconds)

除了提高性能外,使用BytesIO代替串联还有一个优点,即BytesIO可以代替文件对象使用。假设您有一个函数期望文件对象写入。然后,您可以为其提供内存中的缓冲区而不是文件。

区别在于,open("myfile.jpg", "rb")仅加载并返回myfile.jpg;的内容;而BytesIO同样,它只是一个包含一些数据的缓冲区。

因为BytesIO这只是一个缓冲区-如果您想稍后将内容写入文件-您必须执行以下操作:

buffer = io.BytesIO()
# ...
with open("test.dat", "wb") as f:
    f.write(buffer.getvalue())

另外,您没有提到版本;我正在使用Python3。与示例相关:我在使用with语句而不是调用f.close()


4
好答案;提及问题in memory stream,您已提及in memory buffer。Python有区别吗?简短地讨论一下是值得的。从英语语义的角度来看,stream意味着从源到接收器的连续比特流(从源推入),其中缓冲区意味着源中的比特缓存准备好从源中快速提取块或碎片(接收器从源中拉出) )。
达沃斯

我在计算机上运行了小型基准测试,并使用Python3.5获得了相似的结果,但是,当我使用Python 2.7时,“ Concat”和“ BytesIO”花费的时间相似,因此“ Concat”要好一些。哪里不对了?这让我感到困惑。
JenkinsY

@Vallentin,对不起,当您说“ open(“ myfile.jpg”,“ rb”)只是加载并返回myfile.jpg的内容时,您错了,请参阅rhisimport io f = open("myfile.jpg", "rb") <class '_io.BufferedReader'> >>> isinstance(f, io.BufferedIOBase) True
Yahya Yahyaoui

15

使用open打开硬盘上的文件。根据您使用的模式,您可以从磁盘读取或写入(或同时读取和写入两者)。

一个BytesIO对象不与磁盘上的任何真正的文件关联。只是一块内存就像文件一样。它具有与从中返回的文件对象相同的API open(具有mode r+b,允许读取和写入二进制数据)。

BytesIO(并且它StringIO总是在文本模式下保持紧密兄弟关系)在您需要向期望从中获得文件对象的API传递数据或从API传递数据但您希望直接传递数据的地方很有用。您可以将输入的数据加载BytesIO到库中,然后再将其提供给库。返回后,您可以BytesIO使用getvalue()方法从库获取写入文件的任何数据。(当然,通常您只需要执行其中一项即可。)


-4
f = open("myfile.jpg", "rb")

从磁盘磁盘读取文件中的字节,并将该值分配给引用为“ f”的对象,该对象由Python保留在内存中。

f = io.BytesIO(b"some initial binary data: \x00\x01")

将字节流值分配给引用为“ f”的对象,该对象由Python保留在内存中。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.