如何使用zlib解压缩gzip流?


108

Gzip格式文件(gzip例如,用程序创建的文件)使用“放气”压缩算法,该压缩算法与zlib使用的压缩算法相同。但是,使用zlib膨胀gzip压缩文件时,该库将返回Z_DATA_ERROR

如何使用zlib解压缩gzip文件?

Answers:


118

要使用zlib解压缩gzip格式文件,请inflateInit2使用windowBits参数调用16+MAX_WBITS,如下所示:

inflateInit2(&stream, 16+MAX_WBITS);

如果您不这样做,zlib将抱怨流格式错误。默认情况下,zlib创建带有zlib标头的流,并且在inflate上不能识别不同的gzip标头,除非您这样说。尽管从头文件的版本1.2.1开始记录了该zlib.h文件,但zlib手册中没有该文件。从头文件:

windowBits对于可选的gzip解码,也可以大于15。添加32以windowBits启用具有自动标头检测功能的zlib和gzip解码,或者添加16以仅解码gzip格式(zlib格式将返回Z_DATA_ERROR)。如果正在解码gzip流,请strm->adler使用crc32而不是adler32。


35
在python中:zlib.decompress(data, 15 + 32)
Roman Starkov

3
谢谢,这让我非常沮丧,直到我找到了这篇文章。
2014年

哇,这是2009年的问题。感谢@Greg Hewgill
YuAn

也许您可以为gzip流的迭代解压缩提供一些指导。在一次gzip解压缩中,应固定输出流和大小,并足以存储整个解压缩的输出。该值取决于gzip的解压缩效果,该效果可根据数据熵而变化。有需要时可以动态分配更多空间给输出缓冲区的方法吗?谢谢
Zohar81 '19

104

蟒蛇

zlib库支持

python zlib模块也将支持这些。

选择windowBits

但是zlib可以解压缩所有这些格式:

  • (解压缩)deflate格式,使用wbits = -zlib.MAX_WBITS
  • (解压缩)zlib格式,使用wbits = zlib.MAX_WBITS
  • (解压缩)gzip格式,使用wbits = zlib.MAX_WBITS | 16

请参阅http://www.zlib.net/manual.html#Advanced中的文档(部分inflateInit2

例子

测试数据:

>>> deflate_compress = zlib.compressobj(9, zlib.DEFLATED, -zlib.MAX_WBITS)
>>> zlib_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS)
>>> gzip_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS | 16)
>>> 
>>> text = '''test'''
>>> deflate_data = deflate_compress.compress(text) + deflate_compress.flush()
>>> zlib_data = zlib_compress.compress(text) + zlib_compress.flush()
>>> gzip_data = gzip_compress.compress(text) + gzip_compress.flush()
>>> 

明显的测试zlib

>>> zlib.decompress(zlib_data)
'test'

测试deflate

>>> zlib.decompress(deflate_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(deflate_data, -zlib.MAX_WBITS)
'test'

测试gzip

>>> zlib.decompress(gzip_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|16)
'test'

数据还与gzip模块兼容:

>>> import gzip
>>> import StringIO
>>> fio = StringIO.StringIO(gzip_data)
>>> f = gzip.GzipFile(fileobj=fio)
>>> f.read()
'test'
>>> f.close()

自动标头检测(zlib或gzip)

加入32windowBits将触发标题检测

>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|32)
'test'
>>> zlib.decompress(zlib_data, zlib.MAX_WBITS|32)
'test'

使用gzip代替

对于gzip带有gzip标头的数据,您可以gzip直接使用模块;但请记住,在引擎盖下gzip使用zlib

fh = gzip.open('abc.gz', 'rb')
cdata = fh.read()
fh.close()

3
为什么这块黄金不在这种完全格式的文档上?
拉蒙·莫拉斯

请随时使用以下任一答案针对cpython发送拉取请求/补丁。
dnozay

字符串的好答案,不知道如何在不将整个文件读入内存的情况下针对流执行此操作吗?
乔什J

谢谢。我可以用您的答案解决源代码中的解压缩问题。
Bethlee

太不可思议了,这是金块..但是我忍不住觉得这些等同于“魔术数字”?在文档中提到了什么?我看了一下,但肯定没有经过足够的努力..而且,我没有完全遵循这种表示法。什么| 意思是,这是可选的吗?以及为什么放气为负数。.MAX_WBITS是一个常数吗?
🙁– m1nkeh

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.