7-Zip Ultra-压缩多个其他7-zip Ultra压缩文件是否有明显的大小差异?


0

我有很多文件需要传输,大部分是png和pdf,有些是svg,有些是其他。价值几TB的文件,可以分别处理从几kb到mb的文件。问题是我必须从上传效果不佳的站点(200kb 0 700kb / sec)远程传输它们。

我尽快备份这些文件很重要,但是目前唯一的途径就是通过网络。这将需要数周的时间,太长了。不幸的是,我没有一个我可以信任的本地人可以手动转移并发送给我硬盘。因此,我将尽可能多地压缩到小文件。

我使用了7-Zip on Ultra压缩(LZMA2)来存档文件并分成10mb的块(针对不同类别的文件,分为不同的组)。这很棒。

如果我对所有这些文件都做同样的事情,请将所有组(按文件夹分开)压缩到一个7-Zip Ultra LZMA2 10mb分割存档中,这是否有帮助,还是会浪费时间?是否能够合并数据以进行更高程度的压缩并减少总的10mb文件?

注意:之所以将它分成多个块,是因为无论如何它都将花费很长时间进行传输,因此,小的块可以防止网络故障,计算机重新启动或任何其他将整个问题弄糟的问题。

Answers:


2

对不起,但这将在很大程度上浪费时间。

数据压缩的工作方式是识别模式/假设,并以更有效的方式表示它们。但是,最终结果并不倾向于创建可压缩的模式。

可以获取一些压缩后的数据,然后进行更积极的压缩,从而获得一定的收益。通常,增益小于3%,在极少数情况下为10%。但是,有一些开销。因此,其他很常见的结果可以节省大约0%的成本,并且有一些成本,因此您实际上可能会增加文件大小。

如果愿意,可以尝试一下,但是这种努力的共同结果是可以忽略或根本不存在的改进,甚至会使情况变得更糟。

事实是并非所有数据都可以压缩。“计数”论点(也称为“鸽子洞”原理)解释了原因。(请参阅:压缩常见问题解答第8节。)基本上,如果压缩数据相等或较小(使用更少的位),则可能的压缩文件要比未压缩的文件少,这证明并非每个可能的唯一未压缩文件都可以用更少的位表示。

实际上,大多数数据都是不可压缩的。对我们来说幸运的是,最有趣的数据是可压缩的。例如,大多数图像看起来不像是随机的黑白图片(例如,在老式电视机上显示“随机”强度的随机单色像素的“雪”)。大多数电子表格实际上并没有完全随机的数字(包括负数万亿的数字,以及具有小数点后四十三位的小数,以及除号前的加号)。

甚至文本也有模式,例如大量使用元音,偶尔使用标点符号,后跟空格和大写字母。

但是,压缩数据倾向于采用有用的模式,并以有效的方式表示它们。因此,数据压缩过程消除了效率低下的问题。结果是,通常我们可以识别和存储效率更高的效率低下。


1
谢谢。这是一个很好的答案。“数据压缩的工作方式是识别模式/假设,并以更有效的方式表示它们。但是,最终结果并不倾向于创建可压缩的模式。” 这是我需要知道的。由于它们是图像文件组,所以我主要想知道交叉模式是否匹配,但是如果在压缩后重新排列(当然是为了提高效率),那么就不会有很多。
切诺基(Cherokee Oone)

“大多数数据都是不可压缩的”-您指的是什么类型的不可压缩数据?
克里斯·安德森

@ChrisAnderson:“类型”是什么意思?“类型”一词往往暗示您所指的是某种类型,格式,规则和/或模式。这些东西通常可能是可压缩的(如果仅出于简单性或速度目的而设计,则可能已经压缩或为了节省空间而不太可能压缩)。但是,随机数据的大多数可能组合都不会具有这种模式,因此除了“随机”之外,没有任何特定的“类型”。随机化的数据几乎是不可压缩的,并弥补了“有趣” /有用/不可用的大多数可能的位模式。
TOOGAM
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.