猜测大文件的可压缩性


1

我有一个大文件(〜20 GB),我想快速估计一下压缩程度。搜索可以在压缩文件大小时立即提供猜测的程序,并且可能需要更长的时间来分析估计数据,以提高估计的准确性。

Answers:


2

使用该-v选项可以gzip打印压缩率,因此,就像快速而肮脏的估计一样,您可以执行以下操作:

$ dd if=myfile bs=1M count=100 2>/dev/null | gzip -v >/dev/null
 80.5%
$


当然,虽然快速而直接,但是如果文件内容不一致,仅检查前x个字节(在此示例中为100 MB)的压缩率可能会产生很大的误导。
例如,对于文件系统映像来说可能不是很好。


0

如果不筛选所有数据,就无法知道其可压缩性。请随意在页面上查看压缩工具和速度的列表,但是您基本上要求的是不可能的。


3
我认为可以通过查看一些随机片段来寻找可压缩性,以寻找可能的模式或测量熵。当然,这将是粗略的,但是正如OP所说,这是一系列连续的估计。
clabacchio 2012年

它不一定是完美的,只是一个猜测-一些GUI工具(例如winrar)在压缩输出文件大小时提供运行中的猜测。我正在寻找一个基于Linux的程序。
2012年

1
Winrar不提供任何猜测。它告诉您已经压缩的数据的压缩率。
soandos 2012年

它确实为您提供了结果文件大小的猜测!当然,对熵进行了假设,但是没有必要进行精确的预测-只是一个估计。
2016年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.