使用质数进行数据压缩


22

我最近偶然发现了以下有趣的文章,该文章声称无论数据的类型和格式如何,始终有效地将随机数据集压缩超过50%。

基本上,它使用质数唯一地构造4字节数据块的表示形式,由于每个数字都是质数的唯一乘积,因此易于解压缩。为了使这些序列与质数相关联,它利用字典。

我的问题是:

  • 正如作者建议的那样,这真的可行吗?根据该论文,它们的结果非常有效,并且始终将数据压缩为较小的大小。字典的大小会不会很大?
  • 难道不能使用同一算法来迭代地重新压缩压缩数据吗?很明显,并且已经证明,这种技术(压缩的数据被尽可能多地重新压缩,从而大大减小了文件的大小)是不可能的。实际上,在所有随机数据的集合和压缩数据之间不会存在双射。那么为什么会有这种感觉呢?
  • 即使该技术尚不完善,也显然可以对其进行优化和大力改进。为什么没有对此进行更广泛的了解/研究?如果确实这些主张和实验结果是正确的,那么这将不会给计算带来革命性的变化?

5
正如您所观察到的,该论文提出了非常有力的主张。总是对这种说法持怀疑态度,特别是如果论文是在一个奇怪的地方发表的(令人惊奇的论文“革命性的计算”应该出现在知名的地方,对吗?)。
Juho 2015年

2
例如,基于kolmogorov复杂度理论,“总是压缩随机数据”是不可能的。反驳类似于您的草图绘制方式。不知道这是对纸张还是原始纸张的误解。您为什么不突出特定要求的来源?
vzn15年

6
“难道不能使用同一算法来迭代地重新压缩压缩数据吗?” –是的。任何声称能够压缩所有任意数据的算法都可以递归应用于其自己的输出,以使任何数据都压缩为0位。因此,这种主张是不可能的。
约尔格W¯¯米塔格

1
@JörgWMittag我有一种算法可以让您反复将文件压缩为少量位,但这是非常不切实际的。也仅适用于以1位开头的文件:将整个文件视为大二进制数,将其递减,然后丢弃前导0。要解压缩,请对其进行递增,并在必要时添加前导1。
user253751

3
自我提醒:永远不要将任何论文提交任何Elsevier期刊。
500-内部服务器错误

Answers:


34

总是将随机数据集压缩超过50%

这不可能。您无法压缩随机数据,需要一些结构来利用。压缩必须是可逆的,所以你不可能压缩一切了50%,因为有长度远不如串比有长度的ñn/2n

本文存在一些主要问题:

  • 他们使用10个测试文件,没有任何内容说明。数据真的是随机的吗?它们是如何产生的?

  • 他们声称达到至少 50%的压缩率,而他们的测试数据表明他们达到 50%以上。

该算法定义了一种无损策略,该策略利用了十进制数系统中存在的质数

  • 什么?素数是素数,与底数无关。

  • 减压问题#1:素数分解是一个难题,他们如何有效地做到这一点?

  • 问题2:与解压缩(这是踢球者):他们乘素数一起,但这样做你失去有关订单的任何信息,因为。我认为使用他们的技术根本无法解压缩。25=10=52

我认为这篇论文不是很好。


据我了解,它们将具有相同多重性的字符串顺序存储在字典中。但是,在随机数据集中,鉴于存在许多多重性为1(或相等多重性)的4字节字符串,这是否不应该生成巨大的字典?
卡兰根2015年

@Pickle在他们的示例中,字符串“ @THE”具有多重性2。我看不到他们如何重构单词“ the”应该放在哪两个位置。
汤姆·范德赞丹2015年

1
知道了 好观察。确实,这是一个主要问题。这篇论文如何被接受发表在期刊上?是否应该进行更严格的同行评审?
卡兰根2015年

4
@Pickle是的,应该进行更严格的审查。但是,情况并非总是如此,有时经验不足/懒惰/不称职的会议组织者无法及时找到同行审稿人。包含随机生成的胡言乱语的论文有很多次被接受,并且一本杂志甚至发表了一篇题为“让我离开您的邮件列表”的论文
汤姆·范·德·赞登

哈哈哈,太神奇了。但同时悲伤。
卡兰根2015年

15

我要请汤姆·范德赞丹(Tom van der Zanden)看似看过这篇论文,发现该方法存在缺陷。尽管我没有详细阅读该论文,但摘自摘要和结果表,但这似乎是一个令人信服的主张。

他们声称在文本文件(不是“所有文件”)上的压缩率始终保持50%不变,他们注意到该压缩率与LZW大致相同,并且比(假定为零阶)霍夫曼编码差了大约10%。使用相当简单的方法很难将文本文件压缩50%。这是许多计算机科学课程中的本科生作业。

我确实同意,该论文并不像已发表的研究那样好,而且我认为这也被评论家认为很好。除了明显的丢失细节之外,这些细节使得结果无法重现(例如,文本文件是什么),并且没有尝试将其绑定到压缩领域,因此,没有任何意义可以使他们真正理解算法的作用。

会议网站声称接受率为1:4,这使您想知道他们拒绝了什么。


12

你问:

  • 正如作者建议的那样,这真的可行吗?根据该论文,它们的结果非常有效,并且始终将数据压缩为较小的大小。字典的大小会不会很大?

当然是。即使是他们亲自挑选的示例(“懒惰的狗上快速的银色狐狸跳”),也无法实现压缩,因为字典包含了文本的每个4字节子字符串(对于“ THE“)...,文本的”压缩“版本必须包括整个词典以及所有这些素数废话。

  • 难道不能使用同一算法来迭代地重新压缩压缩数据吗?很明显,并且已经证明,这种技术(压缩的数据被尽可能多地重新压缩,从而大大减小了文件的大小)是不可能的。实际上,在所有随机数据的集合和压缩数据之间不会存在双射。那么为什么会有这种感觉呢?

同样,您似乎对这种情况有很好的直观了解。您已经直观地意识到,没有一种压缩方案可以对所有输入都有效,因为如果可以的话,我们可以一遍又一遍地应用它来将任何输入压缩到一个位,然后再压缩为零。

换句话说:将所有.wav文件压缩为.mp3后,通过压缩文件将不会对文件大小有所改善。如果您的MP3压缩器完成了工作,则ZIP压缩器将没有任何可利用的模式。

(同样适用于加密:如果我采用零文件并根据我选择的加密算法对其进行加密,则生成的文件最好不可压缩,否则我的加密算法会将“模式”泄漏到其输出中!)

  • 即使该技术尚不完善,也显然可以对其进行优化和大力改进。为什么没有对此进行更广泛的了解/研究?如果确实这些主张和实验结果是正确的,那么这将不会给计算带来革命性的变化?

这些说法和实验结果都不正确。

当汤姆范德Zanden已经指出的那样,Chakraborty的,嘉和Guchait的“压缩算法”,因为是有缺陷的,不仅它起不到任何的压缩比,也是不可逆的(在mathspeak“而不是双射”):有全部都“压缩”到同一图像的大量文本,因为它们的算法基本上是乘法,并且乘法是可交换的。

您对这些概念的直观理解会立即使您得出正确的结论。而且,如果您可以节省时间,那么您应该为论文的作者感到可惜,因为他们显然花了很多时间来思考该主题,而根本不了解它。

在您发布的URL上方一层的文件目录中包含139种相同质量的“论文”,这些论文显然被“计算,信息,通信和应用新兴研究国际会议论文集”所接受。这似乎是通常的假会议。这样的会议的目的是允许欺诈性的学者声称“发表在期刊上”,同时也允许不道德的组织者赚大钱。(有关假会议的更多信息,请查看此reddit主题有关此主题的StackExchange各种帖子。)假会议在每个领域中都存在。只要学会相信自己的直觉,而不要相信您在“会议录”中阅读的所有内容,您会做的很好。


感谢您清楚地说明了为什么这篇论文简直是废话,并告诉您它有可能一开始就被撰写并且可以进行任何类型的审阅。
vaab

感谢您的简洁回答。当您甚至不信任日记条目至少要由某种同行审阅时,这真的很可悲。这确实揭示了一个事实,即即使在阅读“假定的”科学期刊出版物时也必须保持警惕。人们会认为,此类文章不仅要受到同行的“评论”,而且还要受到最低限度的同行“分析”的约束,这在此类领域中是很常见的。我希望这对许多人大开眼界。
克兰根2015年

我今天了解到,至少有两项关于类似“无限压缩算法”的美国专利。参见gailly.net/05533051.html
Quuxplusone,

5

有效地限制了可能的最强无损压缩的性能。因此,没有算法可以将随机数据集压缩始终超过50%。


8
甚至没有一种算法可以将随机数据集的压缩率始终大于0.0000001%。
David Richerby,2015年

1

可恢复的压缩方法通常会找到一种模式,然后以一种简单的方式重新表达它。有些非常聪明,有些非常简单。在某些时候没有模式。流程已将数据集“煮沸”为最简单的唯一模式。从该点开始进行任何压缩尝试都将导致更大的数据集或稀释唯一性。在魔术数字压缩方案中,总是存在缺陷,轻微的动手或丢失。警惕任何声称无法执行最新WinZip或RAR的过程。


2
sss

1
@DavidRicherby,然后您对空字符串的压缩将产生一个更大的数据集,如SkipBerne所述。不过,我认为他的回答应该阐明他指的是使用相同算法重新压缩先前的输出。
安赫尔

2
@ÁngelSkipBerne的主张是,存在无法通过任何算法压缩的字符串(我强调是“从那以后开始进行任何压缩尝试”)。由于我给出的原因,这是不正确的:对于每个字符串,都有一种压缩该字符串的算法。
David Richerby,2015年

我对它的解释方式SkipBerne声称,对于每种压缩算法,都有一个无法压缩的字符串。没错 当然,对于不同的算法,不可压缩的字符串将有所不同。
何塞·安东尼奥恢复莫妮卡2015年

@DavidRicherby您错位了数量词-很明显,SkipBerne写道(对于任何压缩方法,都有一个点,之后没有压缩),而不是(有一点之后,对于任何压缩方法,都有一个点)无压缩)。该答案实际上是正确的,但不会为较旧的,写得更好的答案添加任何内容。
吉尔斯(Gillles)“所以-别再邪恶了”
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.