全局压缩方法和通用压缩方法有什么区别?


12

我知道压缩方法可以分为两个主要组:

  1. 全球
  2. 本地

第一组工作与所处理的数据无关,也就是说,它们不依赖于数据的任何特征,因此不需要在数据集的任何部分上执行任何预处理(在压缩本身之前)。另一方面,局部方法分析数据,提取通常可以提高压缩率的信息。

在阅读其中一些方法时,我注意到一元方法不是通用方法,这使我感到惊讶,因为我认为“全局性”和“通用性”是同一件事。一元方法不依赖数据的特性来产生其编码(即,它是一种全局方法),因此它应该是全局/通用的,不是吗?

我的主要问题:

  • 通用方法和全局方法有什么区别?
  • 这些分类不是同义词吗?

2
您可以链接到/引用一元方法不是通用方法的地方吗?上下文可能会有所帮助。

3
我...不确定这与数据科学有何关系。似乎此堆栈交换不合时宜。您能否将其与数据科学联系起来?
Slater Victoroff 2014年

@SlaterTyranus我...也不确定(这让我考虑了我发布的另外两个问题)。我的想法是添加这个问题,因为压缩方法主要用于信息检索(主要是在索引编制过程中)。通常,我发现这与效率有关,可以将其放在此维恩图黑客技巧区域中。无论如何,我想很高兴讨论这种问题是否在主题上。
鲁本斯2014年

@Rubens看来,这是一个合理的讨论,在我看来,关于效率CS的讨论更适合理论CS之类的东西,而不是露骨的黑客技巧。在我看来,黑客技能与数据库,部署和工具知识等相关性更高。
Slater Victoroff 2014年

1
@SvanBalen有两点要点:1.信息论在数据科学的某些方法中很重要,但在许多其他方法中却无关紧要。2.基础知识本质上是不合时宜的,即使对有用的数据科学严格要求这两个问题,有关统计或线性代数的详细问题也同样不合时宜。
Slater Victoroff

Answers:


3

考虑以下数据块:

1010010110100101

通用 -这些是与数据无关的通用压缩算法。行程编码的粗略版本将属于此类。优点是压缩和解压缩非常快。不利的一面是,根据要压缩的数据,它可能极其无效。

1111111111111111-> 16 1(幸运的情况)

1010010110100101-> 1010010110100101(不幸的情况)

本地 -此方法将考虑固定长度的较小段(例如4),查找模式并将其压缩。例如。此数据仅包含这两种类型的模式-1010和0101。这些模式可以表示为0和1,并且总体数据将是代表映射的表,并且类似于0101。这有可能导致更小的结果压缩大小。

1010010110100101-> 1010 0101 1010 0101-> 0101(0 = 1010,1 = 0101)

全局 -此方法将查看整个数据并找到最佳/更好的模式来压缩数据。示例数据仅包含一个模式10100101,并将其与映射表一起表示为00。这有可能获得最小的压缩大小,但在计算上也是最大的。

1010010110100101-> 10100101 10100101-> 00(0 = 10100101)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.