程序设计 radix-sort

就地基数排序

这是一个很长的文字。请多多包涵。归根结底，问题是：是否存在可行的就地基数排序算法？初步我有很多小的固定长度字符串，它们只使用我要排序的字母“ A”，“ C”，“ G”和“ T”（是的，您猜对了：DNA）。目前，我在STL的所有常见实现中都std::sort使用了introsort。这很好。但是，我相信，基数排序适合我的问题集完美，应该工作多在实践中更好。细节我已经用一个非常幼稚的实现测试了这个假设，对于相对较小的输入（大约10,000个），这是正确的（至少要快两倍以上）。但是，当问题规模变大（N > 5,000,000）时，运行时间将大大降低。原因很明显：基数排序需要复制整个数据（实际上，在我的幼稚实现中不止一次）。这意味着我已经在主内存中放入了大约4 GiB，这显然会降低性能。即使没有，我也负担不起这么大的内存，因为问题的大小实际上变得更大了。用例理想情况下，该算法应适用于2到100之间的任何字符串长度，适用于DNA以及DNA5（允许附加通配符“ N”），甚至适用于带有IUPAC 模糊代码的 DNA （导致16个不同的值）。但是，我意识到所有这些情况都无法解决，因此我对速度的提高感到满意。该代码可以动态决定要调度到哪个算法。研究不幸的是，维基百科上关于基数排序的文章是没有用的。关于就地变体的部分是完整的垃圾。在上基数NIST-DADS部分排序旁边不存在的。有一篇听起来很有希望的论文，叫做“ 高效自适应就地基数排序”，它描述了算法“ MSL”。不幸的是，这篇论文也令人失望。特别是，有以下几点。首先，该算法包含一些错误，并且有很多无法解释的地方。特别是，它没有详细介绍递归调用（我只是假设它增加或减少了一些指针来计算当前的shift和mask值）。同样，它使用这些函数dest_group并且dest_address没有给出定义。我看不到如何有效地实现这些功能（也就是说，在O（1）中；至少dest_address是不平凡的）。最后但并非最不重要的一点是，该算法通过将数组索引与输入数组内的元素交换来实现就位。显然，这仅适用于数值数组。我需要在字符串上使用它。当然，我可以拧紧强类型，并假设内存可以容忍我存储不属于它的索引。但这仅在我可以将字符串压缩到32位内存（假设32位整数）的情况下有效。那只是16个字符（在16> log（5,000,000）的那一刻，让我们忽略它）。一位作者的另一篇论文没有给出任何准确的描述，但它给出了MSL的运行时间为亚线性的情况，这是完全错误的。回顾一下：是否有希望找到一个可行的参考实现，或者至少一个对DNA字符串起作用的就地基数排序的良好伪代码/描述？

200 algorithm language-agnostic sorting radix-sort in-place

Questions tagged «radix-sort»