计算机科学 dictionaries

4

在我看来，似乎到处都在使用红黑树（std::set在C ++，SortedDictionaryC＃等中）实现数据结构。在我的算法课程中刚刚覆盖了（a，b），红黑和AVL树之后，这就是我的收获（也是从问问教授，翻阅几本书并仔细研究一下）得出的： AVL树的平均深度小于红黑树，因此在AVL树中搜索值的速度始终更快。与AVL树相比，红黑树进行结构调整以平衡自身的可能性要小一些，这可能会使它们的插入/删除速度更快。我可能会说，因为这将取决于对树的结构更改的成本，因为这将在很大程度上取决于运行时和隐含（当树是不可变的时，功能语言是否也可能完全不同？）网上有很多基准可以比较AVL和红黑树，但令我惊讶的是，我的教授基本上说过，通常您会做以下两件事之一：要么您根本就不在乎性能，在这种情况下，大多数情况下AVL与Red-black的10-20％的差异根本不重要。或者，您真的很在乎性能，在这种情况下，您会抛弃AVL树和红黑树，并选择B树，可以对B树进行调整以使其工作得更好（或（a，b）树），我将所有这些都放在一个篮子里。）这样做的原因是因为B树将数据更紧凑地存储在内存中（一个节点包含许多值），因此缓存未命中的情况将大大减少。您还可以根据用例来调整实现，并使B树的顺序取决于CPU缓存大小等。问题在于，我几乎找不到任何可以分析现实硬件上不同实现的搜索树实际使用情况的资源。我浏览过许多有关算法的书，但没有发现可以将不同的树变体进行比较的任何东西，除了表明一棵树的平均深度比另一棵树小（这并没有真正说明树的行为方式）在实际程序中。）话虽这么说，是否有一个特定的原因为什么到处都使用红黑树，而根据上述内容，B树应该胜过它们？（作为唯一的基准测试，我还可以看到http://lh3lh3.users.sourceforge.net/udb.shtml，但这可能只是具体实现的问题）。还是为什么每个人都使用Red-black树是因为它们很容易实现，或者换句话说，很难实现不好呢？另外，当人们进入功能语言领域时，这将如何改变？似乎Clojure和Scala都使用Hash数组映射的trys，其中Clojure使用32的分支因子。

46 data-structures search-trees applied-theory dictionaries balanced-search-trees

5

有防布隆过滤器吗？

一个布隆过滤器能够有效地跟踪是否处理过程中已经遇到的各种值。当有许多数据项时，布隆过滤器可以节省散列表上的大量内存。与哈希表共享的Bloom筛选器的主要功能是，如果某项不是新项，则始终显示“ not new”，但将项标记为“ not new”的可能性不为零。即使是新的。是否有行为相反的“抗布鲁姆过滤器”？换句话说：是否存在一个有效的数据结构，如果某项是新项，它会显示“ new”，但对于某些非新项也可能会显示“ new”？保留所有先前看到的项（例如，在排序的链表中）可以满足第一个要求，但可能会占用大量内存。考虑到第二个要求放宽，我希望这也是不必要的。对于那些更喜欢正式对待的人，如果Bloom过滤器认为是新的，则写，否则，写，如果确实是新的，写，而否则。b （x ）= 1b(x)=1b(x) = 1Xxxb （x ）= 0b(x)=0b(x) = 0n （x ）= 1n(x)=1n(x) = 1Xxxn （x ）= 0n(x)=0n(x) = 0 然后 ; ； ; ，对于某些。Pr [ b （x ）= 0 | n （x ）= 0 ] = 1Pr[b(x)=0|n(x)=0]=1Pr[b(x) = …

25 reference-request data-structures hash bloom-filters dictionaries

5

哈希表操作O（1）适用于哪种数据？

从（何时）的答案是哈希表查找O（1）？，我收集到，当数据满足某些统计条件时，哈希表具有最坏情况的行为，至少已摊销，并且有一些技术可以使这些条件变宽。O(1)O(1)O(1) 但是，从程序员的角度来看，我事先并不知道我的数据是什么：它通常来自某些外部来源。而且我很少一次拥有所有数据：插入和删除的发生率经常不低于查找率，因此需要对数据进行预处理以微调哈希函数。因此，迈出一步：在掌握了有关数据源的一些知识之后，如何确定哈希表是否有机会进行操作，以及可能在哈希函数上使用哪些技术？O(1)O(1)O(1)

18 data-structures runtime-analysis hash-tables dictionaries

3

没有数组的记忆

在Cormen等人的“算法简介”中，第15.3节动态编程的元素对记忆的解释如下：记忆的递归算法为每个子问题的解决方案在表中维护一个条目。每个表条目最初都包含一个特殊值，以指示该条目尚未填写。当递归算法展开时，第一次遇到子问题时，将计算其解决方案，然后将其存储在表中。以后每次遇到此子问题时，我们只需查找表中存储的值并返回它。并且添加了一个脚注：这种方法的前提是我们知道所有可能的子问题参数的集合，并且已经建立了表位置和子问题之间的关系。另一种更通用的方法是通过使用以子问题参数作为键的哈希来记忆。是否有任何众所周知的DP问题需要（或使其更容易）将已存储的值存储在字典中，而不是在（多维）数组中？背景：如果有什么用，这个问题的原因是我正试图将（自平衡）二进制搜索树的概念激发给刚刚看过动态编程的人们。

14 dynamic-programming search-trees dictionaries memoization

2

寻找具有较小内存占用的固定实现

我正在寻找设置数据类型的实现。也就是说，我们必须维持一个动态子集（的大小从宇宙）U = \ {0，1，2，3，\点中，u - 1 \}大小的ü与Ñ Ù = { 0 ，1 ，2 ，3 ，... ，ù - 1 } üSSSnnnU={0,1,2,3,…,u–1}U={0,1,2,3,…,u–1}U = \{0, 1, 2, 3, \dots , u – 1\}uuu 操作insert(x)（将元素添加x到SSS）和find(x)（检查元素是否x为S的成员SSS）。我不在乎其他操作。对于定向，在我正在使用的应用程序中，我们有u≈1010u≈1010u \approx 10^{10}。我知道在O（1）时间内同时提供这两种操作的实现O(1)O(1)O(1)，所以我主要担心数据结构的大小。我希望有数十亿个条目，但希望避免交换。如果有必要，我愿意牺牲运行时间。我可以接受O（\ log n）的摊销运行时间O(logn)O(log⁡n)O(\log n)；不允许使用预期的运行时或ω(logn)ω(log⁡n)\omega(\log n)中的运行时。我的一个想法是，如果SSS可以表示为范围的并集[xmin, xmax]，那么我们将能够以一些性能下降的代价节省存储空间。同样，其他一些数据模式也是可能的，例如[0, 2, 4, 6]。您能否指出我可以执行类似操作的数据结构？

9 data-structures efficiency space-complexity sets dictionaries

Questions tagged «dictionaries»