编辑两个分区之间的距离

我有两个分区， $[1 \ldots n]$ 正在寻找它们之间的编辑距离。

这样，我想找到从分区A到分区B所需的节点到不同组的单个转换的最小数量。

例如，从{0 1} {2 3} {4}到的距离为{0} {1} {2 3 4}2

搜索之后，我发现了这篇论文，但是a）我不确定他们是否考虑了在他们距离内的组的排序（我不在乎）b）我不确定它是如何工作的，c）没有参考。

任何帮助表示赞赏

ds.algorithms edit-distance lattice

— 曾娜
source

您认为{0 1 2 3}与{0 1} {2 3}之间的距离是多少？会是2吗？其次，我根本不明白为什么“图”会出现在图片中。听起来您有两个[n]分区，并且想要计算它们之间的距离。

— Suresh Venkat

是的，那将是两个。实际上，这些是图的节点上的集合分区（即图分区）。这对解决方案可能并不重要，但这是我要解决的问题，因此我为什么要提到它。

— zenna

如果图形不相关，请从您的问题中删除所有对“图形”和“节点”的引用；它没有帮助，它分散了注意力。

— Jukka Suomela 2011年

不能根据分隔格上的距离来定义编辑距离吗？

— Tegiri Nenashi

@Tegiri-这确实是partititons晶格上的测地距离。不幸的是，对于任何大于10的基数集，都无法计算该晶格。

— zenna 2011年

Answers:

该问题可以转化为分配问题，也称为最大加权二分匹配问题。

首先请注意，编辑距离等于需要从一组更改为另一组的元素的数量。这等于元素总数减去不需要更改的元素数目。因此，找到不更改的最小元素数量等同于找到不更改的最大顶点数量。

让和 $A = \{ A_1, A_2, ..., A_k \}$ 是分区。同样，在不失一般性的前提下，令 $B = \{ B_1, B_2, ..., B_l \}$ $[1, 2, ..., n]$ （允许的，因为 $k \ge l$ ，...，全部为空集。则不变的最大顶点数为：）。然后让， $edit(A, B) = edit(B, A)$ $B_{l+1}$ $B_{l+2}$ $B_k$

$\max_f \sum_{i=1}^k |A_i \cap B_{f(i)} |$

其中是的置换 $f$ 。 $[1, 2, ..., k]$

这正是顶点为，...，，，...，且边为权重为对的赋值问题 $A_1$ $A_k$ $B_1$ $B_k$ $(A_i, B_j)$ 。可以在 $|A_i \cap B_j|$ 时间中解决。 $O(|V|^2 \log |V| + |V||E|)$

— 贝乔
source

您能否命名该算法，该算法会增加时间复杂度？

— D-503

我相信@bbejot指的是连续最短路径算法（子例程Dijkstra使用斐波那契堆来实现）。

— 威

我花了很长时间来解析它，因为我不是数学家，但谢谢。我花了很长时间进行搜索，这是我唯一能找到的东西，它显示了如何将分区距离问题转换为赋值问题，或者转换为可以从某个Python库调用的任何算法。（对我来说，最困难的部分是弄清楚如何使用scipy.optimize.linear_sum_assignment，然后根据这些指令设置矩阵。）

— Sigfried

我需要使权重为负。否则scipy.optimize.linear_sum_assignment会为我提供0。

— Sigfried

看看本文的PDF

http://www.ploscompbiol.org/article/info:doi/10.1371/journal.pcbi.0030160

我想您所需要的正是编辑距离的定义。“引用”分区将是（任意）两个分区之一，另一个分区就是另一个分区。还包含相关引用。

最好，罗布

— 抢
source

谢谢罗伯。但是，除非我缺少任何内容，否则这是根据拆分合并移动定义的编辑距离。对这些进行了充分的研究，正如论文所指出的那样，信息的变化是对此进行信息理论的度量。但是，我对单元素移动过渡感兴趣。

— zenna 2011年

可能不正确的周日凌乱的想法：

Wlog，令为具有更多集合的分区，为另一个。首先，分配互不相同的名字你套。然后，通过以下规则找到集合的最佳命名： $P_1$ $P_2$ $n_1(S) \in \Sigma$ $P_1$ $n_2(S)$ $P_2$

为与最大在所有 ; 如果有多种选择，则选择冲突最少的一种。 $n_2(S) := n_1(S')$ $S \in P_2$ $S \cap S'$ $S' \in P_1$
如果现在对于一些，分配一个股更少的元件 $n_2(S) = n_2(S')$ $S \neq S'$ ，该组的名称在 $S'', n_1(S'') = n_2(S)$ $P_1$ 它共享第二多的元素，即让它竞争该集合的名称。
如果不能应用前一个规则，请检查两个集合是否可以竞争与它们共享较少元素的其他集合的名称（它们可能仍具有来自某些更多元素比我被分配它的名字套！）。如果是这样，则将该名称分配给 $S'' \in P_1$ $S, S'$ ，该名称与它们可以竞争其名称的各个集合共享更多元素；另一个保留以前冲突的名称。
重复此过程，直到解决所有冲突。由于集合少于，因此有足够的名称。 $P_1$ $P_2$

现在，你可以考虑你的元素的比特串WRT无论是分区，即和（与 $w_1 = n_1(1) \cdot \dots \cdot n_1(n)$ $w_2 = n_2(1) \cdot \dots \cdot n_2(n)$ $n_j(i) = n_j(S), i \in S \in P_j$ ）。然后，期望量是，即位串之间的汉明距离。 $d_H(w_1, w_2)$

— 拉斐尔
source