最小化正则表达式的大小

15

众所周知，即使将DFA作为语言的规范，最小化正则表达式的大小也是PSPACE完整的。

如果语言是有限的，结果是什么？

一个人可以用两种模型来考虑这个问题：

输入是该语言中的所有字符串，我们通过所有字符串的长度之和来衡量输入大小。
输入是DFA，我们通过DFA的状态数来衡量输入大小。

Kleene star在有限情况下没有用，因此只有，和（串联）在表达式中使用。当然，正则表达式的长度似乎是任意的。相反，可以赋予每个操作权重（包括添加括号），并要求最小化正则表达式的权重。 $()$ $|$ $\cdot$

编辑：正如adrianN所指出的，它与基于语法的代码有关。产生最小长度的上下文无关文法来描述有限集是NP完全的。尚不清楚为什么最小尺寸上下文无关文法可以暗示更多关于最小尺寸正则表达式的信息。也许聪明的重写规则可以将这两者联系起来，并证明在第一个模型中，问题出在NP上。

— 徐超
source

3

这似乎与基于语法的代码有关。

— adrianN

假设输入大小受到限制。克雷恩星可能是有效的。因此定义输入大小（自然地）限制为有限语言中最长的字符串是有意义的。并且在这种情况下，如果仍然不包括小星。另外，作为一种（显而易见的）启发式方法，将DFA最小化并从中构造RE是一种策略...也请注意，RE（具有变量替换）具有类似DAG的结构，并且已知的（强）thm并不多关于最小化DAG样结构的问题。...没有变量替换的RE都是树状的（公式），可能更易于使用

— 。...– vzn 2013年

其他角度。已知由brzozowski引入的RE“衍生物”可用于将RE直接转化为DFA，参见例如由Owens，Reppy，Turon 重新审查的正则表达式衍生物。也许有某种方法可以对逆问题使用相同的结构。无论如何，尽管总的来说这似乎是一个开放的问题

— 。...– vzn

4

以下参数本质上是由（1）：的两个问题的决定版本被包含在第二级多项式层次（更精确地：在复杂性类），如下所示。猜一个最大为的正则表达式，并检查它是否等于给定的确定性自动机（分别：与作为单词列表给出的语言相对应）。 $\Sigma^P_2$ $k$

我相信没有其他有关您的问题的结果。对于外观相似的优化问题，其目标是找到最小的等效非确定性有限自动机而不是正则表达式，以下结果是已知的：

对于描述为DFA的输入，最小等效NFA问题是 -hard，请参阅（1）。在此，表示“差分多项式时间”。这是布尔层次结构第二级中的“ Sigma”复杂度类。 ${\bf DP}$ ${\bf DP}$
对于描述为单词列表的输入，最小等效NFA问题为 -hard，请参阅（2）。 ${\bf NP}$
对于和输入描述为真值表，最小等效NFA问题是 -complete，见（2）。 $L \subseteq \{0,1\}^m$ ${\bf NP}$

当心：与无限语言的设置不同，我看不到将NFA最小化情况直接归结为问题所带来的问题。

参考文献：

（1）赫尔曼·格鲁伯和马库斯·霍尔泽。有限语言和一元语言NFA最小化的计算复杂性。在：第一届语言和自动机理论与应用国际会议（LATA 2007），第261-272页，2007。

（2）赫尔曼·格鲁伯和马库斯·霍尔泽。不确定P = NP的状态的不确定性与过渡复杂度。在：第11届语言理论发展国际会议（DLT 2007），LNCS 4588，pp.205-216，2007。

编辑： 我认为基于语法的代码不是那么紧密相关：在该设置中，给定的语言是单例集。但是对于这样的单例语言，最小大小的正则表达式由（平凡）由给出 $L=\{w\}$ $w$ 。

— 赫尔曼·格鲁伯
source

-6

显然缺少确切的已知答案或比这更好的答案，以下是关于研究的近/最近参考，特别是关于最小化RE的主题（这是一个罕见的角度）：

最小化NFA和正则表达式（2005） Georg Schnitger的Gregor Gramlich

我们显示了关于不确定性有限自动机（nfa）以及与给定nfa，正则表达式或确定性有限自动机（dfa）相对的正则表达式最小化的不可逼近结果。我们表明不可能有效地最小化给定的nfa或具有n个状态，转换和resp的正则表达式。除非P = PSPACE，否则符号在因子o（n）内。对于具有n个状态的给定dfa，我们的不可逼近性结果基于密码学假设，并且我们表明，任何有效的算法都将具有至少为poly（log n）的近似因子。我们的设置还使我们能够分析最小一致的dfa问题。

— z
source

4

之所以问这个问题，是因为本文没有讨论语言有限时会发生什么。

— 赵超

1

很好，则为[relevant / nec] bkg。但是请注意，如果另一个问题没有[已发布]的答案，那么这个问题也不会令人惊讶，接近变角可能无济于事。Mea culpa也没有注意到该论文在另一个问题上被MdB引用。

— vzn13年