给定正则表达式,的最小上下文无关语法的大小是否有任何平凡的界限?
给定正则表达式,的最小上下文无关语法的大小是否有任何平凡的界限?
Answers:
这是一个很大的问题,确实符合我的兴趣。很高兴您问到Max。
设个状态最多为O (n )的 DFA 。如果存在一个PDA的指数级数众多的州可以接受DFA语言的交集,那就太好了。但是,我建议这种PDA可能并不总是存在。
考虑复制语言。现在,将其限制为复制长度为n的字符串。
正式考虑 -copy := { x x 。
我们可以将 copy 表示为n个 DFA大小最大为O (n )的交集。然而,接受最小的DFA Ñ -copy具有2 Ω (Ñ )的状态。
同样,如果我们将自己限制为二进制堆栈字母,那么我怀疑接受 -copy 的最小PDA的指数状态很多。
PS如果您想进一步讨论,请随时给我发送电子邮件。:)
我认为不可能有任何不重要的下限或上限。
对于下限,对于固定k,考虑语言。最小的上下文无关文法的大小在L 1的正则表达式中是对数的,而L 1的最小自动机的大小在L 1的正则表达式中是线性的。如果我们将L 1与其他此类语言相交,则该指数差异保持不变。
对于上限,请考虑一种语言L 2,该语言正好由一个
长度为 deBruijn序列。已知L 2的最小语法的大小是最坏情况,即O (n,因此与L2的“最小”自动机的差只是对数因子,即
阿非平凡一般下限或上限结合将违背这些结果,由于什么是真正的用于的交点语言必须是相交真实1种语言。
让我支持迈克尔的判断,这确实是一个有趣的问题。迈克尔的主要思想可以与文献结果相结合,从而提供了一个严格的证明。
我将用正则表达式中字母符号的总数来表示CFG大小的界限。将该数字表示为k。(正如john_leo所指出的,就参与交集的正则表达式的数量而言,我们将找不到任何有用的界限。)
无论是OP也不迈克尔确实发现有必要提到这一点,但上限为的正则表达式的交点转换为NFA可以很容易地证明(上状态的数量)。作为记录,这里是:将正则表达式转换为Glushkov自动机,它们都是不可返回的。然后应用产品构造以获得这些语言的交集的NFA。(I假设一个可以提高结合到2 ķ + 1左右。)一种小号 -state NFA可被转换成右线性文法(它是一个CFG的一种特殊情况)大小的Ô (小号2)(如果我们将文法大小作为产品左侧和右侧的符号总数来衡量),则得出大小。如果您想到了实际的应用程序,那么这听起来当然是可怕的。尝试使用不确定的转换复杂度而不是不确定的状态复杂度来证明更好的界限来估计NFA的大小可能是值得的。
另一部分是找到一种见证人语言,该语言可以简洁地表示为正则表达式的交集,但是使用CFG进行描述必然很麻烦。(在这里,我们需要建立一个下界所有CFGS生成语言,其中可以存在无限多的尺寸。)下面的参数给出一个下限。
考虑有限语言, where denotes the reversal of . Then can be expressed as the intersection of the following regular expressions:
The total number of alphabetic symbols in this intersection of expressions is in .
Using an argument given in the proof of Theorem 13 in (1), one can prove that every acyclic CFG that generates must have at least distinct variables, if the right-hand side of each rule has length at most . The latter condition is necessary for arguing about the number of variables, since we can generate a finite language with a single variable. But from the perspective of grammar size, this condition is not really a restriction, since we can transform a CFG into this form with only a linear blowup in size, see (2). Notice that the language used by Arvind et al. is over an alphabet of size , and this yields a bound of ; but the argument carries over with obvious modifications.
Still, a large gap remains between and the abovementioned lower bound.
References:
V. Arvind, Pushkar S. Joglekar, Srikanth Srinivasan. Arithmetic Circuits and the Hadamard Product of Polynomials, FSTTCS 2009, Vol. 4 of LIPIcs, pp. 25-36
Lange, Martin; Leiß, Hans (2009). "To CNF or not to CNF? An Efficient Yet Presentable Version of the CYK Algorithm". Informatica Didactica 8.