我听说过引导语言的想法,即为语言本身编写编译器/解释器。我想知道如何做到这一点,环顾四周,看到有人说这只能由任何一个人完成
- 用另一种语言编写初始编译器。
- 在Assembly中手动编码初始编译器,这似乎是第一个的特殊情况
在我看来,这两者似乎都不是在引导语言,因为它们都需要外部支持。有没有办法用自己的语言实际编写编译器?
我听说过引导语言的想法,即为语言本身编写编译器/解释器。我想知道如何做到这一点,环顾四周,看到有人说这只能由任何一个人完成
在我看来,这两者似乎都不是在引导语言,因为它们都需要外部支持。有没有办法用自己的语言实际编写编译器?
Answers:
有没有办法用自己的语言实际编写编译器?
您必须使用某种现有语言来编写新的编译器。如果要编写新的C ++编译器,则只需用C ++编写,然后首先使用现有的编译器进行编译。另一方面,如果您正在为一种新语言创建编译器,我们称其为Yazzleof,则需要首先使用另一种语言编写新的编译器。通常,这将是另一种编程语言,但并非必须如此。它可以是汇编,也可以是机器代码。
如果你是要引导用于Yazzleof一个编译器,你一般不会写最初的全语言的编译器。相反,您将为Yazzle-lite(Yazzleof的最小可能子集)编写编译器(至少,是一个很小的子集)。然后,在Yazzle-lite中,您将编写完整语言的编译器。(显然,这可以迭代而不是一次跳转。)由于Yazzle-lite是Yazzleof的适当子集,因此您现在有了一个可以自行编译的编译器。
关于从最低的级别引导编译器(在现代计算机上基本上是十六进制编辑器)进行引导的文章非常不错,标题为“ 从零开始引导简单的编译器”。可以在https://web.archive.org/web/20061108010907/http://www.rano.org/bcompiler.html上找到。
您阅读的说明是正确的。在《编译器:原理,技巧和工具》(《龙书》)中对此进行了讨论:
在Unix联合创建者Ken Thompson的Turing Award演讲中,对此进行了非常有趣的讨论。
他开始时:
我要描述的是用自己的语言编写编译器时出现的许多“鸡和蛋”问题之一。在这种情况下,我将使用C编译器中的特定示例。
并继续展示他如何编写Unix C编译器的版本,该版本始终允许他不用密码登录,因为C编译器会识别登录程序并添加特殊代码。
第二种模式针对C编译器。替换代码是一个Stage I自复制程序,它将两个特洛伊木马都插入到编译器中。就像第二阶段的例子一样,这需要学习阶段。首先,我们使用普通的C编译器编译修改后的源代码,以生成错误的二进制文件。我们将此二进制文件安装为官方C语言。我们现在可以从编译器的源代码中删除错误,新的二进制文件将在每次编译时重新插入这些错误。当然,login命令将保持错误状态,并且在任何地方都没有源跟踪。
查阅Podcast 软件工程电台第61集(2007-07-06),其中讨论了GCC编译器的内部以及GCC引导过程。
Donald E. Knuth实际上是通过在其中编写编译器来构建WEB的,然后将其手工编译为汇编或机器代码。
据我了解,第一个Lisp解释器是通过手工编译构造函数和令牌读取器来引导的。然后从源中读取了其余的解释器。
您可以通过阅读原始的McCarthy论文(符号表达式的递归函数及其通过机器进行的计算,第一部分)来进行检查。
另一种选择是为您的语言创建一个字节码机器(如果功能不是很特殊,则使用现有的字节码机器),然后使用字节码或所需的语言使用另一种中间语言(例如解析器工具包,将AST输出为XML,然后使用XSLT(或另一种模式匹配语言和基于树的表示形式)将XML编译为字节码。它不会消除对另一种语言的依赖,但是可能意味着更多的引导工作最终会在最终系统中完成。
这是鸡和蛋悖论的计算机科学版本。我想不出一种不用汇编器或其他语言编写初始编译器的方法。如果可以做到,我应该Lisp可以做到。
实际上,我认为Lisp几乎可以胜任。查看其Wikipedia条目。根据这篇文章,Lisp eval函数可以在IBM 704上用机器代码实现,而完整的编译器(由Lisp自己编写)于1962年在MIT诞生。
一些自举的编译器或系统会将源表单和对象表单都保留在其存储库中:
ocaml是一种既具有字节码解释器(即Ocaml字节码的编译器)又具有本机编译器(x86-64或ARM等汇编器)的语言。它的svn存储库包含编译器的源代码(文件*/*.{ml,mli}
)和字节码(文件boot/ocamlc
)形式。因此,在构建时,首先使用其字节码(编译器的早期版本)编译自己。后来,新编译的字节码能够编译本机编译器。因此,Ocaml svn存储库包含*.ml[i]
源文件和boot/ocamlc
字节码文件。
该锈编译器下载(使用wget
,所以你需要一个工作的Internet连接)的二进制以前版本的编译本身。
MELT是一种类似于Lisp的语言,用于自定义和扩展GCC。引导翻译程序将其翻译为C ++代码。转换器生成的C ++代码是分布式的,因此svn存储库包含转换器的*.melt
源文件和melt/generated/*.cc
“对象”文件。
J.Pitrat的CAIA人工智能系统完全是自动生成的。它可以作为成千上万个[A-Z]*.c
生成文件的集合(也带有生成的dx.h
头文件)和成千上万个_[0-9]*
数据文件的集合。
还引导了多个Scheme编译器。Scheme48,鸡肉方案,...