有关分布式系统故障处理的论文


10

您推荐哪些论文来处理分布式系统中的错误?


2
我对这个主题不熟悉,但是不是太多吗?另外,推荐什么?
伊藤刚(Tsuyoshi Ito)2010年

5
这个问题似乎太过广泛了。我猜想分布式计算中所有论文的一半都与容错性有关。
Jukka Suomela

2
绝对太广泛了。投票结束...
Suresh Venkat 2010年

也许这个问题还不错。我尝试推荐以下一些作品。
戴乐2010年

1
如果您最初将这些信息作为动机,那么问题会更好。
戴夫·克拉克

Answers:


8

您可能想看看在2010年获得Tushar D. Chandra,Vassos Hadzilacos和Sam Toueg Edsger W. Dijkstra奖的作品

这些论文在通用且精确的框架中介绍了分布式系统中故障检测器的概念。凭直觉,他们试图研究解决共识所需的最少故障信息。事实证明,您不需要完美的故障检测器即可解决共识问题。即使满足某些最小条件的不可靠的故障检测器也足以满足该任务。这些论文对如何处理分布式系统中的故障很有影响。


3

系统中存在哪种故障?您是在寻找解决拜占庭式故障的解决方案,还是在寻找经典的故障停止模型?分布式系统中存在拜占庭式节点的解决方案是更引人入胜的问题。该问题由莱斯利·兰普特(Leslie Lamport)提出(拜占庭将军问题),Barbara Liskov和Miguel Castro在1999年发表的论文提出了最接近的可行解决方案“实践拜占庭容错”。弗雷德·施耐德(Fred Schneider)的机器方法和带视图标记的复制 我确实同意这个问题是非常笼统的,该领域非常广泛,并且该理论构成了当今大多数在线运行的系统的基础,也许更具体的故障模型和问题域将有助于获得更好的答案


3

这是用于处理分布式系统中的处理错误的模式的集合:

另外,对于更通用的工作,有Rachid Guerraoui和Luis Rodrigues 撰写的《可靠的分布式编程简介》一书,其中包含大量实用算法,包括许多故障恢复变量。南希·林奇(Nancy Lynch)撰写的更为经典的文本《 分布式算法》Distributed Algorithms)从更理论的角度涵盖了类似的领域。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.