DevOps post-mortem

1

我负责使用ApproximateNumberOfMessagesVisibleCloudWatch指标上的扩展策略执行一组SQS队列处理作业。由于多种原因，这些作业可能无法跟上所发送消息的数量：服务降级会降低能够处理的消息的容量。 AutoScaling 队列深度持续增加时达到最大限制。 S3中断会影响AutoScaling队列处理作业用来满足需求的其他相关AWS服务（服务）。在与非技术团队成员讨论中断时，我想传达特定的队列处理延迟，这些延迟可以转化为客户可见的降级。如何使用SQS队列执行此操作？

13 amazon-web-services amazon-sqs amazon-cloudwatch post-mortem

2

如何调查在Docker容器中死亡的主要流程？

有时，您必须检查一个已停止的容器，或者启动后很快死亡并停止的容器。 docker exec -ti <id> bash 仅适用于正在运行的容器，一旦完成，bash提示也会终止。随着docker start你不能提供一个不同的命令，如果容器模具突然再次，你不会有足够的时间进入容器，做你的调查。我们可以这样做docker commit，然后docker run使用不同的命令在新映像上进行操作，但是我想知道是否还有其他选择。注意：docker logs仅返回打印到stdout / stderr的所有应用程序。这可能不足以找出问题所在。

13 docker containers post-mortem

2

如何在不丧失进行验尸的能力的情况下实现不可变的服务器模式？

不变的服务器模式是一种部署准则，有利于部署的可重复性。它的特点是“ 一旦部署服务器，就不会被修改，仅被新的更新实例替换 ”，而实施这一准则要求服务器部署自动化。这种自动化具有许多操作优势，其中最重要的一项就是允许快速可靠地替换基础架构中发生故障的实例。这种自动化还意味着服务器部署由版本控制的软件工件来描述，并且需要进行迭代式改进。该学科实施的一个流行方面是，一旦启动服务器，就删除对服务器的远程访问方法（尤其是删除SSH访问）。删除远程访问是一种确保服务器配置与部署自动化准备的配置相匹配的简便方法。但是，在调查验尸中软件故障的原因时，仅依靠结构化监视并不总是足够的，因此可能需要远程访问计算机。常见的实际情况是服务器监视未涵盖所有故障源，或者服务器故障本身可能会损害监视，如果服务器内存不足或达到其进程限制，则很可能会发生这种情况。如何在不丧失进行验尸的能力的情况下实现不可变的服务器模式？

12 immutable-servers post-mortem

Questions tagged «post-mortem»