Answers:
与任何中断通信一样,非技术读者将主要希望了解:
Amazon CloudWatch指标为SQS队列提供以下指标,可以帮助回答以下问题:
如果正确绘制图形,则这些度量可以在描述队列处理延迟方面提供强大的视觉帮助。这是我经历的一次中断中的几个示例,其中该作业处理队列消息的能力严重下降:
这可以绘制发送和接收的消息之间的对比,从而有助于隔离造成延迟的处理组件。在此图中,接收到的度量标准急剧下降,而发送的度量标准继续保持其正常趋势,因此我们可以推断出问题出在队列读取组件而不是队列写入组件。
这是否回答了多长时间/多严重的事件?是; 描述随着时间的推移而受到影响的过程。
这将在接收到的消息之上绘制队列深度图,这有助于显示队列备份的距离和恢复的方式。在此图中,我们可以看到,当队列读取组件出现问题时,队列深度急剧备份,并在队列读取组件再次开始读取消息时开始恢复。
这是否回答了多长时间/多严重的事件?是; 描述随着时间的推移受到影响的消息。
在这两个图中,当线重叠时,通常可以将队列处理视为正常,而当线分开时,则认为队列处理不正常。这是向非技术团队成员教授的简单模式,并且可以帮助他们快速传播出现在这些图中的问题的位置和方式。
要进一步传达图中的特定点,您可以简单地为它们添加注释:
绘图技巧:
注意:我已经格式化了这些图形以便在StackExchange上呈现,所以这些不一定是我在停运验尸中呈现它们的方式。我在这里明确地从左轴删除了值,以使它们从StackExchange中消失;您需要将它们保存在验尸中。