Answers:
一阶:反应灵敏吗?
如果您无法登录,那么将会遇到更大的问题。通常有两种形式:硬件故障和软件故障。两者都可能是灾难性的。为防止DFA错误,请先检查常规硬件的运行状况-通常只需简单的浏览即可。
二阶:系统的基础结构是否状况良好?
检查系统的“ Golden Triad”:
在过去的几十年中,三合会已扩展为包括通信(网络)的“四合一”:
三阶:问题的严重性是什么?
哪些程序或服务受到影响?按照严重性从高到低的顺序是系统的(系统范围的),群集的(一组程序)还是孤立的(特定程序)?程序群集通常会跳闸,因为特定的基础服务已失败或无响应。有时,系统性问题与此相关(例如DNS或IP冲突),但是知道在哪里查找通常是关键。
第四阶:诊断工具是否提供与问题相关的有用数据? 现在,您已经掌握了有关系统运行状况的信息(二阶),以及系统的哪些部分遇到了问题(三阶),这应该可以轻松地缩小问题的范围。
错误消息或日志文件应该是此过程中的常见路标。
CPU问题:
磁盘空间/ IO问题:
内存问题:
连接问题:
最常见的投诉(我听到的):
电子邮件的传递速度不够快(从收件人发送到收据超过一分钟),或者电子邮件拒绝了我的发送尝试。这通常归因于垃圾邮件风暴期间Postfix的速率限制器,这会影响接受内部传递的能力。
一个真实的例子:
然而,这并非总是如此。有一次,无论服务重新启动,问题仍然存在;因此3分钟后就该开始四处看看了。CPU繁忙,但低于100%,但是在只有2个内核的盒子上,负载已飙升至15,并且威胁要更高。最高命令显示邮件系统和邮件扫描程序一起处于超速状态,但是没有amavis子进程可见。这就是线索-邮件队列命令(mailq)显示了150多个未送达的邮件,其中80%以上是垃圾邮件,过去20分钟内。快速调整以降低速率限制器(这降低了垃圾邮件风暴的接收率),同时增加了子电子邮件扫描程序的数量(以帮助处理积压),然后重新启动服务,解决了该问题,并且系统能够在短时间内完成交货。
问题的原因是,amavis父进程已经死了,子进程最终都按照自己的方式运行(经过多次扫描以防止内存泄漏,它们会自行终止)。因此,postfix中有SMTP进程试图联系...稀疏地...进行所需的垃圾邮件/病毒扫描。我正在使用的发行版中包含过时的软件包,这些软件包永远不会更新。由于安装将在一年左右的时间内完成,因此我手动将安装“替换”为最新版本,其中包括一些错误修复。从那以后我再也没有同样的问题了。