Nagios很好,也许定期运行系统测试(Selenium)很好。
编辑:Hyperic和Groundwork也看起来很有趣。
可能会有一个测试套件系统,可以对您的所有内容进行压力测试。我不记得这个名字了,也许有人可以在下面提一个名字。
我喜欢做的其他事情:
基础架构的最佳座右铭始终是修复,检测和修复。启动它,找到它的根源,并尽可能治愈/预防它。
由于系统存在于多个级别,因此我们应该在多个级别进行测试:
编辑:将所有错误或警告通过电子邮件直接发布到您的案例管理员。这样,您可以在一个地方跟踪事件。
1)连接:从服务器和外部监视您的Internet连接。将此记录在某处
2)服务器:监视所需的所有进程,以确保它们正在运行并且不固定服务器。使用HP Server或具有硬件故障通知功能的等效产品(可以从BIOS级别执行此操作)。通知并记录是否存在。
3)软件:确定始终需要运行的关键软件。设置性能水平(如有),然后对其进行监控。Nagios应该能够提供帮助。在Windows上可能更多。发生异常时,您应该能够从中运行脚本以自动重启进程。我的梦想系统是允许我通过SMS与服务器交互,如果服务器将其视为我必须允许的例外,或者除非我通过短信取消,否则它将自动发生。一天..
4)远程电源:确保您拥有远程电源重置功能。如果您曾经使用Windows执行任何操作,则可能希望安排每周重新启动。
5)业务逻辑测试:定期运行脚本来测试系统的工作流程。Selenium可能可以实现某些目标,但是我也喜欢记录结果,以说这次运行了,并且这些文件有错误。如果可能的话,请让系统通过脚本监控自身。
6)备份:进行备份,您可以设置并忘记该备份。如果您可以将内容放入虚拟机,则可以在任何地方扩展,移动或部署基础架构的任何部分,这将是理想的选择。我遇到了将死服务器移到笔记本电脑上的情况,在解决问题时让它在vmware中运行。