很难给出具体的答案,因为90%的工作都是经验,它会教您在哪里寻找哪种问题,而另外90%的人则知道在Google上寻找从哪里开始的提示。
我通常会尝试用纸袋包装的东西,例如让客户演示问题(主要是为了排除手指问题以及客户可能描述他的问题的任何问题),然后尝试在另一台计算机上重复该问题。这样做通常可以让您深入了解要看的地方。
即使在今天,也不要忘记重启的纠正问题,尤其是对于Windows系统。过去的情况是如此之多,以至于我会问人们“您是否重新启动了?好尝试一下,让我知道问题是否仍然存在” –这解决了我被问到的很大一部分问题。
DNS解析问题和基本连接(路由器上的ACL,网络中的空气间隙,对远程站点的pings / traceroutes / mtrs等)通常也很容易获得成功。
对于服务,您可以直接控制,运行nagios或其他确保服务真正运行的方法,这通常会触发您在客户告诉您问题之前解决问题。您可能还希望直接通过munin之类的东西或通过SNMP到Cacti之类的东西来运行统计信息收集。
我通常会尝试让Cacti至少针对我所有的核心交换机和防火墙运行;在可能的情况下,我会尽我所能来经营仙人掌。在这些情况下,我通常会寻找端口错误计数或流量过大之类的东西。某些设备的防火墙图可以显示CPU使用率和并发会话。您将了解防火墙设备在什么阈值开始出现问题。
您的防火墙可能能够登录到syslog设备。如果是这样,请记录所有可能的内容,并在其中查找提示。如果您运行诸如syslog-ng或rsyslog或splunk之类的东西,使您可以对日志进行某种程度的划分而不是处理一个整体文件,则将更加容易。
我还尝试至少在防火墙内部以及可能的情况下对互联网提供商的上行链路运行nfsen。这样,您就可以使时光倒流以查看会话,以了解谁在做什么。这有时会引起有趣的行为。