进行根本原因分析


9

我想了解更多有关如何进行根本原因分析的信息。我们的部门多次告诉用户尝试重新引导(他们的Windows XP系统),这实际上可以“修复”许多问题。当我急忙时(有时每小时收取一次工资会对此有所帮助),我可能会尝试找到一种解决方法以快速解决问题,而不是实际执行根本原因分析。

大多数情况下,我在日志文件或事件查看器中查找此信息。有时我会使用Sysinternals工具或偶尔运行数据包嗅探器。我可能没有尽可能多地使用Sysinternals程序。有关如何使用这些工具,何时以及为什么的一些特定见解也将有所帮助。

我知道这是一个广泛的问题,但是请您简要说明一下您使用的方法,工具等?看起来很多SF管理员都在使用更深入的过程,我想了解更多。如果这可以帮助您缩小问题的范围,那么我将最感兴趣的是与AD环境中Windows服务器和客户端相关的工具,技巧,窍门等。

Answers:


5

找出问题的根本原因取决于问题-您最初看日志文件/ sysinternals工具/数据包嗅探器的直觉通常是正确的。
我会在Windows系统上添加运行MS恶意软件删除工具和一个好的AV程序(并确保它们没有Cyber​​Defender或其他AV-trojan-malware之类的东西。

Stack Exchange的支持者是“ 5个为什么”方法的支持者(http://en.wikipedia.org/wiki/5_Whys,也是一个展示其实际操作的简短PDF)。这是进行根本原因分析的非常有价值的工具。


除此之外,我将画出两大类以及我通常会问/我检查的事情:

与网络无关的神秘行为,
例如“ Word不断崩溃”

要问的基本问题:

  1. 发生了什么变化?
    (不要轻易回答-这是第一个谎言。新软件,补丁程序等都算在内。)
  2. 遇到问题时您在做什么?
    (尝试在此处提取尽可能多的细节-在上面的示例中,“我按了插入首字母的热键,程序崩溃了”)
  3. 它曾经工作过吗?
    (如果是这样,请从上面的(1)开始查看内容)
  4. 您可以在系统上重现该问题吗?
    (如果是这样,那就是一个好兆头:致电供应商的技术支持可能会有所帮助。否则,您需要查看用户系统的其余问题。)
  5. 用户环境与您的环境有何不同?
  6. 用户的硬件是否可疑(运行内存测试,从硬盘驱动器中查找SMART错误,等等)
  7. 如果您到此为止(硬件签出,软件签出,没有病毒,没有恶意软件)访问用户一天。遵守他们的工作习惯。
    我公司曾经有一个神秘的系统锁定,该锁定与以特定频率单击鼠标有关(我们仍然不知道为什么,但是我们必须观察用户这样做并练习一天,以便能够复制它可靠地)

与网络有关的问题

很多类似,但有一些更具体的指导。

  1. 发生了什么变化?
    (是的,你总是从这里开始)
  2. 什么坏了?
    • 您可以访问网页吗?只是一个倒下了吗?如果这样,是对所有人还是对您而言
    • 您可以按名称ping Internet上的内容吗?
      通过IP怎么样?跟踪路由能走多远?
  3. 什么时候坏了?
    • 总是一天中的同一时间?
    • 每N天短暂时间?
    • 随机(真的是随机的吗?将其绘制在日历上...)
  4. 远程站点是否有些奇怪?
    • 查看DNS-如果是轮循,则可能是远端损坏
    • 我们在谈论VPN的另一端吗?VPN发生了什么(日志!)?
  5. 当地站点有什么奇怪的地方吗?
    • 检查您的本地防火墙
    • 检查任何“过滤软件”
  6. 请与您的ISP联系以查看是否存在任何已知问题
  7. 检查诸如http://www.internetpulse.net/之类的网站,以了解网络范围内的已知问题
  8. 检出用户的机器
    (TCP设置等-通常不是问题,但有时)。

1

除了到目前为止的出色反应,我还要补充:

  • 确定发行日期/时间。这看起来似乎很明显,但是我看到了太多的问题,这些问题没有记录在案,后来又基于错误的假设。这与“已更改的内容”步骤密切相关。

  • 问题是可复制的还是间歇性的?这是至关重要的,因为与间歇性症状相比,可重现的症状要容易得多且更容易解决。如果可复制,请确保记录了步骤。

  • 识别症状。请注意,我们将“症状”(是根本原因的一种表现)与实际问题/根本原因进行了区分。

    1. 还有其他活动可以重现症状吗?
    2. 还有什么其他症状?
    3. 如果问题是断断续续的,我们能否确定会导致该问题发生的活动?
    4. 在什么情况下可以防止症状发生?仅在使用网络帐户登录时才出现此问题,但在本地登录时可以正常工作吗?以普通用户身份登录时是否会出现问题,但是如果使用提升的特权登录就可以正常工作吗?它是否仅在一个系统上发生,而应该相似的另一个系统却没有出现该症状?
  • 将问题定位到可能有故障的功能组件。如果Web应用程序中存在错误,是应用程序代码,Web服务器,托管Web服务器的操作系统,网络还是远程终端中的错误?这是最好的猜测,以便将资源集中在可能的原因上,因此请确保其他人知道这是理论/推测。

  • 对您的假设提出质疑,并尝试收集经验数据以支持假设和结论。告诉某人x没问题,这是一种很不好的感觉,后来发现它确实存在。通常,当解决方案不正确时,可能会有数据支持正确的解决方案。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.