当我不知道从哪里开始时该如何解决?


40

在以下情况下,我正在寻找有关如何开始进行故障排除的提示,技巧和答案:

  1. 问题是断断续续的
  2. 问题可能出在任何地方-操作系统;免费软件;我自己的软件开发;购买的软件;键盘上的碎屑;我当前正在运行的软件的特定组合;麦克斯韦的恶魔;实际运行机器的蓝色小伙子们罢工了。等等
  3. 我仅在可能成为问题根源的某些领域中拥有专业知识。

下面以示例的方式详细说明了我遇到的具体问题,但我不是在寻求当前问题的答案,而是在哪里以及如何着手解决此类问题。

我的新机器当前遇到问题。在某些情况下,机器刚冻结;不接受按键,鼠标单击或除电源开关以外的任何东西。我一直都只是浏览网页。我已经运行了几个(<= 6个其他应用程序)。这些应用程序都不是主要的。并且代表商业程序和开源程序的混合,通常是从各种Unix迁移而来的。

我的机器是Windows 7 I7四核笔记本电脑。

编辑:

尽管我说过实际的问题描述只是一个例子,但是一些评论集中在解决这个问题上。不幸的是,仅作为示例,所提供的信息正确但不完整。为了避免人们浪费时间尝试远程解决实际问题,我提供了一些其他有关我的设置的信息。就像我最初说的那样,我没有寻求针对这个特定问题的答案。

我的机器是一台高功率笔记本电脑;是我的主要机器;用于开发和技术写作,通讯-电子邮件,Web,FTP等,以及照片编辑和索引编制。至少每月都要运行一套严格而广泛的硬件测试程序套件,包括CPU测试,多内存测试以及对所有其他组件的测试。至少每月进行一次完整病毒扫描。全面的间谍软件扫描;磁盘清理;以及磁盘碎片整理。

该磁盘大约包含3 * 10 ^ 6个文件;磁盘使用量为300 Gb,剩余空间为150 Gb。内存为8 Gb。当我运行全套主要开发工具时,机器可能会稍微变热,但只有在非常轻便地使用机器时,我才遇到问题-Web浏览,Textpad,Graphviz,Firebird数据库和轻量级数据库浏览器(Flame Robin) )。在这种情况下,甚至风扇也不会稍微发热。遇到问题期间,我没有对软件,操作系统或硬件进行任何更改。已经发生了许多自动更新-大多数,但并非唯一地是Microsoft,Adobe和Lenovo。

这种背景使我希望以我的方式提出这个问题的理由成为背景(我希望)。我现在将开始调查答案中提到的各种日志,这是试图缩小调查范围的第一步。我将尝试一项锻炼,这是我到目前为止所获得答案中所建议的特征之一-耐心-在我的调查中。


6
+1,因为这个问题将来对我有用。
Tamara Wijsman

2
有时,在着手采用全面的,系统的问题解决方案之前,您应该尝试扫一扫常见的低落果实:运行完整的间谍软件扫描,在Windows日志中搜索意外关闭,然后查看其之前有哪些(如果有)问题,请检查磁盘空间情况,运行检查磁盘,让Sysinternal的自动运行程序快速扫描不熟悉/可疑的软件。有一组简单的工具可以运行,可以快速识别各种硬件和软件问题。如果他们什么都没找到,那么您就浪费了很少的时间,可以开始一个更彻底的过程。
阿兰(Alain)

1
另外,请关注Mark's Blog,以获取有关如何使用Sysinternals解决烦人问题的示例。
Tamara Wijsman

1
排除故障,祝您好运,如果您需要更多反馈以使事情井井有条,我建议您提出一个新问题...
Tamara Wijsman

Answers:


42

有了更好的主意。

没有足够的战地信息,你不会赢得战斗。

  1. 详细描述您的问题,以便您对它有个好主意,谁知道它只会发生一次。

  2. 及时回溯您和您的计算机之前发生的情况以及问题所在。

  3. 考虑可能的原因,因为有时它可能并不明显。

  4. 无论何时您都不知道发生了什么,都可以获得更多信息,范围从事件SysInternals工具性能分析调试专业知识中的任何其他工具

  5. 测试您的假设,以确保您的想法不会滤除原因。

分而治之。

因为那是军事击败对手的方式,即使人数超过了对手

消除可能的原因,否则在跟踪问题时会遇到问题。这样,您将越来越接近问题的根本原因,它使您更轻松地解决问题。

例如,使用hardware,断开并删除解决问题所需的所有内容。这样,您可能会断开导致问题的组件。然后再次需要插入一半的组件,检查它是否再次发生并重复拆分,直到出现不良组件为止。

如果可以的话,在另一台计算机上进行测试也是解决问题的一个很好的好处。

例如,使用software重启进入安全模式,禁用启动项也有帮助。这也适用于启用/禁用设置,尝试默认配置等等。

让我们对其进行测试。

我的新机器当前遇到问题。在某些情况下,机器刚冻结;不接受按键,鼠标单击或除电源开关以外的任何东西。我一直都只是浏览网页。我已经运行了几个(<= 6个其他应用程序)。这些应用程序都不是主要的。并且代表商业程序和开源程序的混合,通常是从各种Unix迁移而来的。

  1. 就其本身而言,这是一个恰当的描述,它也不只是一次发生

  2. 您知道与问题一起发生的情况,
    但是没有想到问题之前您或计算机所做的事情

    我不能告诉您,但是您的事件日志和最近修改的文件/文件夹可以告诉您。

  3. 可能的原因很可能与CPU有关,因为它是处理事物的组件。

    更具体地说,这可能是进程,驱动程序或发生故障的硬件(也许是温度问题?)。

  4. 我知道它是CPU,但不知道是什么。事件未显示此信息,Process Explorer将挂在DPC上

    因此,下一步,我将运行跟踪分析,在挂起发生后将其关闭。

    我查看了一下踪迹,发现驱动程序X引起了问题

  5. 没有真正的假设。CPU假设由我们的分而治之方法处理...

因此,这是我开始解决问题的地方,一旦解决,我便停止:

  1. 当前版本的驱动程序有问题吗?
    将驱动程序更新到最新版本。

  2. 最新版本的驱动程序有问题吗?
    获取新的跟踪。将驱动程序更新为与初始版本不同的旧版本。

  3. 设备有问题吗?注册表中的配置问题?
    获取新的跟踪。如果可能,请重新安装和/或禁用设备。

  4. 问题是随机的,处理器是否变热?
    检查处理器温度,必要时更换风扇。

  5. 问题不是处理器,还有其他硬件和软件影响吗?
    卸下硬件并禁用软件,以阻止第三方影响。

  6. 问题不在可拆卸部件中,应将其更换。
    在最坏的情况下,如果其他所有方法均失败,则需要进行更换。

获取新的踪迹并删除硬件可为我们提供更多信息,因此我们知道下一步该怎么办。


4
+1为分而治之。接受描述的说明,追溯和划分和解决问题的机制。
克里斯·沃尔顿

5
+1出色的答案。唯一要补充的是:测试您的假设
Bevan

“一次改变一件事”怎么样?
Florenz Kley

2
@Florenz:好吧,通过将您一一除以(对于一个较小的数字,或者当您不能基于多种原因而定)时,或者将它们拆分(对于较大的数字,当您可以在一次(可能的话)将它们分成两半要比一个接一个地进行要快。例如,要对100个问题进行故障排除,您只需对其进行8次测试(100-> 50-> 25-> 13-> 7-> 4-> 2-> 1),而不是100次...
Tamara Wijsman

2
明智的分裂!我的意思是“修复问题的速度不能超过将变化归因于观察到的增量”。使用无法翻页的实验书是确保能够做到的我的方法。
Florenz Kley

6

好的日志和直觉-真的。

  • 从第1天开始,请跟踪您对系统所做的一切:应用程序和OS更新,新安装,新的或已删除的硬件或连接,“没有引起问题的雷雨”。
  • 当您第一次注意到该问题时:
    • 你到底在做什么
    • 最近还有什么不寻常的事情?
    • 您最近做了什么不同的事情?
    • 从那时起,请记住自己在做什么,以便下次发生时,您可以更好地掌握之前的操作。
    • 快照系统日志。
  • 看看是否可以复制它。除非可以复制它,否则找不到它。
  • 开始对系统进行分区:安全模式,实时运行,新帐户与常规帐户,与常规键盘和鼠标不同的键盘和鼠标(尤其是蓝牙与有线),它是否会在启动或唤醒后几分钟内发生。仅在运行一个小时后(考虑散热)。

2
+1用于记录活动;和直觉。不能接受的答案仅是因为从第一天开始就进行日志记录才是好的。我一直在保留日志,但不够详细。并且未包括Microsoft的系统更新以及其他自动更新。
克里斯·沃尔顿

1
@ChrisWalton:Windows Update,设备插入/删除,驱动程序安装等都有详细的日志。见C:\Windows\*.logC:\Windows\LogsC:\Windows\inf\*.log和也Performance Monitor > Data Collector Sets > (Startup) Event Trace Sessions。另外,@ JRobert,+ 1解释了如何更详细地提出想法...
Tamara Wijsman

4

我通常从事件日志和程序自己创建的任何日志开始。程序有时会在程序文件夹中写入日志。

确定时间后,请在日志中搜索事件。当然,Windows日志中可能会出现停止错误,这很容易识别。

检查所有驱动程序,并确保它们是最新的。

大剂量需要耐心等待。


2

除了已经给出的所有好的建议之外,如果日志文件没有给您太多帮助,通常还需要对计算机进行适当的内存测试-错误的内存可能导致各种奇怪的间歇性死机和崩溃。内置的内存测试与内存数量非常相似,上电测试会发现内存故障非常罕见。

Google for Windows内存诊断程序并将其刻录到CD。它很旧,但是它是更好的内存测试之一,而且是免费的。


感谢您的回答和建议的工具。恐怕您宁愿错过我的问题的重点-您建议进行内存测试;有人建议Adobe自动下载软件。我的问题是;在这种情况下,当存在多种可能性时,您将如何决定该怎么做。
克里斯·沃尔顿

1
@克里斯:正如我所说;在对间歇性和无法解释的问题进行故障诊断时(当然,在没有软件开发的情况下),如果没有日志可以从此开始,并且没有其他标记可以建议从哪里开始,那么我将进行一次内存测试。逻辑上,与尝试复制间歇性问题相比,它运行起来相对较快。一旦排除在外,您就可以按照TomWij的观点开始缩小范围并获得想法。
马特

很公平。
克里斯·沃尔顿
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.