Questions tagged «troubleshooting»

故障排除是解决问题的一种形式,通常用于修复故障的产品或过程。



7
CPU使用率高,但平均负载低
我们遇到了一种奇怪的行为,我们看到较高的CPU利用率,但平均负载却很低。 通过我们的监控系统中的以下图表可以最好地说明该行为。 在大约11:57时,CPU利用率从25%上升到75%。平均负载没有明显变化。 我们运行的服务器具有12个核心,每个核心具有2个超线程。操作系统将其视为24个CPU。 /usr/bin/mpstat 60 1每分钟运行一次以收集CPU利用率数据。上表显示了all行和%usr列的数据。我确信这确实显示了每个CPU数据的平均值,而不是 “堆栈”利用率。虽然我们在图表中看到75%的利用率,但是我们看到一个进程显示在中使用了大约2000%的“堆叠” CPU top。 负载平均值是/proc/loadavg每分钟的数据。 uname -a 给出: Linux ab04 2.6.32-279.el6.x86_64 #1 SMP Wed Jun 13 18:24:36 EDT 2012 x86_64 x86_64 x86_64 GNU/Linux Linux dist是 Red Hat Enterprise Linux Server release 6.3 (Santiago) 我们在机器上相当重的负载下运行了两个Java Web应用程序,认为每台机器100个请求/秒。 如果我正确地解释了CPU利用率数据,那么当我们有75%的CPU利用率时,这意味着我们的CPU平均平均有75%的时间在执行一个进程。但是,如果我们的CPU忙碌了75%的时间,我们是否不应该看到更高的平均负载?当我们在运行队列中只有2-4个作业时,CPU怎么会忙75%? 我们是否正确解释了我们的数据?什么会导致这种行为?

3
页面分配失败-我的内存不足吗?
最近,我在kern.log我的一台服务器中注意到了这样的条目: Feb 16 00:24:05 aramis kernel: swapper: page allocation failure. order:0, mode:0x20 我想知道: 该消息到底是什么意思? 我的服务器内存不足了吗? 交换使用率非常低(不到10%),到目前为止,我还没有发现任何进程由于内存不足而被杀死。 附加信息: 该服务器是运行Debian 6.0的Xen实例(DomU) 它具有512 MB的RAM和512 MB的交换分区 虚拟机内部的CPU负载平均为0.25

9
您的故障排除规则,故障排除方法?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 5年前关闭。 在解决棘手的网络/硬件/软件问题时,您是否有任何通用规则可以依靠? 例如:“我通过使用第二台计算机测试外围设备来隔离问题的根源”或“我尽可能地移除了硬件以打开设备电源,然后逐个添加组件,直到可以重现问题为止”等

8
对“慢速”网络进行故障排除
我们都曾抱怨“网络”在某个时候“很慢”:可能位于一个房间(交换机)或一台计算机上,可能只是Internet(DNS?浏览器问题?),可能只是一个应用程序(长时间运行的SQL查询?正在运行AV扫描?)。 在排除明显的系统和/或应用程序问题后,如何测试网络的慢速或不稳定行为?您是否在OSI层上工作?如果是这样,如何检查每一层?您如何确保在未知环境中物理网络正常?太多广播或广播风暴怎么办?第3层及以上?跟踪路由?还有其他技巧,方法或想法吗?所有规模的网络都必须具备的功能和工具(端口镜像,SNMP,监视等)?

23
在生产环境中无法注销,断开连接或重置终端服务器用户
我正在寻找有关如何在2008终端服务器中断开,注销或重置用户会话的一些想法(由于完全锁定,因此无法以用户身份登录)。这是一个生产环境,因此目前不建议重新启动服务器或在系统范围内执行任何操作。有任何Powershell技巧来帮助我们吗? 我们试图直接从同一终端服务器(从任务管理器,终端服务管理器和资源监视器)断开连接,注销用户并重置会话以及终止会话进程,但没有结果。 救命! 更新:我们最终重启了服务器,没有其他我们认为可以做的尝试有效。我将保留这个问题,希望有人可能对此问题有更多信息,并且有潜在的解决方法

10
排除他人工作区中的问题的礼节
今天早上,一位明显心烦的同事与我们的技术支持团队联系。她指出我们团队的一名成员已更改了她的工作空间: 她的监视器已关闭(她希望处于待机模式)。 她的椅子设置已更改。 她已经注销,并且在Windows登录框中带有我们团队成员的名字之一。 第一个问题似乎引起了混乱和沮丧,因为她想知道为什么她没有看到自己的PC从备用节点恢复。 第二个问题似乎是对尊重和安慰的需要的触发。显然,她需要一些时间才能找到适合自己的舒适环境。 第三个问题似乎源于她希望在1-2天的三个月假期之前完成工作的愿望。在较旧的PC上,我们的公司病毒扫描程序可能需要1-2个小时才能完成每周扫描,而这似乎是在登录时触发的。这降低了她的生产力。 在听到关于为什么我们的团队可能需要做这些事情的消息后,她回到了令人愉快的状态。但是我想知道什么“礼节”会避免/最小化触发她所有这些反应。 粗略的Google搜索和此处的搜索均未返回特别有见地的结果。因此,我认为在对其他人的工作区中的问题进行故障排除时,我会邀请读者回应以生成最佳实践列表。 在此先感谢您的贡献。

6
为什么我的ping用与ping不同的IP地址应答?
尝试设置MSSQL群集解决方案时,我遇到了与网络相关的专业知识以外的问题。 我试图找到一个免费IP用于我的节点。我要求网络管理员给我一个免费的IP地址。为了论证,他给了我10.40.1.205的IP,该IP应该未被使用。 在群集设置过程中尝试使用给定IP时,SQL抱怨该IP已被使用。 我尝试对服务器上的IP进行ping操作,并收到来自以下消息的回复:10.40.59.69 ...? 任何想法都可能导致这种情况,更重要的是如何解决该问题?

7
如何调查Linux服务器意外关闭?
在与Debian 6一起突袭10时使用4xSSD的新Xeon 55XX服务器中,在服务器构建后的两周内,我经历了两次随机关闭。关闭前查看带宽日志并不表示有任何异常。服务器负载通常很低(大约1),并且放置在很远的地方,服务器停机时似乎没有断电。 我知道我查看/ var / log,但是不确定应该调查哪些日志以及应该寻找什么。因此,感谢您的提示。

8
程序无法按计划任务正常运行
情况 我有一个批处理脚本,该脚本准备一些文件,执行程序(.exe),然后删除所述文件。 该任务应该每小时运行一次,因此我正在尝试使用“计划任务”进行配置。问题是,从任务中调用时(既不是通过.bat脚本,也不是.exe直接调用),上述程序无法正常运行,但是日志中没有任何警告或错误消息。 设定 该任务被配置为作为Windows服务帐户运行,该帐户具有正确设置的所有特权。使用此帐户通过RDP登录时,我可以直接执行.bat和.exe,而不会出现问题,但任务似乎仍然无能为力。这是很容易观察到,因为程序总是修改文件,并修改上的时间戳通过任务不会改变。 在计划的任务日志中,我获得了有关任务启动过程,退出过程等的信息消息。但是,“结果代码”是111((如果没有运气,请尝试使用Google,我得到的唯一关联是“文件名太长”,这与AFAIK完全无关)。在应用程序日志中,我什么也没得到。 我怀疑是问题所在 该程序是一个古老的怪兽,它生成某种形式的启动屏幕(实际上是一个普通的窗口),尽管不需要GUI是因为它不需要交互并且在操作后会自行关闭。窗口出现约2秒钟。 我怀疑对GUI的这种要求与任务失败有关,但是我不确定。当我与运行任务的用户(通过RDP)登录时,启动计划任务时没有窗口出现。 编辑关于GUI 我已经构建了一个非常小的C#可执行文件,它在没有主窗口的情况下启动程序(使用ProcessStartInfo.WindowStyle = ProcessWindowStyle.Hidden)。即使这样,计划任务仍然无法成功启动程序,但是现在返回代码为0。 更新资料 当我将任务配置为说“运行用户是否已登录”并且未选中该run with highest privileges选项时,错误值为。2147943859 我该怎么做排除故障? 操作系统= Windows Server 2008 R2 SP1 如果需要更多信息,请在评论中让我知道。

4
如何使用kdump / crash调查OOM问题?
问题 多次“内存不足”消息后,服务器崩溃了,我试图查明罪魁祸首。如果在用户区中-哪个进程。如果在内核中-哪个内核模块。 细节 我正在尝试找出如何使用崩溃实用工具来调查是什么触发了服务器上的OOM。 作为安装新服务器对的一部分,我开始了14TB DRBD设备的初始化。大约那个时候,在使用DRBD同步器速率配置并上下移动某些绑定网络接口时,其中一台服务器崩溃了。在30秒内,它产生了39条Out of memory: Kill process ####消息。然后它崩溃了: Kernel panic - not syncing: Out of memory and no killable processes... 系统崩溃触发了一个kdump。现在,我有一个不错的vmcore.flat文件,应该可以直接使用它来调查问题,但是我很难找出所有内存的去向。 我知道的唯一资源是Dedoimedo的站点(该站点提供了很好的说明)以及Kernel Crash Book。这些也恰巧是答案中建议的唯一资源,因此我认为这crash是调查的唯一方法。 如果有另一种方法可以对事件进行事后分析,我愿意接受。正是这是crash我知道的唯一实用程序。我现在所拥有的只是vmcore.flat文件,我所需要知道的是哪个组件占用了所有内存。我怀疑内核模块有问题,更具体地说是绑定模块之一(当我关闭接口时触发了它),DRBD模块(在CentOS 6.3上从树构建的版本8.3.15)或其中一个10G以太网模块(mlnx_en从我关闭的接口树中构建,或在bnx2x保持活动状态的接口中树内构建)。我所需要知道的是,是否有办法证实我的怀疑。 到目前为止,我仅使用崩溃实用程序提取了以下信息: 检查使用了多少内存 $ crash /usr/lib/debug/lib/modules/2.6.32-279.5.2.el6.x86_64/vmlinux vmcore.flat .... crash> kmem -i PAGES TOTAL PERCENTAGE TOTAL MEM 16482587 62.9 GB ---- FREE 54610 …

4
如何解决无线故障?
有时,我必须对LAN上存在不稳定无线连接的计算机进行故障排除,而这似乎没有任何逻辑上的原因。在大多数情况下,与“正常”网络连接相反,我不知道从哪里开始调试或解决问题。 有什么提示吗? 谢谢!

1
硬盘因未知原因掉线
我有7个系统正在运行下面的设置。有时其他磁盘会脱机,但是仔细检查后,该磁盘将正常运行,并且不会出现故障,并且至少可以正常使用一年。因为这在所有7个系统上都发生,所以我发现不可能有单个部分起作用(例如电缆),而是部分不兼容的部分的组合。 问题是要找到不兼容的确切位置。 (如果您有一种解决方法,可以从命令行对硬盘进行虚拟重新放置,则可以回答/server/523315/re-activate-device -被认为是死的)。 服务器硬件:Dell 1950,Dell R815,Dell R715。 操作系统: $ uname -a Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux 控制器: $ lspci |grep 22: 22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03) $ sas2flash -listall LSI Corporation SAS2 Flash …

12
当未触动的Unix服务器开始发疯时,您要检查的第一件事是什么?
因此,您可以轻松地设置此unix服务器,并且运行速度超级快,并且可以正常工作,而且几个月以来一切都很好,并且突然出现了各种各样的奇怪错误,这些错误针对各种不同的服务而出现,而且它们本身都不具有任何意义。 ,少在一起。 当您的ssh会话进入计算机时,应该检查哪些便宜的东西? 我对那些强调非显而易见的命令和罕见情况的创伤故事特别感兴趣,但是我认为明显的变化因人而异,因此我们可以自由列出所有这些故事。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.