Questions tagged «server-crashes»

5
在a日第二天,是否有人遇到Linux服务器崩溃率很​​高的情况?
*注意:如果您的服务器由于内核混乱而仍然存在问题,并且您无法重新引导-建议在系统上安装gnu date的最简单解决方案是:date -s now。这将重置内核的内部“ time_was_set”变量,并修复Java和其他用户空间工具中CPU占用的futex循环。我已经将此命令放在我自己的系统上,并确认它正在执行其在锡盒上所说的内容* 姿势 Anticlimax:唯一导致死亡的是我到集群的VPN(openvpn)链接,因此重新建立它的过程令人兴奋。其他一切都很好,the秒过去后,启动ntp进行得很顺利。 我已经在http://blog.fastmail.fm/2012/07/03/a-story-of-leaping-seconds/上写下了当天的全部经验。 如果您在以下网址查看Marco的博客:http://my.opera.com/marcomarongiu/blog/2012/06/01/an-humble-attempt-to-work-around-the-leap-second-他有解决方案使用ntpd -x在24小时内逐步调整时间,以避免跳过1秒。这是运行自己的ntp基础结构的另一种拖尾方法。 就在今天,2012年6月30日,星期六-GMT一天开始后不久开始。由于不同团队的管理,我们在少数数据中心中拥有少量服务器,但是这些服务器都变得黑了-无法响应ping,屏幕空白。 他们都在运行Debian Squeeze-从股票内核到自定义的3.2.21版本,应有尽有。大多数都是戴尔M610刀片服务器,但我也刚刚丢失了戴尔R510,其他部门也丢失了其他供应商的计算机。还有一个较旧的IBM x3550崩溃了,我认为可能不相关,但是现在我想知道。 我确实从屏幕转储了一次崩溃时说: [3161000.864001] BUG: spinlock lockup on CPU#1, ntpd/3358 [3161000.864001] lock: ffff88083fc0d740, .magic: dead4ead, .owner: imapd/24737, .owner_cpu: 0 不幸的是,所有刀片都应该配置了kdump,但是它们死得如此之快,以至于kdump不会触发-并且打开了控制台空白。我现在已禁用控制台空白,因此,下一次崩溃后,我会手指交叉。 只想知道这是一个普通线程还是“只是我们”。奇怪的是,它们是在不同时间购买的,由不同管理员(我运行FastMail.FM的管理员)以及现在甚至不同供应商硬件的不同数据中心中的不同单元。崩溃的大多数计算机已经运行了数周/数月,并且运行的是3.1或3.2系列内核。 最近的崩溃是一台运行3.2.21的机器仅运行了大约6个小时。 解决方法 好的,这是我的解决方法。 禁用的ntp: /etc/init.d/ntp stop 创建了http://linux.brong.fastmail.fm/2012-06-30/fixtime.pl(从Marco窃取的代码,请参阅评论中的博客文章) fixtime.pl毫无争议地跑了看第二飞跃 运行fixtime.pl一个参数以删除the秒 注意:取决于adjtimex。我将压缩adjtimex二进制文件的副本放在http://linux.brong.fastmail.fm/2012-06-30/adjtimex上,它将在不依赖于64位压缩系统的情况下运行。如果将它与放在同一目录中fixtime.pl,则在不存在系统1的情况下将使用它。显然,如果您没有压缩64位的话,那就找到自己的吧。 我ntp明天再开始。 正如一个匿名用户所建议的那样,运行的另一种方法adjtimex是自行设置时间,这大概还会清除the秒计数器。


2
Windows Server 2012 R2上的关键结构损坏
我有Windows Server 2012 R2虚拟机;是的,所有更新。其他软件包括Microsoft SQL Server 2014(在以前的VM上为2012)。该虚拟主机公司包括xenpci.sys(EJBPV XenPCI驱动程序(已检查版本),James Harper),作为在所有VM和Plesk上默认安装的一部分。 操作系统会定期挂起,蓝屏或重新启动。我确实得到了小型转储,尽管并非一直如此。通常的问题是: 错误:CRITICAL_STRUCTURE_CORRUPTION 特定的顶级文件(显然不是原因)有所不同:win32k.sys,ntoskrnl.exe,xenpci.sys(Xen驱动程序,虽然只出现了几次)和ndis.sys。 OSR(开放系统资源)分析器并没有太大帮助。WhoCrashed分析器更有帮助。 它说: 找到并分析了17个崩溃转储。此报告仅包含10个。已确定第三方驱动程序正在导致您的计算机上的系统崩溃。强烈建议您在其公司网站上检查这些驱动程序的更新。单击下面的链接,用Google搜索这些驱动程序的更新: xenpci.sys (EJBPV XenPCI Driver (Checked Build), James Harper) 我试图推动网络托管公司研究该主题,但是他们可以空手而归。我不相信Xen驱动程序有问题。WhoCrashed接手了它,我认为这仅仅是因为几次是最后一个驱动程序,并且它是第三方,所以这让他感到内gui。我没有写WhoCrashed,所以很难进一步评论。 我的问题是如何解决问题。 这家网络托管公司已经尝试在过去几年中为我提供两个新的虚拟机。问题得以解决。我安装了SQL Server,但默认情况下是OS和Plesk。好的,还有邮件服务器软件。该网络托管公司还告诉我,他们没有其他类似的客户抱怨。他们多次运行磁盘测试。磁盘运行状况良好。 我没有检查注册表的运行状况,但是问题在安装过程中普遍存在,并且经常发生,因此,我必须对此予以打折。我现在在第三台或第四台虚拟机上。 同样,我提到Xen是因为WhoCrashed提到了Xen,但我不认为这是原因,其他客户确实使用了Xen。系统具有足够的内存和存储空间,因此这不是问题。 更新:这是网络托管公司对我的查询的一些答案。 在通常情况下,卸载驱动程序后,VM的性能将下降。硬件节点可能存在一些同步问题。 我使用的是已检查版本还是发布版本? 您使用的是经过测试签名的内部版本,与开发者网站中的版本相同。 我怎么知道?“设备管理器”中的“ Xen PCI属性”对话框没有说任何一种方法。设备管理器中的条目是唯一的位置吗?我检查了程序和功能,但未列出任何内容。 您可以在“添加或删除程序”下检查版本。请参考所附快照。 我如何/在哪里可以找到他们网站上的最新版本? 开发者网站无法正常运作- http://www.meadowcourt.org/downloads/ -你可以从这里donwload最新发布签署 http://wiki.univention.de/index.php?title=Installing-signed-GPLPV-司机 我怎么知道哪个Xen,0.11.0.373属于(Xen 4.6?3.0?xy?) 我们正在使用Xen 3.4.4,您无法从VM中看到它。只能从硬件节点查看。 更新2:托管公司安装了两个James Harper软件。 GPL PV …

4
如何使用kdump / crash调查OOM问题?
问题 多次“内存不足”消息后,服务器崩溃了,我试图查明罪魁祸首。如果在用户区中-哪个进程。如果在内核中-哪个内核模块。 细节 我正在尝试找出如何使用崩溃实用工具来调查是什么触发了服务器上的OOM。 作为安装新服务器对的一部分,我开始了14TB DRBD设备的初始化。大约那个时候,在使用DRBD同步器速率配置并上下移动某些绑定网络接口时,其中一台服务器崩溃了。在30秒内,它产生了39条Out of memory: Kill process ####消息。然后它崩溃了: Kernel panic - not syncing: Out of memory and no killable processes... 系统崩溃触发了一个kdump。现在,我有一个不错的vmcore.flat文件,应该可以直接使用它来调查问题,但是我很难找出所有内存的去向。 我知道的唯一资源是Dedoimedo的站点(该站点提供了很好的说明)以及Kernel Crash Book。这些也恰巧是答案中建议的唯一资源,因此我认为这crash是调查的唯一方法。 如果有另一种方法可以对事件进行事后分析,我愿意接受。正是这是crash我知道的唯一实用程序。我现在所拥有的只是vmcore.flat文件,我所需要知道的是哪个组件占用了所有内存。我怀疑内核模块有问题,更具体地说是绑定模块之一(当我关闭接口时触发了它),DRBD模块(在CentOS 6.3上从树构建的版本8.3.15)或其中一个10G以太网模块(mlnx_en从我关闭的接口树中构建,或在bnx2x保持活动状态的接口中树内构建)。我所需要知道的是,是否有办法证实我的怀疑。 到目前为止,我仅使用崩溃实用程序提取了以下信息: 检查使用了多少内存 $ crash /usr/lib/debug/lib/modules/2.6.32-279.5.2.el6.x86_64/vmlinux vmcore.flat .... crash> kmem -i PAGES TOTAL PERCENTAGE TOTAL MEM 16482587 62.9 GB ---- FREE 54610 …

3
如何确定系统崩溃的原因?
我的服务器大约每周崩溃一次,并且没有任何原因的提示。我检查了一下/var/log/messages,当我执行硬重启时,它仅在某些时候停止记录并在计算机上发布信息。 我可以检查一些东西或安装可以确定原因的软件吗? 我正在运行CentOS 7。 这是我唯一的错误/问题/var/log/dmesg:https : //paste.netcoding.net/cosisiloji.log [ 3.606936] md: Waiting for all devices to be available before autodetect [ 3.606984] md: If you don't use raid, use raid=noautodetect [ 3.607085] md: Autodetecting RAID arrays. [ 3.608309] md: Scanned 6 and added 6 devices. [ 3.608362] md: autorun ... [ …


2
为什么Linux kdump无法写入/ var / crash?
又发生了!我有4台服务器,它们定期崩溃,并且没有信息打印到系统日志或串行控制台上。 此外,Linux kdump服务不会将核心转储写入默认位置/var/crash。 你能帮我弄清楚为什么吗? 我的根文件系统是LVM卷是否重要? 这是我尝试过的。 我的系统是带有最新内核的Scientific Linux 6.5。 [root@host1 ~]# uname -r 2.6.32-431.11.2.el6.x86_64 [root@host1 ~]# cat /etc/issue Scientific Linux release 6.5 (Carbon) 该文件/etc/kdump.conf是包含默认设置的原始文件。大多数行被注释掉了,只有两个主动线path和core_collector。 #net my.server.com:/export/tmp #net user@my.server.com path /var/crash core_collector makedumpfile -c --message-level 1 -d 31 #core_collector scp 我确保kdump服务正在运行,并且kdump不需要重建我的initrd。 [root@host1 ~]# chkconfig --list kdump kdump 0:off 1:off 2:off 3:on …

2
是什么可以导致服务器上的所有服务中断,但仍然对ping作出响应?以及如何找出
在几天之内,我的服务器完全停机,这已经发生了两次,这意味着http,ssh,ftp,dns,smtp,基本上所有服务都停止响应,就好像服务器已关闭,但它仍然响应ping ,这最让我震惊。 我确实有一些php脚本,它们会在短时间内导致服务器上的大量负载(CPU和内存),并由一小部分用户使用,但是通常服务器在这些情况下以及崩溃时都能很好地“生存”永远不会与使用高峰相吻合(我不是说它不可能相关,但不会在这些高峰之后发生)。 我并不是要您神奇地告诉我这些崩溃的最终原因,我的问题是:是否存在一个进程死亡,该进程可能导致所有这些服务同时中断?有趣的是,除ping之外,所有网络服务均出现故障。如果服务器某个进程消耗了100%的CPU,则它也不会响应ping。如果apache因(例如)损坏的php脚本而崩溃,那只会影响http,而不会影响ssh和dns ..等。 我的操作系统是Cent OS 5.6 最重要的是,在硬重启服务器后,我应该查看哪些系统日志?/ var / log / messages不会显示任何可疑的内容。

1
Dell PowerEdge服务器崩溃,该如何修复?发生了什么?内部信息
我目前在读高中,并且在运行我们学校的网站。今年夏天,我们的SysAdmin被诊断出患有癌症,他去了治疗,所以我陷入了一个有趣的境地。 我真的不确定此网络服务器出了什么问题,但是我希望您的想法/教学/输入能帮助我快速学习,以便为您提供帮助。 服务器运行/正在运行FreeBSD,这可能没有任何意义,因为这是硬件问题。我知道服务器曾经有五个相同的驱动器(这意味着Raid-5吗?),但是在崩溃时,其中有三个工作的驱动器(“以降级模式运行?”)。 大约一周前,服务器由于只有1个逻辑驱动器而无法启动。我运行了配置实用程序,并看到了以下内容: 我认为在该活动驱动器上还会剩下一些数据,对吗?(我确实有Web Fies的备份,但没有实际的OS和Web Server设置)。 如果有任何我需要添加的信息,以便您可以更好地解释发生了什么,我非常愿意这样做。我只是想了解发生了什么,在某一时刻发生了什么,以及如何采取措施解决此问题。 非常感谢。

3
我的php-fpm配置有什么问题?
我有一个64位服务器,但只有256MB的RAM。因此,我移至带有fast-cgi的Nginx服务器以连接到PHP。我正在运行PHP 5.3.6。 问题是,每隔两三天,当我尝试访问任何PHP页面时,我就会收到服务器内部错误。唯一的解决方法是手动重新启动php-fpm。这意味着我应该设置一些错误的参数,导致其阻塞。下面我列出了相关的配置。 /etc/php-fpm.conf:- include=/etc/php-fpm.d/*.conf log_level = error ;emergency_restart_threshold = 0 ;emergency_restart_interval = 0 ;process_control_timeout = 0 /etc/php-fpm.d/www.conf:- [www] pm = dynamic pm.max_children = 10 pm.start_servers = 3 pm.min_spare_servers = 2 pm.max_spare_servers = 5 pm.max_requests = 500 /etc/nginx/php.conf:- location ~ \.php { fastcgi_param QUERY_STRING $query_string; fastcgi_param REQUEST_METHOD $request_method; fastcgi_param CONTENT_TYPE …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.