最佳系统管理员事故[关闭]


87

我正在寻找有关您遇到的系统管理员事故的有趣故事。删除CEO的电子邮件,格式化错误的硬盘等。

我将添加自己的故事作为答案。



14
这确实是一个民意测验,然后是一个问题。这可能应该设置为社区Wiki。
Zoredache

7
是的,这绝对应该是社区Wiki。不过,就这个问题而言,我最喜欢的故事是500英里的电子邮件之一-ibiblio.org/harris/500milemail.html-尽管显然不是我。
MihaiLimbăşan,2009年

500英里真是太好了
休伯特·卡里奥

这应该称为“更糟糕的系统管理员事故”。
Rilindo'9

Answers:


133

我发现linux“ killall”命令(杀死与指定名称匹配的所有进程,对于停止僵尸很有用)和solaris“ killall”命令(杀死所有进程并停止系统,对于停止生产服务器非常有用)之间的区别很有趣。在繁忙时间的中间,让您的所有同事嘲笑您一周)。


74
去过也做过。之后,我们在solaris-box上使用了killall-command别名:alias killall ='echo ORLLY?' =)
指挥官基恩(Keen

29
在Solaris上,“ ifconfig -a4”(显示所有接口的IPv4信息)和“ ifconfig -a 4”(将所有接口设置为0.0.0.4)之间也存在重要区别。
Zanchey

3
+1“哎呀,这风登录到了solaris吗?”
Mark Harrison

4
@Commander,我要对您的评论进行投票,但此刻恰好有 42票投票...我只是不能
Massimo

5
另外,hostname -f在Linux上,会在Linux上打印标准域名。在Solaris上,它将主机名设置为-f
200_success 2010年

73

我负责我们的公司Web代理,当时是Netscape的产品。在使用管理表单(基于Web的界面)玩耍时,有一个大按钮(我发誓是红色的),上面有Delete User Database。没问题,我想。让我们看看当我点击它时,它给我的选择是什么。如果没有选项,肯定会出现确认提示。

是的,没有确认。没有选择。没有更多的用户。

因此,走到Solaris Sysadmin先生那里,他说我急需从磁带上还原,他回答说:“我不备份那个盒子。”

“呃,再来一次。”​​我反驳道。

“我不备份那个盒子。它在我要添加到备份循环中的清单上,但是我还没有解决。”

“该服务器已经投入生产将近8个月!” 我尖叫。

耸耸肩,回答。“抱歉。”


50
对于所有抱怨那些讨厌的人的人来说,这绝对是一个故事。对话框;)
MikeyB,2009年

45
我不确定自己是否应该对他大喊大叫……
Mikeage

14
这并不是真正的意外-您故意按下了Delete User Database(删除用户数据库)按钮,伙计...
Wayne Koorts,2009年

5
是啊,你说得对。按下按钮并非偶然。实际上删除数据库是偶然的部分。随便...
squillman

7
该按钮后应该有两个或三个确认提示。删除用户数据库有什么有用的功能?我完全怪罪把按钮放在那里的程序员。数据库未备份的事实。“天才也许有其局限性,但是愚蠢并没有因此而受到阻碍。” (向Elbert Hubbard致意)。假设人类并不好奇,那么粗心的猿猴只会造成灾难。
Jared Updike

66

很多年前,我工作的公司有一个客户端,该客户端每晚将其NT 4.0 Server备份到Jaz驱动器(例如大容量zip磁盘)中。

我们设置了一个批处理文件,该文件作为计划的工作在一夜之间运行。每天早上,他们从驱动器中收集昨晚的磁盘,在晚上离开之前,他们将按顺序插入下一个磁盘。

无论如何,批处理文件看起来像这样(Jaz驱动器是驱动器F:)...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

无论如何,有一天晚上他们忘记了放入磁盘。对驱动器F的更改:失败(驱动器中没有磁盘),并且批处理文件继续运行。批处理文件的默认工作目录?C:。我第一次见过备份例程会破坏正在备份的服务器。

那天我学到了一些有关系统管理(和异常处理)的知识。

吉姆

PS:解决办法?“ deltree / y F:\ *。*”。


57
...我们必须解释一下Jaz驱动器是什么?我真的那么老吗?
斯宾塞·鲁波特

3
这是IOMEGA的东西(还记得Zip Drives吗?)是Zip Drives的老大哥,它就像没有头的硬盘,只是盘片,放在带有小窗口的塑料盒中,当插入时驱动器,驱动器在其中插入了标头。像1GB或2GB一样,价格昂贵,并且容易过热,因此不建议将盒带留在读取器中(这是由IOMEGA的一位老老板说的)
Andor

3
嘿,我喜欢通过与死而无关的zip驱动器进行比较来解释jaz驱动器。
路加福音

2
如果让您感到年纪大一些,有些系统管理员以前从未见过deltree。
约瑟夫

5
我不得不向很多程序员解释说,当您尝试更改状态但又可能失败并使您保持先前状态的操作时,如果要执行危险的操作,则必须检查该操作是否成功您应该处于以前的状态。为什么我要解释一下?
carlito

61

root @ dbhost#find / -name core -exec rm -f {} \;

我:“您无法进入?好。数据库名称是什么?”

铜:“核心。”

我:“哦。”


3
从那时起,将'file'命令的使用添加到了清理crontab ... :)
MikeyB,2009年

3
哦,亲爱的上帝....
squillman

4
哦,天哪!我将对此做一个心理记录,所以我从不这样做。
Glenn Willen

60

我喜欢每个人都以“我年轻/绿色的时候”来证明自己的故事的方式,就像他们永远不会再做那样。即使是经验最丰富的职业人士也可能发生事故。

我自己最糟糕的时刻是如此糟糕,我仍然感到心。

我们有一个带有生产数据的SAN。对公司至关重要。我的“导师”决定扩展分区以释放一些磁盘空间。您能看到前进的方向吗?他说,SAN软件可以在生产时间内实时完成此工作,没有人会注意到。警钟本应开始响起,但明显沉默。他说他已经做到了“很多次”,没有问题。但这就是问题-他让我点击了“您确定吗?”按钮!当我刚进入公司时,我以为这个家伙知道他在说什么。大错。好消息是LUN扩展了。坏消息是……好吧,我知道当我开始在Windows盒子上看到磁盘写入错误时,就有个坏消息。

我很高兴我穿着棕色的裤子。

我们不得不解释为什么午餐时间1TB的数据消失了。那真是非常糟糕的一天。

实际上,这是一个很好的原则-在做您怀疑的事情之前,想象一下如果发生问题必须向管理层解释。如果您想不出一个好的答案来解释自己的行为,那就不要这样做。


17
+1的最后一段-在“坐你的手”技术,反射一个重要分钟
安迪

12
在使用实时系统一段时间后,您将获得一定的技能:对什么是危险和什么不是危险的蜘蛛感。就像在根提示符下按return之前暂停一秒钟,或者确保SQL update语句具有适当的where子句(该子句已经在select count(*)中运行)一样。
jplindstrom

18
我想要一个弹出窗口,上面写着“您要继续之前打印简历吗?” ..并且只有一个选择:“是”
沃伦(Warren)2010年

上一段中的建议+1
Jeroen Huinink 2010年

3
+1,同上 我记得一位系统管理员朋友曾听说他的年度性能评估存在打字速度不佳的问题。缓慢而周到。”。
MadHatter

54

当营业时间开始说Nagios无法连接到非关键服务器时,Nagios对我们进行了ping操作。好的,爬到服务器机房。这是一台旧服务器,是于02年购买的Dell 1650,我们知道1650一直存在硬件问题。PFY按下电源按钮。没有。再次击中它并保持五秒钟以“强制打开电源”……这将覆盖BMC的错误保护,因为如果没有DRAC,就无法在不打开机箱电源的情况下检查BMC日志。

机器启动POST,然后再次死机。我站在上面,走了,“我闻到烟味。” 我们将服务器从其导轨上拉出,其中一个电源感觉很热,因此PFY将其拉出并准备将箱子重新装回去。我说:“不,这不是电源烟雾,是主板烟雾。”

我们再次打开盒子,寻找燃烧气味的来源。产生了一个电感线圈和一个电容器,使主板上的稳压器炸毁,并在所有物体上喷洒了熔融的铜和电容器粘胶,使一堆东西短路,基本上造成了很大的混乱。

对我而言,最糟糕的是认识到我抽了足够多的硬件来识别被烧主板和电源所散发出的气味。


17
这项工作的选择标准包括:良好的嗅觉。辉煌。
mlp

13
我的好友将一组驱动器导轨拧入了磁盘,直到它们进入电路板并将其短路。漂亮的粉红色烟雾。很有区别。
squillman

47

三天前(严重),我远程登录到学校服务器,在Windows Server 2008文件服务器上安装Service Pack 2。

我决定将所需的重新启动安排在深夜,届时教师将不会登录完成他们的年终报告卡。我输入了类似的内容:

 在23:59“关机-r -t 0” 

...可能效果很好。

但是后来我第二次猜到了自己。我的“关机”语法正确吗?我试图通过键入查看使用帮助

 关机/小时 

...并立即失去了我的RDP连接。惊慌失措,我用谷歌搜索语法。快速搜索显示,Server 2008版本的关机包含/ h开关,(您可能已经猜到过)该开关可使计算机进入休眠状态。

老师在几分钟之内开始打电话给我,报告他们无法打开或保存他们一直在处理的成绩单。由于我不在现场并且服务器室被锁定,因此我不得不直接打电话给学校校长,并带领她完成重新启动机器的过程。

今天,我以道歉的形式向大家带来了自制饼干。


32
命令行中有缺陷的用户界面设计的一个完美示例:“最不惊奇的原理”发生了什么?

9
在DOS / Windows上不是吗?
Jared Updike

3
通常是/?在Win上运行,但是有很多实用程序是从UNIX移植的,或者是由UNIX人员编写的(包括很多类似MS的工具),它们是-h或/ h
Richard Gadsden,2009年

6
..但是您仍然总是尝试第/?一个!
沃伦2010年

14
这就是为什么我喜欢Linux。man shutdown。我知道我不会造成任何问题man
乔什

37

在上一份工作中,我们有一个出色的本地系统,该系统可以记录和存档进入,离开或停留在公司内部的每一封邮件。

吹走了整个邮箱?没问题!寻找某人一周/一个月/一年前发送给您的邮件,但您不记得是谁发送的或主题是什么?没问题!我们将从2月开始将您的所有内容重新分发到一个特殊的文件夹中。

在某个时候,该公司的首席执行官有必要监视怀疑是竞争对手和内部销售人员之间的邮件。因此,我们设置了一个脚本,而不是每天晚上运行,并将前一天的相关邮件发送给CEO。没问题!

大约一个月后,出现了双重紧急问题的消息从高处传下来。似乎首席执行官在阅读发送到$ OTHERCOMPANY的邮件列表时,发现了以下内容:

To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

自然,首席执行官是所有人的重要人物,他忙于在Outlook中单击所有那些“发送已读回执”对话框,并已将他的客户配置为只发送所有这些。监视筛选器捕获的消息之一具有已设置的读取-接收请求。猜猜Outlook是做什么的?当然,增加了“秘密”监控的难度。

我们的下一个任务是:向邮件过滤器添加规则,以阻止从CEO到该公司的已读回执。是的,这是最简单的方法。:)


3
但是在我的国家这是不合法的。完全没有
mafu 2010年

1
嗯,那是你的国家。:)在加拿大,这很好。
MikeyB 2010年

7
监视进入或离开您自己公司服务器的电子邮件是不合法的吗?你生活在哪个国家?
安德鲁·恩斯利

1
新闻
发言人

36

啊,我的大约是十年前,那时我还没湿。我很高兴在所有程序员计算机上安装备用电池。他们还希望加载该软件以警告断电并正确关闭。

因此,我首先将其设置在计算机上以测试所有内容,并确保所有功能均正常运行。因此,我断开了电源线,屏幕上出现了该消息。“外部电源丢失,开始系统关闭”。

所以我想,嘿,很有效。但是出于某种奇怪的原因,我什至不记得了,它以网络消息的形式发送了该消息,因此公司中的所有200多台计算机都收到了该消息,其中有100多个用户是程序员。

是的,谈论群众狂!

我在那个地方低头了一段时间!


3
哈哈,听起来像是我的一个朋友在这里发生的事情,“网络发送”,大约有1300名收件人:)
squillman

10
啊。我也在大学里做了“网络发送”的事情。我以为“他们必须禁用此功能”!-!在整个实验室中,计算机发出了消息。我决定去向网络管理员道歉,在途中,我通过的每台计算机都收到了该消息。/叹气
马特·西蒙斯

3
是的,在那儿丢人!我的朋友没有离开他的椅子。也没有打扰他的电话。
squillman

10
哈哈,我的一个网友向学校里的每个人发送了“帮助!我被困在114室”,当然60秒后,一小群人出现了,找出了谁发了信息
Mark Henderson

2
实际上,我们在大三时使用了该功能来对系统管理员进行朋克处理。使用伪造的AV消息和看起来像来自他的系统关闭消息清除了所有计算机实验室。他强烈怀疑我们是罪魁祸首,但我和我的好友各有一个不在场证明(我在上课时发送了第一个,在我上课时他发送了第二个),并且计算机上有通用的实验室登录信息
Shial

35

我经常在Solaris机器上使用“ sys-unconfig”命令来重置机器名称服务,IP地址和root密码。我在用户系统上,登录到建筑物安装服务器并以root用户身份进行查找,然后忘记了我已登录另一台计算机(非描述性的“#”提示),然后运行了“ sys-unconfig”命令。

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

该“连接已关闭”消息慢慢变成了紧急情况...运行该命令时我登录的计算机。

最糟糕的部分不是同事给我的辛苦,而是一个月后我做了同样的事情。


24
哦,经典的“我在哪台机器上?” 恐慌的时刻。我去过那儿。我感到你很痛苦。
sysadmin1138

2
我也是。任何有经验的人都完全知道“冰冷血”这个词是什么意思。
马特·西蒙斯

21
我的shell提示符总是包含用户名和主机名是有原因的
derobert 2009年

2
我曾经设置别名以登录到不同的计算机,以获取不同的彩色背景,从而能够更清楚地识别我所在的计算机。
Zitrax

当我在服务器和本地计算机上都使用Linux时,经常在服务器和PC上打开root提示符,服务器上有红色的区别提示
Hubert Kario 2010年

27

我有一个很好的。诚然,这早于我作为系统管理员的时间,但仍与技术相关,因此我想添加一下。

过去,我当时是美国空军的卫星通讯/宽带技术。我刚从技术学校毕业,后来发现自己定居在韩国。到达车站后不久,一个机会就出现了,与曾在这里呆了一段时间并实际在某些实际(即“生产”)设备上工作的“大家伙”一起向南走。

我和机组人员一起摔倒了,作为一个急切的年轻技术,他感到非常吃力,对我有机会获得可以传递实时军事语音和数据流量的实际设备的前景感到非常兴奋。

为了让我慢慢上手,他们递给我一本手册,转到预防性维护部分,并向我指出了装有四个大型数字多路复用器的四个机架的方向。设备足够简单,我们在技术学校学习了相同的设备。

手册第一页阅读;“为数字多路复用器通电。将两个后部开关都转到ON位置,等待设备上电,然后开始测试。” 我抬起头,已经有力量了!

我肯定陷入了困境。不知道如何进行,我尽我最大的努力,“嗯。

他看着我,笑了,“不,不,没关系。您可以忽略清单的那一部分。” 然后,当他注意到我脸上的表情时(由于我们从学校受教,从来没有,永远不要忽略清单的任何部分,并且如果这样做一定会导致死亡和破坏),他认真看了看自己的脸。面对并说:“只忽略那一部分!跟随其余部分,直到字母!”

尽职尽责,我经历了多步的PM指令,作为蛤c而感到高兴,并为他们让如此低级的(尽管很聪明)技术来完成这项重要工作而感到自豪。

在这些大型多路复用器的第五和第六次预防性维护清单之间的某个地方,我开始注意到我周围的活动水平有所提高。电话在响,人们在迅速移动。古怪的外表被交换了。

最终,一群人奔向我,由一位使我失望的高级技术人员带领。

“嘿!我们看到数据通信量极大地中断了,我们已经隔离/跟踪了回到您正在使用的机架的路径!您是否发现任何异常。”

(那时,他被另一位疑难解答人员切断,后者一直忙于我执行PM的第一组多路复用器。)

“神圣的坚果!它们被关闭了!他已经将它们关闭了!!!!”

很快,我看着他们匆忙地完成了手册的第一步,“将两个后部开关都转到了ON位置……”当高级技术人员完成后,他来到我身边,不由自主地问我在想什么通过关闭关键设备。

我吓坏了,我递给他我要遵循的清单,发誓我并没有偏离。按照他的指示,我遵循了这句话。

过了一会儿,他笑了起来,指出问题出在哪里。

在手册中,预防性维护清单中的“最终”步骤为:

“记录探头的最终读数,擦拭前面板,清除所有灰尘和微粒,然后将两个后部电源开关都转到OFF位置。”

:)


我现在不知道这意味着什么
乔·菲利普斯

最后一步说要关闭机器电源,这看起来有点奇怪吗?就是想。
安德鲁·恩斯利

2
看起来确实有些奇怪,但请记住,他曾在部队服役。想象一下要指挥一支军队,每个士兵都说:“等等,你确定吗?这个命令对我来说听起来很可笑。”
Kyralessa

26

这是种系统管理员的事故。.就系统管理员而言,偶尔不得不从A点到B点物理地拖运大量机器(其中A和B似乎总是在不带电梯的建筑物中被几段楼梯隔开)。在一天的第n次旅行中,我停了下来,从地下室的载物高度上飞了三个航班,与下楼的人聊天,支撑着我正站在空旷的楼梯间内部扶手上的全尺寸塔架/站而且...好吧,你猜到了...我对此失去了把握。它毫不费力地直接向下钻入井中,当到达底部时,呃……与其说是那个功能,不如说是!总共可维修的部件:两根RAM,一张软盘驱动器和一张ISDN卡(上帝保佑Hermstedt工程人员!)。其他一切都破裂了

靠着上帝的恩典,没有人在下面走,谢天谢地,这是我上司的第一时间,所以我必须继续工作。虽然感到非常恶心一个小时左右。

道德:重力总会取胜!


2
您没有拍下残骸的照片,对吗?
2009年

5
@ J.Pablo-不,我担心这是十年前的事情,当时相机很大,里面装有化学物质。如果我最近这样做的话,我会在十分钟之内完成YouTube上的工作!
2009年

真实的故事:这发生在我9年前,但是在9楼的窗户上却装有空调。这不是我的错(我只是在帮助一个人),没有人受伤,但是我好几天都感到不适。
imgx64 2012年

26

我正在为某人重新加载系统,在手动备份过程中,我问他一个问题:“您还使用其他程序吗?” 和“您在计算机上还有其他重要的事情吗?”

他几次说“不”。

我被说服并格式化了驱动器。

大约30分钟后,他说了“哦,我的天哪”,将双手放在头上。

原来,他已经在一个专门程序中从事书籍脚本工作超过10年。当程序用于将用户数据保存在其程序文件目录中时,我又回想了。

哇哦。

他没有生我的气,但这是一种清醒的感觉。


7
您已经教给他一个宝贵的教训:备份很重要
MikeyB 2009年

5
只是读这真的很痛。如此痛苦。当然可以,不过...
mafu 2010年

对于那个可怜的家伙来说仍然是一个很好的经历。他可能已经工作了30年,并且在您的面前心脏病发作。
2010年

男人,我记得做过类似的事情。显然,我叔叔在他的工作给他的这个自定义Windows accouting应用程序中有很多像客户一样的东西。它在程序文件/ sigh中。幸运的是,当我修理爸爸的工作电脑时,我记得它,上面有一些定制的保险应用程序。
PHGamer 2010年

@phgamer,我可以请您看您的语言吗?抱歉,这不是那种地方。
斩波器


23

我没有发生这种情况,但是…

我曾在一家公司生产在客户端提供的Linux机器上运行的软件的公司工作。实际上,我们将“接管”机器,完全按照规范配置它们,并进行所有管理和监视。本质上,我们是一个由10至15个系统管理员组成的团队,为数百个客户管理数千台服务器。错误肯定会发生。

我们的一个团队发现了服务器上的一些问题(我相信是备份),并决定他应该在服务器上运行fsck。他停止了所有相关服务,确保系统最近进行了备份,然后运行fsck,但它抱怨文件系统已安装。由于我们是远程的并且没有远程访问权限(DRAC,ILO等),因此他无法执行fsck,但他非常确定,如果小心的话,在安装了文件系统的情况下这样做是安全的。

他决定自己尝试在根分区上运行fsck,以取得可预期的结果–他损坏了根分区,无法启动。

感到困惑,他走了过去,并与我们的团队负责人交谈。负责人说,他非常确定您无法做到这一点,并且团队成员说:“您一定可以!”,拿住了负责人的键盘,并告诉他您可以–通过在负责人的根分区上运行fsck。其中完全损坏了HIS根分区。

最终结果?由于团队成员的测试,没有丢失任何客户数据。损失了两天的员工工作效率,但价值却远远低于客户机器上的数据。并作记录?您可以在已安装的驱动器上运行fsck,但只能用于验证数据。不修。那是团队成员的错误。

-

要添加我自己的故事,我在同一家公司工作,并试图重置用户密码。我们的系统拒绝让我将其设置为他所需的密码,因为它跟踪了旧的密码哈希,并拒绝让您重复该密码。该机制很简单:它针对数据库中的最新哈希值验证了密码。

(为了记录在案,它必须是旧密码,因为它是一个共享帐户,并确保每个人都知道新密码不切实际)

我决定只进入用户数据库并删除新记录,以便使用较旧的记录。全部都是SQL(运行Sybase的旧版本),因此很容易。首先,我必须找到记录:

SELECT * FROM users_passwords WHERE username='someuser';

我找到了他想保留的旧唱片。前面还有两个。我决定要聪明一些,只删除比旧唱片新的东西。查看结果集,我发现数据库中的旧密码为ID#28,而新密码为ID#数千(非常繁忙的系统)。很简单,所有旧行都> 28,所以:

DELETE FROM users_passwords WHERE id > 28;

没有比做一些简单的行修剪并看到“ 212,500行受影响”更糟糕的了。幸运的是,我们有两个主数据库服务器(具有用户ID),但是Sybase(至少是我们的版本)不支持自动复制,因此它不会自动清除旧记录。转储users_passwords表并重新导入它是一件小事。不过,还有一个很大的“哦,天哪!” 时刻。


这就是为什么在sql中有一个“ LIMIT”语句的原因;)
hayalci

20
更重要的是,这就是为什么您总是总是首先发出“ DELETE FROM xxx”作为“ SELECT * FROM xxx”的原因。然后再次检查显示的内容,然后将SELECT *替换为DELETE。
sleske

1
仅供参考,我不确定即使未安装fsck的fsck在安装的ext3上也是安全的,毕竟它会执行日志重播...
derobert

14
不,这就是为什么您总是总是先发出begin tran的原因。然后,当您发现受影响的行比预期的多时,可以发出回滚。
pipTheGeek

1
@Dan与其他任何RDBMS几乎相同,只需确保运行语句,已计划好检查,例如仅检查受影响的行或准备好选择检查更新结果,然后提交或回滚即可。当我忘记在MS-SQL 2005的T-SQL语句中突出显示WHERE子句时,它为我节省了一次
。– pipTheGeek

22

我最喜欢的另一个:

在系统上安装计算机和本地激光打印机时,我有一个绝妙的主意将它们都插入计算机的UPS。您是否曾尝试将其插入台式机UPS中以打印到本地激光打印机?好吧,如果您不知道,它会拉动所有的放大器...这将重新启动计算机...并且打印作业永远不会完成...!

曾经接到电话:' 每当我打印时,它都会重新启动计算机,并且不打印!!!'?

哎呀!

合资公司


1
噢,我只是等着看现在发生在我的教堂:)
squillman

2
大多数UPS制造商说“不要插入激光打印机”,因为它们会使它们过载。
安德鲁(Andrew)2010年

22

客户的现场顾客数据库上的不带WHERE子句的DELETE语句。


9
“开始交易” FTW!
spoulson

6
在我销毁他们的实时数据库之前,您哪里?
伊恩·博伊德

1
那是一种通过仪式;每个刚起步的DBA至少必须这样做一次。希望在不太重要的事情上……
RainyRat

22

输入kill 1为root。init她所有的孩子都死了 和他们所有的孩子。等等等等。

我的意思是 kill %1

在意识到自己的所作所为之后,我跑到了BIG羊毛捆分类机的控制面板上,并按下了紧急停机按钮。因为我刚刚杀死了控制它的软件,所以这停止了机器的运转。


1
那个让我发笑!过去在大型机器上工作过,我可以使用控制系统。
SpaceManSpiff

1
在BSD上,kill -1 1导致init重新读取inittab或/ etc / ttys。离开“减号”会产生后果……
kmarsh

2
谢天谢地,那个急停按钮!:-)
staticsan

+1不能说“您不能通过混搭软件来造成任何硬件损坏”。
2011年

21

我们正处于停电之中,发现UPS以配置负载的112%运行。当时我们在发电机上运行,​​这并不是什么大问题。

因此,我们四处拉动备用电源线以减少该UPS的功耗(我们有两根,一根比另一根大得多)。我们转到运行服务器机房的网络交换机(这是该服务器机房,其中包含公司的所有内部服务器,而客户面对的服务器位于另一个服务器机房中)。该交换机是大型企业级交换机,其中装有三个电源。电源为N + 1,因此我们只需要两个电源即可运行交换机。

我们选了一根电缆并将其拔出。对于我们来说不幸的是,另外两个电源插头插入了一个电源板,当两个电源设备上的负载上升时,该电源板立即爆裂。然后,系统管理员惊慌失措并插入第三根电缆。交换机试图启动,将交换机的全部负载分配给了单个电源。它没有关闭电源,而是在距离我不到12英寸的火花中爆炸,使我跳回到服务器机架中。

我本能地试图跳到一边,但不幸的是我的左边是一堵墙,右边的两个是一个很大的6'4“设施家伙。而不是将整个Compaq机架(网眼薄的机架)放在机架中,也不要碰到设施人员。


2
+1代表了惊人的飞跃。
2009年

1
谢谢。我没有把他打倒的事实给设施人员丹尼斯留下了深刻的印象。
mrdenny

20

在我职业生涯中的某个时候,我所在的公司进行了法律调查,要求我们从“今天”开始一直保留所有电子邮件,除非另行通知。在每天存储我们的交换环境的完整备份(每晚1TB)之后,我们开始出现空间不足的情况。

交换管理员建议我们仅保留每8封电子邮件。为此,我们让他们还原了一天的交易数据库,提取了他们需要的电子邮件(已标记要调查的特定人员)并重新存档。他们每隔8天发送一次电子邮件来备份所有备份。选择第8天是因为交换具有参数集,其中“已删除项目”在数据库中保留8天。

他们完成每个存档后,我将返回并删除所有早于其存档的备份。

TSM没有简单的方法来执行此操作,因此您必须手动从备份数据库中删除对象。

我编写了一个脚本,该脚本将使用今天和相关日期之间的差进行日期计算,从而删除所有早于某个日期的备份。有一天,我不得不删除大约一个月的备份,除了进行日期计算时,我打了一个错字,输入日期为7/10/2007而不是6/10/2007,然后运行了脚本。我不小心删除了整整一个月的数据,这是一次非常重要的诉讼的一部分。

之后,我向脚本添加了一些步骤,以确认您要删除数据,并向您显示要删除的数据...

幸运的是,他们甚至从未使用过我们如此努力保存的任何数据,而我仍然有工作。


5
每天1 TB的Exchange数据?哇-你们有365 TB专用于额外的Exchange备份吗?那是您需要去的一些严肃的存储空间。
卡尔C

28
如果您去过欧洲,您只会损失1天:-)
PowerApp101

20

经过漫长的一天或性能跟踪并调整了大型主机(您知道野兽花了几个小时才能使所有备用备份站点都同意确实重新启动并完全同步了),我伸出了手指,键入了满意的关闭提示-p现在在我的笔记本电脑提示符下,合上盖子,将串行电缆从大型机中拉出,这是因为预期会出现一瓶不错的啤酒。

突然,我的笔记本电脑仍然愉快地显示X时,听到了主机旋转的震耳欲聋的声音。

在等待机器再次完全联机时,我决定有时间让我的ACPI在笔记本电脑上工作,所以我从来没有想过要关闭笔记本电脑。


如果向下旋转大型机会发出很大的噪音,我不想听到它向上旋转,或者更糟的是全速旋转。
Mircea Chirea

16

这次事故没有发生……但是值得一提:

我被送往一个经常使用的数据中心,对新电路进行带宽测试。我到达了分界室/ IDF,在其中一个机架上找到了测试路由器的位置,进行了连接,然后开始了测试。不幸的是,我完全没有注意到生产中的边界路由器不仅正好位于下一机架(几乎处于同一水平),而且与我的测试路由器也具有相同的品牌和型号。

测试完成后,我开始将电源开关按到关闭位置(...以慢动作想象...),我发誓,正当我施加压力时,突然意识到我要使用的路由器关闭是生产中的那个。我的心停了下来,我几乎...好吧,用你的想象力。

我离开了数据中心的MDF,看上去既阴森恐怖又苍白,但与此同时,我仍然有一份工作很高兴!


18
试想一下,这可能是那些地雷的情况之一。您意识到手指按下按钮已完成的操作,并且无法松开手指,否则服务器将崩溃。因此,您所能做的一切都站在那里,大喊帮助。
Tom Ritter

20
大声笑..还没想到!这本来是个更好的故事。我可以想象数据中心网络工程师拥挤不休,为问题提出不同的解决方案。也许其中一个会发布一个问题(如果SF可用的话),例如:“一旦被白痴技术人员推下路由器,我们如何禁用它的电源开关?” (+500奖励积分)
l0c0b0x

21
如果与我工作过的地方相似,解决方案将包括快速移开有问题的手指,然后用大量胶带代替。(然后打算安排机器停机以取出磁带,但是将其推迟18个月直到磁带最终失效为止)。
伊恩

16

我误删了某人的帐户,把名字和我想删除的名字混在一起了。Opps

最酷的部分是他们永远不知道发生了什么。接到他们无法登录的电话,一分钱掉进了我删除的帐户。

与他们通电话时,我迅速重新创建了他们的帐户,将他们的旧邮箱重新连接到该帐户(很高兴,Exchange不会立即删除邮箱),并将其指向他们的旧用户文件。

然后我责怪他们忘记了我刚刚为他们重置的密码:)


9
我在+1'您不得不使用该借口的球和-1'向用户撒谎之间感到痛苦。–
Babu

22
+1指责用户
JJ01

16

在我的Gentoo Linux机器上意外地将tar.gz文件安装在错误的位置,并且到处都有文件。一定是在1999年左右,当时是19岁(感谢下面的评论)

作为我的极客,我决定尝试编写脚本,以摆脱手动检查每个文件的工作。

所以我尝试了:

tar --list evilevilpackage.tar.gz | xargs rm -rf

我花了很长时间才注意到tar也列出了程序正在使用的所有目录,其中包括“ / usr,/ var,/ etc”以及一些我确实不想消失的目录。

CTRL-C!CTRL-C!CTRL-C!太晚了!一切都消失了,重新安装时间。幸运的是,盒子里没有任何重要的东西。


10
我不愿透露细节,但我敢肯定,Gentoo始于2002
-Matt Simmons,2009年

是的,1.0版本于2002年发布
。RedHat

除非他真的很顽固,否则Enoch Linux会在1999年12月发布0.75,并最终在2002
Shial,2009年

当时住在我母亲的地下室,所以大约在那个时候,至少在2000年之前。不知道它是否是核心。这是继Slackware之后的下一个合乎逻辑的步骤。
2009年

Slackware有.tgz软件包。
Marius Gedminas

12

在我前世的一小部分时间里,我管理着公司的文件服务器,即网络软件4:11。几乎几乎不需要任何输入,但是如果需要,则可以打开一个远程控制台窗口。

习惯于一直使用DOS,当我完成后,我自然会键入“ Exit”。对于Netware,“退出”是关闭操作系统的命令。幸运的是,除非您先“关闭”服务器,否则它不会让您关闭。(使其无法用于网络/客户端)因此,当您在控制台中键入“退出”时,它会很有帮助地说:“您必须先键入”向下”,然后退出”

问我1:在控制台会话中键入了多少次; 2:顺从地键入了“ Down”,然后键入了“ Exit”,这样我就可以“完成我想做的事情”了

然后电话开始响铃.....

大声笑


8
不止一次??
2009年

2
这就是为什么我使用^ D登出。它只是结束了一个shell会话。
休伯特·卡里奥

11

另一个没有发生的故事(phe):

我们每天都认真地对磁带机进行增量备份。

我们碰巧写了一个包含数据的磁带,以将其发送给其他人。他们说:“我们看不清您的录音带”。实际上,我们也不能。或实际上任何磁带。

我们买了另一个磁带机,屏住呼吸,直到安装完它。

故事的道德启示。始终确保测试您的备份。


11

我工作的最后一个地方,我的同事在服务器机房里带了他的孩子们(为什么?我没有想法!)。

他确保它们与服务器之间的距离很远,并向5岁的孩子解释说,他不应该触摸任何服务器,尤其不要触摸任何电源开关。

实际上,他把它们放在门边……(你能看到它要去哪里吗??)

这个男孩没有碰任何服务器电源按钮...不,这太容易解释了。取而代之的是,他击中了门附近的大红色按钮……该按钮关闭了整个服务器室的电源!!!

电话线立即开始点亮,想知道为什么无法使用Exchange,文件服务器等...想象一下,试图向CEO解释一下!

-JFV


4
我们让快递员做同样的事情。尽管那之后并没有发生系统管理员事故,但是在“大红色按钮”上突然出现了一个奇怪的金属盒。
Marty

另请参见“莫莉警卫队”:catb.org/~esr/jargon/html/M/molly-guard.html
jay_dubya

我哥哥三岁时在父亲曾经工作过的一个通讯链接站点上做过同样的事情。当他拨动离地面18英寸方便的主电源开关时,一半的链接网络掉线了。幸运的是,网络已完全复制,因此没有流量丢失,但仍然...
staticsan

@marty- 正确的引言是:“为什么?我不知道。他排在第三位。我不给。“什么?” “我不give。” “哦!那是我们的游击手!”
沃伦2010年

10

我曾经与APC UPS监视软件打架。作为一家小公司,我们有几个小型UPS,并且安装了各种服务器来监视它们。大多数服务器是Linux,但是有少数服务器运行Windows,因此它们是使用的服务器,因为APC软件仅是Windows。

但是,当时的APC软件已经过硬编码,以假定正在与之交谈的UPS也为正在运行的PC供电!该服务器不是这种情况,但是我发现为时已晚,无法停止运行。同样不幸的是,首席程序员正在向合作伙伴展示该公司的产品-这是一个基于Web的应用程序,运行在我不希望APC软件关闭的同一服务器上...


1
值得庆幸的是,我们对linux充满敬意
Hubert Kario 2010年

好吧,我们现在做。这件事是十年前的事。:-)
staticsan

8

我正在向新的系统管理员介绍Service Manager应用程序。我说:“如果您需要停止此服务,则可以单击此按钮,但白天绝对不要这样做。” 您永远都不会相信她的鼠标按钮多么敏感!

两分钟后,服务再次启动,似乎没有人注意到。


8

在跌落在机架后面的塔式服务器上绊倒时,我的头撞到了主要Cisco路由器背面。从而揭示了电源线实际上在Catalyst 6500正面的电源中的松动程度。

是的 现在,我们已经在服务器机房中挂上了安全帽。上面有我的名字。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.