我正在寻找有关您遇到的系统管理员事故的有趣故事。删除CEO的电子邮件,格式化错误的硬盘等。
我将添加自己的故事作为答案。
我正在寻找有关您遇到的系统管理员事故的有趣故事。删除CEO的电子邮件,格式化错误的硬盘等。
我将添加自己的故事作为答案。
Answers:
我发现linux“ killall”命令(杀死与指定名称匹配的所有进程,对于停止僵尸很有用)和solaris“ killall”命令(杀死所有进程并停止系统,对于停止生产服务器非常有用)之间的区别很有趣。在繁忙时间的中间,让您的所有同事嘲笑您一周)。
hostname -f
在Linux上,会在Linux上打印标准域名。在Solaris上,它将主机名设置为-f
。
我负责我们的公司Web代理,当时是Netscape的产品。在使用管理表单(基于Web的界面)玩耍时,有一个大按钮(我发誓是红色的),上面有Delete User Database。没问题,我想。让我们看看当我点击它时,它给我的选择是什么。如果没有选项,肯定会出现确认提示。
是的,没有确认。没有选择。没有更多的用户。
因此,走到Solaris Sysadmin先生那里,他说我急需从磁带上还原,他回答说:“我不备份那个盒子。”
“呃,再来一次。”我反驳道。
“我不备份那个盒子。它在我要添加到备份循环中的清单上,但是我还没有解决。”
“该服务器已经投入生产将近8个月!” 我尖叫。
他耸耸肩,回答。“抱歉。”
很多年前,我工作的公司有一个客户端,该客户端每晚将其NT 4.0 Server备份到Jaz驱动器(例如大容量zip磁盘)中。
我们设置了一个批处理文件,该文件作为计划的工作在一夜之间运行。每天早上,他们从驱动器中收集昨晚的磁盘,在晚上离开之前,他们将按顺序插入下一个磁盘。
无论如何,批处理文件看起来像这样(Jaz驱动器是驱动器F:)...
@echo off
F:
deltree /y *.*
xcopy <important files> F:
无论如何,有一天晚上他们忘记了放入磁盘。对驱动器F的更改:失败(驱动器中没有磁盘),并且批处理文件继续运行。批处理文件的默认工作目录?C:。我第一次见过备份例程会破坏正在备份的服务器。
那天我学到了一些有关系统管理(和异常处理)的知识。
吉姆
PS:解决办法?“ deltree / y F:\ *。*”。
root @ dbhost#find / -name core -exec rm -f {} \;
我:“您无法进入?好。数据库名称是什么?”
铜:“核心。”
我:“哦。”
我喜欢每个人都以“我年轻/绿色的时候”来证明自己的故事的方式,就像他们永远不会再做那样。即使是经验最丰富的职业人士也可能发生事故。
我自己最糟糕的时刻是如此糟糕,我仍然感到心。
我们有一个带有生产数据的SAN。对公司至关重要。我的“导师”决定扩展分区以释放一些磁盘空间。您能看到前进的方向吗?他说,SAN软件可以在生产时间内实时完成此工作,没有人会注意到。警钟本应开始响起,但明显沉默。他说他已经做到了“很多次”,没有问题。但这就是问题-他让我点击了“您确定吗?”按钮!当我刚进入公司时,我以为这个家伙知道他在说什么。大错。好消息是LUN扩展了。坏消息是……好吧,我知道当我开始在Windows盒子上看到磁盘写入错误时,就有个坏消息。
我很高兴我穿着棕色的裤子。
我们不得不解释为什么午餐时间1TB的数据消失了。那真是非常糟糕的一天。
实际上,这是一个很好的原则-在做您怀疑的事情之前,想象一下如果发生问题必须向管理层解释。如果您想不出一个好的答案来解释自己的行为,那就不要这样做。
当营业时间开始说Nagios无法连接到非关键服务器时,Nagios对我们进行了ping操作。好的,爬到服务器机房。这是一台旧服务器,是于02年购买的Dell 1650,我们知道1650一直存在硬件问题。PFY按下电源按钮。没有。再次击中它并保持五秒钟以“强制打开电源”……这将覆盖BMC的错误保护,因为如果没有DRAC,就无法在不打开机箱电源的情况下检查BMC日志。
机器启动POST,然后再次死机。我站在上面,走了,“我闻到烟味。” 我们将服务器从其导轨上拉出,其中一个电源感觉很热,因此PFY将其拉出并准备将箱子重新装回去。我说:“不,这不是电源烟雾,是主板烟雾。”
我们再次打开盒子,寻找燃烧气味的来源。产生了一个电感线圈和一个电容器,使主板上的稳压器炸毁,并在所有物体上喷洒了熔融的铜和电容器粘胶,使一堆东西短路,基本上造成了很大的混乱。
对我而言,最糟糕的是认识到我抽了足够多的硬件来识别被烧主板和电源所散发出的气味。
三天前(严重),我远程登录到学校服务器,在Windows Server 2008文件服务器上安装Service Pack 2。
我决定将所需的重新启动安排在深夜,届时教师将不会登录完成他们的年终报告卡。我输入了类似的内容:
在23:59“关机-r -t 0”
...可能效果很好。
但是后来我第二次猜到了自己。我的“关机”语法正确吗?我试图通过键入查看使用帮助
关机/小时
...并立即失去了我的RDP连接。惊慌失措,我用谷歌搜索语法。快速搜索显示,Server 2008版本的关机包含/ h开关,(您可能已经猜到过)该开关可使计算机进入休眠状态。
老师在几分钟之内开始打电话给我,报告他们无法打开或保存他们一直在处理的成绩单。由于我不在现场并且服务器室被锁定,因此我不得不直接打电话给学校校长,并带领她完成重新启动机器的过程。
今天,我以道歉的形式向大家带来了自制饼干。
/?
一个!
man shutdown
。我知道我不会造成任何问题man
!
在上一份工作中,我们有一个出色的本地系统,该系统可以记录和存档进入,离开或停留在公司内部的每一封邮件。
吹走了整个邮箱?没问题!寻找某人一周/一个月/一年前发送给您的邮件,但您不记得是谁发送的或主题是什么?没问题!我们将从2月开始将您的所有内容重新分发到一个特殊的文件夹中。
在某个时候,该公司的首席执行官有必要监视怀疑是竞争对手和内部销售人员之间的邮件。因此,我们设置了一个脚本,而不是每天晚上运行,并将前一天的相关邮件发送给CEO。没问题!
大约一个月后,出现了双重紧急问题的消息从高处传下来。似乎首席执行官在阅读发送到$ OTHERCOMPANY的邮件列表时,发现了以下内容:
To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)
自然,首席执行官是所有人的重要人物,他忙于在Outlook中单击所有那些“发送已读回执”对话框,并已将他的客户配置为只发送所有这些。监视筛选器捕获的消息之一具有已设置的读取-接收请求。猜猜Outlook是做什么的?当然,增加了“秘密”监控的难度。
我们的下一个任务是:向邮件过滤器添加规则,以阻止从CEO到该公司的已读回执。是的,这是最简单的方法。:)
啊,我的大约是十年前,那时我还没湿。我很高兴在所有程序员计算机上安装备用电池。他们还希望加载该软件以警告断电并正确关闭。
因此,我首先将其设置在计算机上以测试所有内容,并确保所有功能均正常运行。因此,我断开了电源线,屏幕上出现了该消息。“外部电源丢失,开始系统关闭”。
所以我想,嘿,很有效。但是出于某种奇怪的原因,我什至不记得了,它以网络消息的形式发送了该消息,因此公司中的所有200多台计算机都收到了该消息,其中有100多个用户是程序员。
是的,谈论群众狂!
我在那个地方低头了一段时间!
我经常在Solaris机器上使用“ sys-unconfig”命令来重置机器名称服务,IP地址和root密码。我在用户系统上,登录到建筑物安装服务器并以root用户身份进行查找,然后忘记了我已登录另一台计算机(非描述性的“#”提示),然后运行了“ sys-unconfig”命令。
# sys-unconfig
WARNING
This program will unconfigure your system. It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.
This program will also halt the system.
Do you want to continue (y/n) ? y
Connection closed
#
该“连接已关闭”消息慢慢变成了紧急情况...运行该命令时我登录的计算机。
最糟糕的部分不是同事给我的辛苦,而是一个月后我做了同样的事情。
我有一个很好的。诚然,这早于我作为系统管理员的时间,但仍与技术相关,因此我想添加一下。
过去,我当时是美国空军的卫星通讯/宽带技术。我刚从技术学校毕业,后来发现自己定居在韩国。到达车站后不久,一个机会就出现了,与曾在这里呆了一段时间并实际在某些实际(即“生产”)设备上工作的“大家伙”一起向南走。
我和机组人员一起摔倒了,作为一个急切的年轻技术,他感到非常吃力,对我有机会获得可以传递实时军事语音和数据流量的实际设备的前景感到非常兴奋。
为了让我慢慢上手,他们递给我一本手册,转到预防性维护部分,并向我指出了装有四个大型数字多路复用器的四个机架的方向。设备足够简单,我们在技术学校学习了相同的设备。
手册第一页阅读;“为数字多路复用器通电。将两个后部开关都转到ON位置,等待设备上电,然后开始测试。” 我抬起头,已经有力量了!
我肯定陷入了困境。不知道如何进行,我尽我最大的努力,“嗯。
他看着我,笑了,“不,不,没关系。您可以忽略清单的那一部分。” 然后,当他注意到我脸上的表情时(由于我们从学校受教,从来没有,永远不要忽略清单的任何部分,并且如果这样做一定会导致死亡和破坏),他认真看了看自己的脸。面对并说:“只忽略那一部分!跟随其余部分,直到字母!”
尽职尽责,我经历了多步的PM指令,作为蛤c而感到高兴,并为他们让如此低级的(尽管很聪明)技术来完成这项重要工作而感到自豪。
在这些大型多路复用器的第五和第六次预防性维护清单之间的某个地方,我开始注意到我周围的活动水平有所提高。电话在响,人们在迅速移动。古怪的外表被交换了。
最终,一群人奔向我,由一位使我失望的高级技术人员带领。
“嘿!我们看到数据通信量极大地中断了,我们已经隔离/跟踪了回到您正在使用的机架的路径!您是否发现任何异常。”
(那时,他被另一位疑难解答人员切断,后者一直忙于我执行PM的第一组多路复用器。)
“神圣的坚果!它们被关闭了!他已经将它们关闭了!!!!”
很快,我看着他们匆忙地完成了手册的第一步,“将两个后部开关都转到了ON位置……”当高级技术人员完成后,他来到我身边,不由自主地问我在想什么通过关闭关键设备。
我吓坏了,我递给他我要遵循的清单,发誓我并没有偏离。按照他的指示,我遵循了这句话。
过了一会儿,他笑了起来,指出问题出在哪里。
在手册中,预防性维护清单中的“最终”步骤为:
“记录探头的最终读数,擦拭前面板,清除所有灰尘和微粒,然后将两个后部电源开关都转到OFF位置。”
:)
这是种系统管理员的事故。.就系统管理员而言,偶尔不得不从A点到B点物理地拖运大量机器(其中A和B似乎总是在不带电梯的建筑物中被几段楼梯隔开)。在一天的第n次旅行中,我停了下来,从地下室的载物高度上飞了三个航班,与下楼的人聊天,支撑着我正站在空旷的楼梯间内部扶手上的全尺寸塔架/站而且...好吧,你猜到了...我对此失去了把握。它毫不费力地直接向下钻入井中,当到达底部时,呃……与其说是那个功能,不如说是!总共可维修的部件:两根RAM,一张软盘驱动器和一张ISDN卡(上帝保佑Hermstedt工程人员!)。其他一切都破裂了
靠着上帝的恩典,没有人在下面走,谢天谢地,这是我上司的第一时间,所以我必须继续工作。虽然感到非常恶心一个小时左右。
道德:重力总会取胜!
我正在为某人重新加载系统,在手动备份过程中,我问他一个问题:“您还使用其他程序吗?” 和“您在计算机上还有其他重要的事情吗?”
他几次说“不”。
我被说服并格式化了驱动器。
大约30分钟后,他说了“哦,我的天哪”,将双手放在头上。
原来,他已经在一个专门程序中从事书籍脚本工作超过10年。当程序用于将用户数据保存在其程序文件目录中时,我又回想了。
哇哦。
他没有生我的气,但这是一种清醒的感觉。
我没有发生这种情况,但是…
我曾在一家公司生产在客户端提供的Linux机器上运行的软件的公司工作。实际上,我们将“接管”机器,完全按照规范配置它们,并进行所有管理和监视。本质上,我们是一个由10至15个系统管理员组成的团队,为数百个客户管理数千台服务器。错误肯定会发生。
我们的一个团队发现了服务器上的一些问题(我相信是备份),并决定他应该在服务器上运行fsck。他停止了所有相关服务,确保系统最近进行了备份,然后运行fsck,但它抱怨文件系统已安装。由于我们是远程的并且没有远程访问权限(DRAC,ILO等),因此他无法执行fsck,但他非常确定,如果小心的话,在安装了文件系统的情况下这样做是安全的。
他决定自己尝试在根分区上运行fsck,以取得可预期的结果–他损坏了根分区,无法启动。
感到困惑,他走了过去,并与我们的团队负责人交谈。负责人说,他非常确定您无法做到这一点,并且团队成员说:“您一定可以!”,拿住了负责人的键盘,并告诉他您可以–通过在负责人的根分区上运行fsck。其中完全损坏了HIS根分区。
最终结果?由于团队成员的测试,没有丢失任何客户数据。损失了两天的员工工作效率,但价值却远远低于客户机器上的数据。并作记录?您可以在已安装的驱动器上运行fsck,但只能用于验证数据。不修。那是团队成员的错误。
-
要添加我自己的故事,我在同一家公司工作,并试图重置用户密码。我们的系统拒绝让我将其设置为他所需的密码,因为它跟踪了旧的密码哈希,并拒绝让您重复该密码。该机制很简单:它针对数据库中的最新哈希值验证了密码。
(为了记录在案,它必须是旧密码,因为它是一个共享帐户,并确保每个人都知道新密码不切实际)
我决定只进入用户数据库并删除新记录,以便使用较旧的记录。全部都是SQL(运行Sybase的旧版本),因此很容易。首先,我必须找到记录:
SELECT * FROM users_passwords WHERE username='someuser';
我找到了他想保留的旧唱片。前面还有两个。我决定要聪明一些,只删除比旧唱片新的东西。查看结果集,我发现数据库中的旧密码为ID#28,而新密码为ID#数千(非常繁忙的系统)。很简单,所有旧行都> 28,所以:
DELETE FROM users_passwords WHERE id > 28;
没有比做一些简单的行修剪并看到“ 212,500行受影响”更糟糕的了。幸运的是,我们有两个主数据库服务器(具有用户ID),但是Sybase(至少是我们的版本)不支持自动复制,因此它不会自动清除旧记录。转储users_passwords表并重新导入它是一件小事。不过,还有一个很大的“哦,天哪!” 时刻。
我最喜欢的另一个:
在系统上安装计算机和本地激光打印机时,我有一个绝妙的主意将它们都插入计算机的UPS。您是否曾尝试将其插入台式机UPS中以打印到本地激光打印机?好吧,如果您不知道,它会拉动所有的放大器...这将重新启动计算机...并且打印作业永远不会完成...!
曾经接到电话:' 每当我打印时,它都会重新启动计算机,并且不打印!!!'?
哎呀!
合资公司
输入kill 1
为root。init
她所有的孩子都死了 和他们所有的孩子。等等等等。
我的意思是 kill %1
在意识到自己的所作所为之后,我跑到了BIG羊毛捆分类机的控制面板上,并按下了紧急停机按钮。因为我刚刚杀死了控制它的软件,所以这停止了机器的运转。
我们正处于停电之中,发现UPS以配置负载的112%运行。当时我们在发电机上运行,这并不是什么大问题。
因此,我们四处拉动备用电源线以减少该UPS的功耗(我们有两根,一根比另一根大得多)。我们转到运行服务器机房的网络交换机(这是该服务器机房,其中包含公司的所有内部服务器,而客户面对的服务器位于另一个服务器机房中)。该交换机是大型企业级交换机,其中装有三个电源。电源为N + 1,因此我们只需要两个电源即可运行交换机。
我们选了一根电缆并将其拔出。对于我们来说不幸的是,另外两个电源插头插入了一个电源板,当两个电源设备上的负载上升时,该电源板立即爆裂。然后,系统管理员惊慌失措并插入第三根电缆。交换机试图启动,将交换机的全部负载分配给了单个电源。它没有关闭电源,而是在距离我不到12英寸的火花中爆炸,使我跳回到服务器机架中。
我本能地试图跳到一边,但不幸的是我的左边是一堵墙,右边的两个是一个很大的6'4“设施家伙。而不是将整个Compaq机架(网眼薄的机架)放在机架中,也不要碰到设施人员。
在我职业生涯中的某个时候,我所在的公司进行了法律调查,要求我们从“今天”开始一直保留所有电子邮件,除非另行通知。在每天存储我们的交换环境的完整备份(每晚1TB)之后,我们开始出现空间不足的情况。
交换管理员建议我们仅保留每8封电子邮件。为此,我们让他们还原了一天的交易数据库,提取了他们需要的电子邮件(已标记要调查的特定人员)并重新存档。他们每隔8天发送一次电子邮件来备份所有备份。选择第8天是因为交换具有参数集,其中“已删除项目”在数据库中保留8天。
他们完成每个存档后,我将返回并删除所有早于其存档的备份。
TSM没有简单的方法来执行此操作,因此您必须手动从备份数据库中删除对象。
我编写了一个脚本,该脚本将使用今天和相关日期之间的差进行日期计算,从而删除所有早于某个日期的备份。有一天,我不得不删除大约一个月的备份,除了进行日期计算时,我打了一个错字,输入日期为7/10/2007而不是6/10/2007,然后运行了脚本。我不小心删除了整整一个月的数据,这是一次非常重要的诉讼的一部分。
之后,我向脚本添加了一些步骤,以确认您要删除数据,并向您显示要删除的数据...
幸运的是,他们甚至从未使用过我们如此努力保存的任何数据,而我仍然有工作。
经过漫长的一天或性能跟踪并调整了大型主机(您知道野兽花了几个小时才能使所有备用备份站点都同意确实重新启动并完全同步了),我伸出了手指,键入了满意的关闭提示-p现在在我的笔记本电脑提示符下,合上盖子,将串行电缆从大型机中拉出,这是因为预期会出现一瓶不错的啤酒。
突然,我的笔记本电脑仍然愉快地显示X时,听到了主机旋转的震耳欲聋的声音。
在等待机器再次完全联机时,我决定有时间让我的ACPI在笔记本电脑上工作,所以我从来没有想过要关闭笔记本电脑。
这次事故没有发生……但是值得一提:
我被送往一个经常使用的数据中心,对新电路进行带宽测试。我到达了分界室/ IDF,在其中一个机架上找到了测试路由器的位置,进行了连接,然后开始了测试。不幸的是,我完全没有注意到生产中的边界路由器不仅正好位于下一机架(几乎处于同一水平),而且与我的测试路由器也具有相同的品牌和型号。
测试完成后,我开始将电源开关按到关闭位置(...以慢动作想象...),我发誓,正当我施加压力时,突然意识到我要使用的路由器关闭是生产中的那个。我的心停了下来,我几乎...好吧,用你的想象力。
我离开了数据中心的MDF,看上去既阴森恐怖又苍白,但与此同时,我仍然有一份工作很高兴!
在我的Gentoo Linux机器上意外地将tar.gz文件安装在错误的位置,并且到处都有文件。一定是在1999年左右,当时是19岁(感谢下面的评论)
作为我的极客,我决定尝试编写脚本,以摆脱手动检查每个文件的工作。
所以我尝试了:
tar --list evilevilpackage.tar.gz | xargs rm -rf
我花了很长时间才注意到tar也列出了程序正在使用的所有目录,其中包括“ / usr,/ var,/ etc”以及一些我确实不想消失的目录。
CTRL-C!CTRL-C!CTRL-C!太晚了!一切都消失了,重新安装时间。幸运的是,盒子里没有任何重要的东西。
在我前世的一小部分时间里,我管理着公司的文件服务器,即网络软件4:11。几乎几乎不需要任何输入,但是如果需要,则可以打开一个远程控制台窗口。
习惯于一直使用DOS,当我完成后,我自然会键入“ Exit”。对于Netware,“退出”是关闭操作系统的命令。幸运的是,除非您先“关闭”服务器,否则它不会让您关闭。(使其无法用于网络/客户端)因此,当您在控制台中键入“退出”时,它会很有帮助地说:“您必须先键入”向下”,然后退出”
问我1:在控制台会话中键入了多少次; 2:顺从地键入了“ Down”,然后键入了“ Exit”,这样我就可以“完成我想做的事情”了
然后电话开始响铃.....
大声笑
另一个没有发生的故事(phe):
我们每天都认真地对磁带机进行增量备份。
我们碰巧写了一个包含数据的磁带,以将其发送给其他人。他们说:“我们看不清您的录音带”。实际上,我们也不能。或实际上任何磁带。
我们买了另一个磁带机,屏住呼吸,直到安装完它。
故事的道德启示。始终确保测试您的备份。
我工作的最后一个地方,我的同事在服务器机房里带了他的孩子们(为什么?我没有想法!)。
他确保它们与服务器之间的距离很远,并向5岁的孩子解释说,他不应该触摸任何服务器,尤其不要触摸任何电源开关。
实际上,他把它们放在门边……(你能看到它要去哪里吗??)
这个男孩没有碰任何服务器电源按钮...不,这太容易解释了。取而代之的是,他击中了门附近的大红色按钮……该按钮关闭了整个服务器室的电源!!!
电话线立即开始点亮,想知道为什么无法使用Exchange,文件服务器等...想象一下,试图向CEO解释一下!
-JFV
我曾经与APC UPS监视软件打架。作为一家小公司,我们有几个小型UPS,并且安装了各种服务器来监视它们。大多数服务器是Linux,但是有少数服务器运行Windows,因此它们是使用的服务器,因为APC软件仅是Windows。
但是,当时的APC软件已经过硬编码,以假定正在与之交谈的UPS也为正在运行的PC供电!该服务器不是这种情况,但是我发现为时已晚,无法停止运行。同样不幸的是,首席程序员正在向合作伙伴展示该公司的产品-这是一个基于Web的应用程序,运行在我不希望APC软件关闭的同一服务器上...
在跌落在机架后面的塔式服务器上绊倒时,我的头撞到了主要Cisco路由器背面。从而揭示了电源线实际上在Catalyst 6500正面的电源中的松动程度。
是的 现在,我们已经在服务器机房中挂上了安全帽。上面有我的名字。