最糟糕的SysAdmin事故[关闭]


8

与有关“ 最佳sysadmin事故”的问题一致,您所涉及的最严重的事故是什么?与前面的问题不同,我说的是对大多数系统的损害或对人的实际损害的“最坏”。

我将从我的开始:

我们在100英尺长的走廊的尽头有两个远程布线室,走廊的地板上装有金属花格。安装完Cat6电缆后,承包商清理了所有从格栅掉落到3英尺以下混凝土的碎屑。我和一位同事一天进入走廊检查进度,但心烦意乱,没有注意到一块格栅已经移开了。我的伙伴踩到空中,他的胸部撞到了钢制横杆上。他感到发狂和酸痛,可以休息几天,但幸运的是,钢梁的边缘呈圆形,开口的大小使他不会将头撞到地板或下面的地板上。

显然,我们了解到需要标记掉地板部分去除的区域。


1
这应该设置为社区Wiki
Joe

Answers:


1

试想一下,如果您将在安德鲁飓风期间(稍稍在24X7狂潮之前)住在南佛罗里达州,您所有的服务器都安全地锁定在建筑物内,该建筑物需要您在其中徽章,而更安全的区域则需要对徽章进行额外扫描。想象一下一个没有考虑到需要在门上安装实际把手的机体。想象一下,一份价值400万美元的合同需要交付,最近的电力在北部230英里处,汽油短缺,道路危险,并且设计了可提供48小时电力的发电机。如果您愿意在卡车后部停滞在米老鼠收费公路上的一堆服务器,那会因为汽油不足而停滞。从后勤,系统管理员和操作的角度来看,如果您完全缺乏借口,那就大笑了。


17
呃,请不要以这种错误的方式,但是我不知道故事中实际上发生了什么,因为所有的“笑声”……
马克·亨德森2009年

1
太好笑了,我喜欢48小时发电机部分。我曾经检查过的一个地方现场有48小时的燃料,而在杂物场又有14天,他们拥有一辆加油车来为发电机加油,因此他们不必指望其他任何人。他们也是一家水电公司。
SpaceManSpiff

虽然不是叙事...整个故事都在上面。
ojblass

加油车是一个聪明的主意。去年,我参观了西雅图数据中心,该数据中心仅使用了几天的柴油。令我印象深刻的是:西雅图公共汽车系统在大约40年中只有一天关闭过一天,这主要是由于在一场大雪事件中加油车没有出现在基地来运送柴油。我无法想象发生大地震,洪水或其他地区性灾难会导致燃料比暴风雪中可用的燃料更多
天鹰

25

当我在思科工作时,我曾经吸引过一些客户,这些客户购买了30美元的无线网卡,并且在无法安装驱动程序时吐痰,或者拥有最便宜的最基本路由器的思科公司会抱怨并热衷于支持问题。

总有一天,当我接到来自世界上最大的卡提供商之一(想想美国运通卡,万事达卡,维萨卡,大莱卡...会很感激我提到它)。我是一线支持人员,我唯一的工作就是评估方案,对其进行评估,然后将其提交给适当的支持部门。此案是我曾经提出过的唯一一个优先事项。

一家信用卡公司的一名男子打来电话,说他们在美国东西方大型机之间的联系已断开。如果在一个大型机上创建了一个帐户,则始终在该大型机上处理交易。如果最接近的链接始终位于大型机附近,那很好。但是在这一天,如果您在东海岸服务器上有一个帐户,但是您在西海岸,则由于链接已断开,交易将被拒绝。

评估损害时的标准问题是“这将使您的业务损失多少?” 答复平静而收集,是“每30秒约100万美元”。

下次您真的想花30美元购买无线网卡大声疾呼并热衷于客户支持时,您一定会喜欢上它。

(应注意,Cisco在转移后的5分钟内已建立链接并开始运行)


3
那可能是您将听到的唯一诚实的答案!
SpaceManSpiff

6
那是我曾经听到有人说“停止问问题蠢蛋和解决它的最好办法NOW ”。特别是对技术支持。
Ernie

10

别名命令rm或mv来添加'-i'选项以避免错误是很常见的。但这是我公司前一段时间发生的。有人将此行放在其中一台服务器的root .bashrc中。

alias rm='rm -i'

然后它复制了该行并将rm替换为mv ...或因此他认为:

alias rm='rm -i'
alias mv='rm -i'

剩下的就是历史了:)

好吧,问题是,在播放“您确定”时,问题是“删除”而不是“移动”,但是...


lmao,非常抱歉。历史命令甚至都无法帮助您找到为自己扑灭的巨大毒药。
ojblass

4

我们正在一家大型零售商(超过1000个分支机构)安装大型销售点系统。中央轮询服务器是所有自定义的HP-Unix代码,并且对生产迁移的测试由一个人(IT总监的儿子)来处理。

这个人一天中花了7.95个小时阅读幻想小说,其余的几分钟则用批处理工作将每晚的作品迁移到生产中。该系统距离150个分支机构的启用(我们的第一个“实际”部署)只有3天的时间。一切都准备就绪,我的团队刚刚完成了对最后代码的测试。我们进行了更改,并将映像从开发阶段移到了测试阶段,第二天早晨由IT总监的儿子接过。

我早上8:00到达那里,一切都一片混乱。原来,已指示儿子将文件复制到生产环境中后,他应该进入./changed文件夹并键入“ rm -rf *”。是的,实际上有人告诉他!当然,他不小心在生产根驱动器上执行了此操作,该根驱动器还存储了我们的事务轮询数据库(当时碰巧是脱机备份的,这只是我们的运气)。

结果:我们的16家试点商店不得不用雪茄盒(在某些情况下是字面上的意思)为客户服务2天。CIO的儿子被降职为Server Watcher(他坐在那间寒冷的服务器房里,本来要看红灯……但是他不允许触摸任何东西……他们甚至都没有给他电脑,撤销了他的所有登录名/电子邮件)。我们的开发团队通宵达旦地从备份和重新测试/重新提交代码中重建丢失的数据。

幸运的是,我们推出了150个分支,但这是有史以来最糟糕的体验。


1
至少他们降级了他
SpaceManSpiff

9
奇怪。通常,涉及的其他人将立即被解雇,而导演的儿子则晋升。
kubanczyk

@kubanskamac-很棒
哔哔哔声,2009年

通常,这种降级表示“退出,你这个愚蠢的混蛋,所以我们不必解雇你”。这让我想知道他是否曾经做过。
Ernie

1
他从未辞职……他仍然存在(超过10年),并且回到了原来的位置(基本上是发布协调员和服务台支持)。不过,他在服务器机房里呆了几年。
哔哔

2

我学会了在按Enter键之前完成每个命令语句。

我面临的一种类似情况是,当我不确定某个命令时,请按Home键并键入一些垃圾字符,以使该命令无法被识别。

me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that

bash: sdkjfhdsudo: command not found

然后我再次检查选项,如果需要,请慢慢检查。还有其他人做这样的事情吗?当然,您必须确保键入足够的垃圾字符(5+),以防止其成为另一个有效命令并造成更多不可预测的损害。

(是否有一个我没有弄清的基本缺陷,或者在给定5个以上的垃圾字符(通常在“ asdfghjkl”键中)的情况下,它无法预测?)


9
垃圾字符很好,但是也许还有两种更常见(确定性!)的方法:在命令前面加上#号,或者在整个内容前加上“ echo”前缀?
Murali Suriar,2009年

我与@Murali在一起,“回声”或空运行特别有助于调试以防止数据丢失。
LiraNuna

3
bash(可能还有其他Shell)上:Alt + Shift + 3(Alt +#)将注释掉该命令。
Belmin Fernandez 2011年

2

在为经理重新安装笔记本电脑的操作系统时,有人通过网络将所有数据的副本复制到/ tmp中的linux工作站。有一些问题,花了一天多的时间。

... Linux工作站在一天结束时被关闭...

第二天,当他们去寻找经理的数据时...


1

我已经担任SysAdmin大约7个月了,我的首要任务之一是运行Squid代理服务器,而实际上我确实做到了,就像2星期之后,我正在使用BackTrack并弄乱了很多工具“扮演黑客”我实际上是对服务器进行了黑客入侵,但这是一个很好的选择,但是由于某种奇怪的原因进入服务器后,我从/做了rm -rf并很好地擦除了一部分操作系统(Debian linux)。

我学会了在按Enter键之前完成每个命令语句。

干杯。


哇 您入侵了自己的服务器,然后不小心擦除了根目录?像,你的手指滑了吗?
Matt Simmons

4
看着我把这个n3wb pwn,我有他的IP。127.0.0.1!
克里斯·索普

1

我们的一位客户在2005年12月24日遇到了一个非常罕见的XFS文件系统错误……当时我还不知道这是一个Linux内核错误,我认为这只是一些常见的可疑对象(13TB RAID) 8KB的可用空间,阵列中的假驱动器故障等)。

最终,由于无法卸载文件系统,我要求在线的操作员输入xfs_repair -n /dev/whatever。嗯,它想清除日志(显然,因为FS无法挂载),但是没有太不祥的消息。所以去吧:xfs_repair /dev/whatever

15分钟后,她回电:

为什么看不到大多数文件?

嗯...结果证明,xfsprogs是某种版本,在这种确切的情况下会造成严重伤害,这更加增加了伤害。8TB的数据消失了。


那就是大量数据正在丢失!
Mark Henderson,2009年

1

我的colo工厂前段时间有些停机。

他们断开了到Internet的主要网络链接,以对路由器执行一些软件维护,这很公平。

但是,与此同时,辅助链接的上游提供者将其关闭以执行一些测试(显然已经告知他们,但是在数据中心中贴错了标签)

到目前为止,很糟糕……但是,客户很难通过该设施来使停机时间引起提供商的注意。.提供商只有VoIP电话,这些电话是通过连接的……好吧,您可以猜到。

我想您不会相信我,但是它是真实的,并且在Blogosphere上有记录问题 :)


1

我不确定这是否会是一个有趣的答案,但我还是一名编码员。我的上一个网站完全按照生产计划进行编码,而我的电脑上根本没有备份。经过16个小时的连续工作,糟糕的一天使我不得不清空分区,而最快的方法是格式化它。我跑去fdisk -l检查要格式化的分区的名称是什么,不幸的是,我读错了行并进行了格式化。

我失去了六个月的工作。

幸运的是,第二次您做同一件事时,您会做得更好,更快,因为您已经知道如何做。现在该网站已上线。而且我有备份:=)


+1的6个月工作时间
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.