在服务器发生故障之前是否有理由更换服务器的硬盘?


11

只是一个简单的问题:在服务器出现故障(可能最终会在某个时候发生故障)之前的x年后,是否有理由更换服务器的硬盘?我对实际的服务器管理经验很少,所以我想知道...


我没想到会得到这么多答案,哇:)在检查了所有答案之后,并考虑到以下几点:a)服务器的硬盘驱动器足以满足其目的b)绝对保证了备份(使用RAID + Replication Slave +每日备份到外部来源),我认为没有理由建议更改驱动器。谢谢大家!
斯皮罗斯

Answers:


8

进行更改的一个重要原因是,如果您想在要执行的事情中添加另一个任务,同时又要增加发生错误的机会。

除了开玩笑,我真的没有理由听说要提前更改驱动器。如果已安装RAID,则已经具有保护(假设您具有不错的备份),并且不会以废弃驱动器的形式生成废料,也无需进行不必要的消除工作。来自驱动器的敏感数据。您不会在新驱动器上花费额外的钱,也不会主动预防仍然可能出问题的事物,例如驱动器控制器故障,这种故障并不常见,但会发生。

另一方面,这可以帮助您发现无法恢复的驱动器错误,这些错误不会触发RAID单元上的警报,就像我们在RAID 5上发生的那样。我们为此感到痛苦,最终需要从备份中的裸机进行重建(因此,即使在这种情况下,正确的备份将有助于您进行恢复。)考虑到当今更大的驱动器容量和不可恢复的容错能力的RAID级别,如果没有备份,将会帮助我们节省很多时间。

大多数管理员都有一个不错的RAID和备份计划,因此不需要通过不必要地更换驱动器来产生额外的浪费。


6

我可能唯一考虑的是,如果我有同一批中的一堆磁盘,而该批中的其他磁盘开始出现故障,那么我可能会考虑。

如果我在空间上比较紧张,那么可以,我会做的-但是除了别的原因,还不只是因为它变老了吗?不可以,因为第一年的平均故障率与其他任何年份的故障率相似。(请注意,该图表会在3个月,6个月,1年内分解为第一年,但您必须将它们加在一起才能获得1年失败的机会)。而且,考虑到高磁盘利用率,第一年发生故障的可能性要大于未来三年的总和。

与延迟驱动器故障的唯一关联是在更热的房间中,并且我们使服务器房间保持凉爽。


5

我全心全意要主动,但我从未做到过,也从未听说过有人这样做。大概您具有某种类型的RAID设置,并且对于相关系统具有定期发生的有效备份。


5
+1,从未考虑过。替换磁盘,以防万一,有意触发阵列重建,似乎并不是“锻炼”剩余生产磁盘的最佳方法。很难向老板解释,如果重建失败,为什么系统将关闭。
jscott 2010年

3
我更换了具有SMART错误的磁盘,但是即使它们在技术上仍然可以工作,我仍认为它们已失败。
克里斯·S

4

是的,性能和容量。如果旧硬盘驱动器可进行70MB /秒的持续读取和100 IOPS,而潜在的替换驱动器可进行200MB / sec的持续读取和175 IOPS,并且容量是原来的3倍,则可以合理地购买新驱动器并以旧换新性能/容量原因。(而且这些数字已完全组成,更新的点可以明显更快)。

现在,您如何处理旧驱动器。您可以在测试服务器中使用它们,或将它们添加到磁盘阵列的备份中,或保留为紧急备用。或者,您可以擦拭它们,然后将其送去处置。

现在,您的平均服务器受IO约束的天数大于受处理器约束的天数(或至少属于我的全部)。因此,如果您有一台真正的旧服务器,而没有CPU时间或内存短缺的问题,那么您可能有空间通过更换硬盘驱动器来显着提高性能,这些硬盘驱动器比您可以轻松购买的硬盘驱动器落后了几代。


3

硬盘驱动器是否故障取决于影响。

如果您没有RAID
如果您不关心服务器的可用性,因为该服务可以停止或因为该服务器处于高可用性状态,并且您具有有效的数据备份。我会说好吧,让驱动器死掉并对其进行更改,并在驱动器出现故障时恢复数据。
如果您关心可用性,我会说使用RAID;)

如果您有RAID(1、5、6,...),
我会说,为什么要在发生故障之前更换硬盘驱动器?RAID(和备份)在这里。以防万一可能发生故障而更改硬盘驱动器可能会损坏某些东西(RAID重建总是有风险的)

但这只是我的观点!如果您认为驱动器可能太旧,则可能也想更改服务器。


2

一些磁盘会在1小时内消失,其他磁盘则持续2十年。

如果它没有失败或失败(通常可以通过SMART监视或性能问题来确定),则将其丢弃的唯一其他原因是它的大小或速度不足以达到您的目的。


1
只需使用SMART监视驱动器,它通常会在为时已晚之前显示出故障迹象。
莫里亚蒂教授

@Prof Google的大容量磁盘研究表明,SMART在“通常”的情况下有44%-72%的时间是可靠的。 static.googleusercontent.com/external_content/untrusted_dlcp/...
jscott

2

使用磁盘,问题不在于是否他们会失败,但是。它们是机械设备(除非使用SSD,但它们有自己的警告),所以它们迟早会失败。

磁盘供应商倾向于将制造过程调整为尽可能便宜,因为当您生产和销售数千个磁盘时,每个磁盘节省甚至只有一分钱就非常重要。但是他们当然不希望磁盘在保修期到期之前发生故障,或者他们将一直免费更换磁盘;因此,只要保修范围覆盖他们,他们就会愉快地花尽可能多的时间来使它们持续使用……但不要多花一分钱。

最终结果是:大多数磁盘在保修期结束后往往会很快失效。当然这不是一般规则,仅是统计信息,您的磁盘现在可能会失败,也可能会持续直到您不再需要它为止……但是,从统计上讲,有许多磁盘在其几天或几个月后发生故障保修到期。

当然,在您仍然不需要时购买新产品可能会付出高昂的代价……但是,在保修期满且出现故障后更换新产品无论如何都是昂贵的。

现在,如果您可以找到一种方法使它们在仍然需要保证的情况下发生故障(并且不会丢失数据,即拥有良好的RAID 备份),那将是最佳选择;-)


2

我不会更换工作驱动器,而不会更换工作电源。两者最终都将失败,但在没有充分理由的情况下更换它们在技术上或财务上都没有意义。当它们开始出现故障迹象时,请更换它们。

对于硬盘驱动器而言,趋势是,如果驱动器将尽早发生故障,则很可能在第一年发生故障。正常运行了6年的驱动器通常可以继续至少工作几年。显然,有很多例外情况,但这是大势所趋。


1
您(通常)在电源出现故障时不会丢失数据……
Massimo 2010年

1
@Massimo-是的,但是在服务器上,当一个驱动器发生故障时,通常也不会丢失数据。我认为,如果没有冗余,那只是一个荣耀的工作站,而不是真正的服务器。
约翰·加迪尼尔

1

此外,请记住,大多数服务器类驱动器都具有更严格的制造要求,并且通常比低成本/低预算的台式机驱动器更可靠。因此,除了在可能发生故障的情况下更换“好”驱动器的危险之外,对大型阵列执行此操作可能会增加大量资金。

另外,在使用RAID时,这就是为什么在服务器中至少有一个热备用是一个好主意,因此它可以快速开始重建并保持健康,直到您根据需要购买替代产品为止。


1

我已经在“零停机时间”系统上做到了。确实,您很可能会失去另一种当RAID重建时驱动器...我交换了一次,然后又在另一个驱动器在重建过程中引发错误时将其交换回去。

确实,这是一个哲学问题:如果您相信主动压力测试(包括阵列和心血管系统),则应该更换驱动器。但是,实际上,您永远不会知道下一个驱动器将坏掉。在丢失任何较旧的,经过验证的驱动器之前,完全不可能丢失新更换的驱动器。

话虽这么说,但我会浪费时间对备份解决方案进行压力测试,并让驱动器处于正常状态,直到它们开始实际引发错误为止。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.