Answers:
Google对磁盘驱动器进行了研究,发现磁盘寿命与故障之间的关联很小。SMART测试也不会显示失败。
我的本地观测值(> 500台服务器)是相似的。我的新磁盘很快就失效了,而旧磁盘仍在运转。
我的一般规则是,如果我们看到磁盘问题(SMART或系统错误),我们将立即更换它。如果不是,则服务器运行时驱动器将被循环淘汰。
没有。
更换活动生产服务器上的硬盘驱动器的最大问题之一是,这样做将触发重建。尤其是在使用RAID5的情况下,尤其是在使用大型驱动器的情况下,强制进行重建会带来无法恢复故障的极大风险。在重建过程中丢失阵列的风险远远大于将已使用3年的驱动器保留在原位的风险。
举一个极端的例子,如果您连续替换由2TB磁盘组成的6磁盘RAID5阵列中的每个磁盘,则在一次重建期间发生不可恢复的读取错误的理论风险大约为58%(根据我的餐巾纸数学;请自己动手比较笔记)。换句话说:您的“预防性”磁盘替换实际上是破坏活动。
我唯一考虑在旧服务器中刷新驱动器的时间是在“翻新”它的过程中,例如,从一项任务中退役之后,然后以新角色将其重新投入使用。即使到那时,容量和性能的要求也要比驱动器的寿命更为重要。