我所处的环境中有许多配备了Adaptec和LSI MegaRAID硬件RAID控制器的Supermicro服务器。这些控制器包含电池供电的高速缓存模块,以帮助提高写入性能并保护传输中的数据。
常见的支持问题是RAID控制器电池故障。此偏移从阵列回写到写通模式。由于系统以降低的写入速度运行,因此显然会对性能造成负面影响。这一直持续到可以建立停机时间窗口以关闭系统电源并更换电池为止。
这对我们来说是非常常规的操作;我们几乎每周都在数千台物理服务器上……我们甚至设有充电站来准备备用电池,以便可以在不进行充电周期的情况下进行更换。
也许我对HP ProLiant服务器和Smart Array RAID控制器的悠久历史宠坏了,但是HP系统的电池寿命通常为4-6年。他们最终在2009年左右取消了RAID电池的使用。它们被超级电容器支持的内存模块(闪存支持的写缓存或FBWC)所取代,不需要更换,弃置或漫长的初始充电周期。
由于我发现在使用不到 12个月的系统上有时会发生Adaptec和LSI控制器电池故障,因此我想知道这在其他环境中是否很常见。
如果这很常见,那么其他大型服务器环境如何处理呢?
- 处理RAID电池更换有任何提示或技巧吗?
- 是否有任何配置参数可以帮助您?
- 这对您环境中的操作有多大破坏性?
- 机箱散热和温度差是否会成为一个因素?
- 我们做错什么了吗?
- Dell PERC控制器由LSI制造。戴尔环境是否会经历同样的短电池寿命?
LSI的产品资料概述了可以使用超过1年的新一代电池。
HP ProLiant DL585 G2服务器,具有超过1000天的正常运行时间和RAID电池供电...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK