硬件RAID控制器缓存电池故障频率/寿命?


14

我所处的环境中有许多配备了AdaptecLSI MegaRAID硬件RAID控制器的Supermicro服务器。这些控制器包含电池供电的高速缓存模块,以帮助提高写入性能并保护传输中的数据。

常见的支持问题是RAID控制器电池故障。此偏移从阵列回写写通模式。由于系统以降低的写入速度运行,因此显然会对性能造成负面影响。这一直持续到可以建立停机时间窗口以关闭系统电源并更换电池为止。

这对我们来说是非常常规的操作;我们几乎每周都在数千台物理服务器上……我们甚至设有充电站来准备备用电池,以便可以在不进行充电周期的情况下进行更换。

也许我对HP ProLiant服务器和Smart Array RAID控制器的悠久历史宠坏了,但是HP系统的电池寿命通常为4-6年。他们最终在2009年左右取消了RAID电池的使用。它们被超级电容器支持的内存模块(闪存支持的写缓存或FBWC)所取代,不需要更换,弃置或漫长的初始充电周期。

由于我发现在使用不到 12个月的系统上有时会发生Adaptec和LSI控制器电池故障,因此我想知道这在其他环境中是否很常见。

如果这很常见,那么其他大型服务器环境如何处理呢?

  • 处理RAID电池更换有任何提示或技巧吗?
  • 是否有任何配置参数可以帮助您?
  • 这对环境中的操作有多大破坏性?
  • 机箱散热和温度差是否会成为一个因素?
  • 我们做错什么了吗?
  • Dell PERC控制器由LSI制造。戴尔环境是否会经历同样的短电池寿命?

LSI的产品资料概述了可以使用超过1年的新一代电池。 在此处输入图片说明

HP ProLiant DL585 G2服务器,具有超过1000天的正常运行时间和RAID电池供电...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

2
只是一个提示:最新一代的Adaptec控制器也使用超级电容/闪光灯而不是电池。
斯文

哦,我知道,所有的厂商都基于超级电容的解决方案现在,但考虑到现有的安装空间,很难使整个基础架构的广泛变化。
ewwhite

2
我从来没有做过这件事(可能是因为这听起来像是一个坏主意,而且我没有像您这样经常遇到此问题),但是您可以尝试在测试服务器开机时更换RAID电池。将其滑出,取下盖子,断开坏电池,然后再连接好电池,然后放回机架...如果一切顺利,您将有一个新的电池更换过程,该过程不涉及停机时间。
2013

2
@August Uhm,随着冒险过程的进行,这在“ OMG WHERD DID MY DATA GO”列表中听起来非常高。

2
是的,确实可以。。。我同意这听起来像一个可怕的主意,但是鉴于情况和无停机的要求,在测试服务器(或30台测试服务器...)上看一看是否值得可能。除了重做基础架构以不依赖成千上万台服务器中的单个RAID电池之外,还有什么选择?
2013

Answers:


9

我怀疑您的Supermicros是一种损坏的方式-电池组可能过热。最新的LSI将通过MegaCLI报告温度-您可能希望在需要更换的服务器上监视该值。

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

我见过几个带有LSI BBU控制器的Dell和Fujitsu系统,它们都没有每年更换电池组的情况(除非您通过深度放电将电池组弄坏了)。典型的使用寿命约为3至5年。


4
我想补充一点,除非系统明确标明授权热更换RAID的BBU,我不会尝试。我从未见过需要每年更换RAID缓存电池的系统。3-5年是典型的使用寿命。
voretaq7

我想你明白了!
ewwhite

1

平均电池寿命应为3-5年。并且不要忘记基于闪存的FBWC也将失败。我不知道为什么/如何,但是我们会定期在HP服务器上更换它们。我的寿命应该比电池更长,但是我没有来自各个服务器的统计信息。

防止电池故障和电池学习失败的标准方法是使用多个电池。这就是HP存储器(如HP EVA)的存储方式。您有2个热插拔电池,其中一个电池电量低或正在被更换时,控制器将与剩余的电池一起工作。我不确定是否可以将多个电池连接到SmartArray,但是hpacucli diag输出表明应该支持它:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

1

我对LSI平台的IBM版本进行了数百次安装,我的经验是,平均电池仅能使用2年,而且超级电容也不是更好,其中一些可以通过固件更新来解决,但是LSI却没有对。在最初的2年中,我有大约75%的超级电容失败。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.