我有一台作为NexentaStor存储单元运行的HP ProLiant DL380 G7服务器。该服务器具有36GB RAM,2个LSI 9211-8i SAS控制器(无SAS扩展器),2个SAS系统驱动器,12个SAS数据驱动器,热备用磁盘,Intel X25-M L2ARC高速缓存和DDRdrive PCI ZIL加速器。该系统将NFS提供给多个VMWare主机。我在阵列上还有大约90-100GB的重复数据删除数据。
我有两次事件突然导致性能下降,使VM guest虚拟机和Nexenta SSH / Web控制台无法访问,并且需要完全重启阵列以恢复功能。在这两种情况下,都是英特尔X-25M L2ARC SSD发生故障或“脱机”。NexentaStor未能向我发出有关缓存故障的警报,但是在(无响应)控制台屏幕上可以看到常规的ZFS FMA警报。
该zpool status
输出显示:
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
这并未触发Nexenta内部的任何警报。
我的印象是L2ARC故障不会影响系统。但是在这种情况下,肯定是罪魁祸首。我从未见过对RAID L2ARC的任何建议。完全从服务器上删除坏的SSD会使我重新运行,但是我担心设备故障的影响(也许还缺少NexentaStor的通知)。
编辑 -目前,用于L2ARC缓存应用程序的最佳选择是什么?