ZFS-L2ARC缓存设备故障的影响(Nexenta)


10

我有一台作为NexentaStor存储单元运行HP ProLiant DL380 G7服务器。该服务器具有36GB RAM,2个LSI 9211-8i SAS控制器(无SAS扩展器),2个SAS系统驱动器,12个SAS数据驱动器,热备用磁盘,Intel X25-M L2ARC高速缓存和DDRdrive PCI ZIL加速器。该系统将NFS提供给多个VMWare主机。我在阵列上还有大约90-100GB的重复数据删除数据。

我有两次事件突然导致性能下降,使VM guest虚拟机和Nexenta SSH / Web控制台无法访问,并且需要完全重启阵列以恢复功能。在这两种情况下,都是英特尔X-25M L2ARC SSD发生故障或“脱机”。NexentaStor未能向我发出有关缓存故障的警报,但是在(无响应)控制台屏幕上可以看到常规的ZFS FMA警报。

在此处输入图片说明

zpool status输出显示:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

这并未触发Nexenta内部的任何警报。

我的印象是L2ARC故障不会影响系统。但是在这种情况下,肯定是罪魁祸首。我从未见过对RAID L2ARC的任何建议。完全从服务器上删除坏的SSD会使我重新运行,但是我担心设备故障的影响(也许还缺少NexentaStor的通知)。

编辑 -目前,用于L2ARC缓存应用程序的最佳选择是什么?


您的SSD或SATA端口是否有硬件问题?
tegbains 2011年

这是HP SAS背板。我从未见过在许多(Linux)部署中出现故障或遇到麻烦,但是我很确定该故障是所使用的消费类SSD的功能。我可以接受失败,但是对其余磁盘和整个存储系统的影响是更大的问题。
ewwhite 2011年

值得注意的是,由于更高版本的英特尔固件存在问题,Pogo Linux(据我所知是Nexenta最大的集成商/经销商)不再提供Intel X25设备作为L2ARC或ZIL的选件。
鹰队

推荐的替代品是(品牌,型号,价格)?
ewwhite 2011年

1
顺便说一下,新的Intel 320系列作为L2ARC甚至ZIL设备可能会很有趣:它是由电容器支持的,尽管写续航能力有限(取决于型号,高达60 TB),但剩余的磨损百分比可以可以使用SMART属性E9(从100开始,递减至1)进行跟踪。我怀疑许多ZFS用户可以根据需要频繁更换该设备,以防止E9接近1,而累积费用甚至无法达到同等大小的SLC驱动器的成本。
鹰队

Answers:


10

ZFS不执行磁盘I / O,ZFS下的设备驱动程序执行磁盘I / O。如果该设备没有及时响应,或者在这种情况下破坏了扩展器上的所有其他设备,则不会将其视为ZFS的故障。ZFS看到的只是一个缓慢的I / O。

英特尔X-25M固件中存在一个错误,该错误会影响它们在重负载期间的行为并可能导致重置风暴。此问题影响所有操作系统,并且无法在操作系统层解决。请与您的硬件供应商联系以进行修复或修复。

如果L2ARC希望满足读取要求,那么将在此处尝试读取。ZFS然后依靠下层驱动程序来报告错误。在这种情况下,驱动器会继续重置并重试5分钟,然后再将I / O声明为失败,具体取决于驱动程序,设备和默认超时设置。只有在下层驱动程序将I / O声明为失败之后,ZFS才会在池上重试。

NexentaStor的容量检查和磁盘检查运行程序会查找其他错误消息,并通过电子邮件和故障记录提醒您。磁盘检查运行程序在3.1发行版中进行了改进,可以帮助您特别警告固态硬盘中损坏的固件所表现出的状况。

底线:您的硬件有故障,需要修复或更换。


2
谢谢。因此,我将不再使用Intel X-25。我想通过测试,推荐一种新的L2ARC SSD设备来代替它。
ewwhite 2011年

3

您是否将X25-M SSD连接到背板?Nexenta和通过背板访问L2ARC存在一个已知问题。最好的选择是将SSD直接连接到主板上的SATA端口。确保将其配置为也使用AHCI。

如果您正在此服务器上运行任何关键任务,我将切换到SLC SSD(例如X25-E或STEC SSD)。话虽这么说,否则X25-M可能会没事的。


是的,我正在通过普通的驱动器托架进行连接。我在其他安装中使用了与L2ARC运行相同的Intel SSD(在Sun和HP硬件中)。但是,这个特殊的问题给我带来了麻烦。我的研究似乎表明,L2ARC不需要像ZIL一样强大(因此使用了基于SLC和PCI的ZIL解决方案以及用于L2ARC的消费者驱动器)。这改变了吗?
ewwhite 2011年

我会尝试将SSD直接插入主板,看看是否可行。如果您有备用的X25-M,可以尝试更换当前的X25-M,然后查看SSD本身是否损坏。在SLC SSD上:这取决于您的风险级别。如果您在永不停机且必须快速运行的SLA上运行软件,则购买高端SSD可能会更便宜。
zippy

我想说的是,我在网上看到的大多数文章和讨论都推荐将Intel X25-M用于L2ARC。如果情况不再如此,首选的设备是什么?
ewwhite 2011年

1
@ewwhite:从理论上讲,L2ARC设备的故障应该是无中断的,因为ZFS可能会退回到读取磁盘的位置(显然,性能会受到影响)。在实践中,听起来好像您遇到了由SSD行为触发的ZFS或scsi驱动程序错误。
Tom Shaw

1
@ewwhite:我可能应该给您一些更实际的建议。如果您想在下次系统楔入时生成系统崩溃转储,请按照此处的说明进行操作。这种转储可能对Illumos开发人员有用。
汤姆·肖

0

埃德(Ed),您可以使用的价格从相对合理的价格到相当昂贵的价格都有。我更喜欢在所有情况下都部署SAS SSD,并且STEC和Pliant都做得很好。两家公司现在都提供了MLC驱动器,该驱动器将使用L2ARC设备而闻名。尚未经过测试,但即将推出的是希捷提供的SLC SAS 2.0 SSD产品,据传它“不算贵”。敬请关注....

-PB

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.