ZFS-L2ARC缓存设备故障的影响（Nexenta）

我有一台作为NexentaStor存储单元运行的HP ProLiant DL380 G7服务器。该服务器具有36GB RAM，2个LSI 9211-8i SAS控制器（无SAS扩展器），2个SAS系统驱动器，12个SAS数据驱动器，热备用磁盘，Intel X25-M L2ARC高速缓存和DDRdrive PCI ZIL加速器。该系统将NFS提供给多个VMWare主机。我在阵列上还有大约90-100GB的重复数据删除数据。

我有两次事件突然导致性能下降，使VM guest虚拟机和Nexenta SSH / Web控制台无法访问，并且需要完全重启阵列以恢复功能。在这两种情况下，都是英特尔X-25M L2ARC SSD发生故障或“脱机”。NexentaStor未能向我发出有关缓存故障的警报，但是在（无响应）控制台屏幕上可以看到常规的ZFS FMA警报。

在此处输入图片说明

该zpool status输出显示：

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

这并未触发Nexenta内部的任何警报。

我的印象是L2ARC故障不会影响系统。但是在这种情况下，肯定是罪魁祸首。我从未见过对RAID L2ARC的任何建议。完全从服务器上删除坏的SSD会使我重新运行，但是我担心设备故障的影响（也许还缺少NexentaStor的通知）。

编辑 -目前，用于L2ARC缓存应用程序的最佳选择是什么？

— 怀特
source

您的SSD或SATA端口是否有硬件问题？

— tegbains 2011年

这是HP SAS背板。我从未见过在许多（Linux）部署中出现故障或遇到麻烦，但是我很确定该故障是所使用的消费类SSD的功能。我可以接受失败，但是对其余磁盘和整个存储系统的影响是更大的问题。

— ewwhite 2011年

值得注意的是，由于更高版本的英特尔固件存在问题，Pogo Linux（据我所知是Nexenta最大的集成商/经销商）不再提供Intel X25设备作为L2ARC或ZIL的选件。

— 鹰队

推荐的替代品是（品牌，型号，价格）？

— ewwhite 2011年

顺便说一下，新的Intel 320系列作为L2ARC甚至ZIL设备可能会很有趣：它是由电容器支持的，尽管写续航能力有限（取决于型号，高达60 TB），但剩余的磨损百分比可以可以使用SMART属性E9（从100开始，递减至1）进行跟踪。我怀疑许多ZFS用户可以根据需要频繁更换该设备，以防止E9接近1，而累积费用甚至无法达到同等大小的SLC驱动器的成本。

— 鹰队

Answers:

ZFS不执行磁盘I / O，ZFS下的设备驱动程序执行磁盘I / O。如果该设备没有及时响应，或者在这种情况下破坏了扩展器上的所有其他设备，则不会将其视为ZFS的故障。ZFS看到的只是一个缓慢的I / O。

英特尔X-25M固件中存在一个错误，该错误会影响它们在重负载期间的行为并可能导致重置风暴。此问题影响所有操作系统，并且无法在操作系统层解决。请与您的硬件供应商联系以进行修复或修复。

如果L2ARC希望满足读取要求，那么将在此处尝试读取。ZFS然后依靠下层驱动程序来报告错误。在这种情况下，驱动器会继续重置并重试5分钟，然后再将I / O声明为失败，具体取决于驱动程序，设备和默认超时设置。只有在下层驱动程序将I / O声明为失败之后，ZFS才会在池上重试。

NexentaStor的容量检查和磁盘检查运行程序会查找其他错误消息，并通过电子邮件和故障记录提醒您。磁盘检查运行程序在3.1发行版中进行了改进，可以帮助您特别警告固态硬盘中损坏的固件所表现出的状况。

底线：您的硬件有故障，需要修复或更换。

— 理查德·艾林（Richard Elling）
source

谢谢。因此，我将不再使用Intel X-25。我想通过测试，推荐一种新的L2ARC SSD设备来代替它。

— ewwhite 2011年

您是否将X25-M SSD连接到背板？Nexenta和通过背板访问L2ARC存在一个已知问题。最好的选择是将SSD直接连接到主板上的SATA端口。确保将其配置为也使用AHCI。

如果您正在此服务器上运行任何关键任务，我将切换到SLC SSD（例如X25-E或STEC SSD）。话虽这么说，否则X25-M可能会没事的。

— 邮编
source

是的，我正在通过普通的驱动器托架进行连接。我在其他安装中使用了与L2ARC运行相同的Intel SSD（在Sun和HP硬件中）。但是，这个特殊的问题给我带来了麻烦。我的研究似乎表明，L2ARC不需要像ZIL一样强大（因此使用了基于SLC和PCI的ZIL解决方案以及用于L2ARC的消费者驱动器）。这改变了吗？

— ewwhite 2011年

我会尝试将SSD直接插入主板，看看是否可行。如果您有备用的X25-M，可以尝试更换当前的X25-M，然后查看SSD本身是否损坏。在SLC SSD上：这取决于您的风险级别。如果您在永不停机且必须快速运行的SLA上运行软件，则购买高端SSD可能会更便宜。

— zippy

我想说的是，我在网上看到的大多数文章和讨论都推荐将Intel X25-M用于L2ARC。如果情况不再如此，首选的设备是什么？

— ewwhite 2011年

@ewwhite：从理论上讲，L2ARC设备的故障应该是无中断的，因为ZFS可能会退回到读取磁盘的位置（显然，性能会受到影响）。在实践中，听起来好像您遇到了由SSD行为触发的ZFS或scsi驱动程序错误。

— Tom Shaw

@ewwhite：我可能应该给您一些更实际的建议。如果您想在下次系统楔入时生成系统崩溃转储，请按照此处的说明进行操作。这种转储可能对Illumos开发人员有用。

— 汤姆·肖

埃德（Ed），您可以使用的价格从相对合理的价格到相当昂贵的价格都有。我更喜欢在所有情况下都部署SAS SSD，并且STEC和Pliant都做得很好。两家公司现在都提供了MLC驱动器，该驱动器将使用L2ARC设备而闻名。尚未经过测试，但即将推出的是希捷提供的SLC SAS 2.0 SSD产品，据传它“不算贵”。敬请关注....

-PB

— 保利
source