SAN上是否有“强制性”可用空间?


8

我不是SAN的专家,我在这里写这篇文章是为了寻求一些有关我们所遇到的持续不断的,令人发指的问题的线索,而我们的供应商似乎无法解决这些问题。

我们拥有一个带有16 x 2 Tb磁盘的ENHANCE ES3160P4 SAN,该磁盘已为我们的视频监控系统提供。供应商已将SAN配置为在RAID 5阵列中使用14个磁盘,其中2个磁盘是全局备用磁盘。RAID通常分为两个大小相等的虚拟磁盘,它们跨整个RAID空间。每个结果都超过12 Tb。每个虚拟磁盘对应于一个LUN,该LUN附加到单个视频服务器,该服务器连续存储视频数据,并允许用户在需要时检索记录。LUN使用NTFS格式化,并通过iSCSI附加到Windows Server 2012视频服务器。视频服务器往往会充分利用其拥有的可用空间。

使用此配置,SAN的磁盘会出现故障,并且每次SAN都无法恢复RAID时,因为与此同时另一个磁盘发生了故障。在过去的几个月中,我们丢失了RAID大约4次。

这个问题似乎不是由不良的SAN样本引起的,因为我们拥有配置类似类型的其他三台计算机,它们似乎也存在相同的问题。只有一个没有问题,但目前未得到充分利用。

经过几个月的未知测试和检查后,供应商最终说众所周知,SAN不应100%使用,否则它将在物理上快速降级,并表示要解决此问题,应创建虚拟磁盘保留RAID中可用总空间的10-15%。

我在网上搜索了问题,但没有找到具体的说法。在我看来,创建跨越整个RAID的虚拟磁盘,然后使用不足的LUN(即允许Windows有可用空间并避免碎片),将是更合理的选择。如果不是这样,我不明白为什么ENHANCE SAN可以创建跨越整个RAID的虚拟磁盘(如果众所周知),因此必须保留一些可用空间,以及为什么供应商会在一开始就这样配置系统...但这是另一点。

最后,我们要解决这种情况。任何建议都可以接受。如上所述,我不是SAN专家,但是在遇到了许多问题之后,我想真正了解供应商是否知道发生了什么,因为我们再也无法接受这种情况了。

提前谢谢了!问候

编辑:磁盘类型 从答案来看,它似乎是相关的信息,我补充说磁盘都是Western Digital型号WD2001FYYG-01SL3。


3
任何经过适当设计的系统,如果需要保留空间以正常运行,将保留空间而不提供供客户使用。快照可能需要空间,而写时复制文件系统则需要空间,但是通常出于这些目的而保留的空间很小。至少默认情况下,如果用户愿意冒险,当然可以将其覆盖。
ptman

至少磁盘看起来不错,它们是24/7 SAS磁盘,但它们不应该经常发生故障……
Sven

4
iossue不是自由空间,它是一个愚蠢的配置。Raid 5中的14张光碟并非每次数学都稳定,就这么简单。甚至突袭6可能会征税。通常-用2TB光盘进行的突袭统计上不稳定。期。
TomTom

1
@TomTom:如果您认为这是简单的数学,请回答显示数学的问题。我的餐巾纸数学家说,如果读取13 * 2TB来重建降级的阵列不太可能失败,则阵列是稳定的。RAID 6当然更好,如果重建不太可能遇到双重故障,则RAID 6是稳定的。
MSalters 2015年

4
With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.正如TomTom所说,这正是因为磁盘太大而无法使用RAID5。FWIW也可能是RAID 6。您成功进行重建的几率远非100%,您之所以知道这一点,是因为您自己说自己在几个月内就完成了“ 4次”的重建失败。您的RAID配置很愚蠢,您的供应商不称职,就这么简单。
HopelessN00b

Answers:


10

根据您的描述,主要问题是他们决定将RAID5用于如此大的阵列,对于这种设置而言,这是一个非常糟糕的选择,这正是您遇到的原因:恢复期间第二个磁盘发生故障会破坏一切,而第二次失败很可能会冒这个风险。

如果他们使用的是RAID6,则在恢复过程中发生第二个磁盘故障不会导致阵列出现故障,并且恢复可以正常进行,而代价是一个磁盘的净存储容量和一定的性能影响。

我看不到如何留出15%的可用空间完全可以解决此问题,尽管从文件系统的性能角度来看这可能不是一个好主意,但这显然与RAID失败无关。我对此说废话。

话虽如此,我不禁要问:即使对于RAID5系统,在几个月的时间内多次发生这种情况似乎也太多了。我建议调查使用的磁盘类型-可能是您的供应商使用了便宜的台式机驱动器,而不是经认证可在这种系统中使用的24/7驱动器。


感谢您的投入。我编辑了添加磁盘类型的问题。
z2k 2015年

2

我完全理解这是一篇过时的文章,但是随着我继续看到生产中的大型RAID5阵列,我想在这里补充一下我的想法。

  • 磁盘经常发生故障通常是过热和/或振动过大的情况,这可以在设计欠佳的系统或错误的位置上找到

  • 应该强烈避免使用如此大的RAID5阵列。作为一般规则,是很多最好有一个RAID6阵列,而不是一个RAID5 +热备份之一。在OP情况下,与其在RAID6配置中使用2x奇偶校验磁盘更好,不如使用1x奇偶校验磁盘和2x全局热备用。

  • 拥有一个可靠的错误和状态报告系统的关键是:不知不觉中性能下降,不受监控的阵列是灾难的根源。


继续在生产中看到大型RAID5阵列 “更大必须更好!”,对吗?我还补充说,这样大的阵列具有太可怕了表现一般,由于较差的几何形状,并从同一阵列共享多个LUN之间的竞争,即使阵列与RAID6建。IME推荐的最大阵列大约是4 + 1 RAID5和8 + 2 RAID6。一些高端控制器可能会掩盖较大阵列的一些性能问题,但是最好的控制器永远无法帮助您重建时间。
安德鲁·亨利
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.