我是否需要第二个RAID控制器以实现容错?


9

我有一台装有3个硬盘驱动器的服务器,总容量为6个。我们正计划将其最大化,但我们的顾问还建议使用第二个RAID控制器“冗余”以支持新驱动器。对我来说,这没有多大意义。即使第二个RAID控制器运行一半的磁盘,但如果其中一个控制器死了,我们仍然只保留一半的磁盘/程序/数据(这比不运行一个磁盘要好得多)。我们将vmware放在服务器上,他含糊地提到了一些高级的容错/故障转移功能,但是如果由于控制器故障而无法访问磁盘,那么应该如何工作?

仅考虑冗余而不是性能的原因,为什么要在服务器中使用第二个RAID控制器?


我看到了一个历史记录,当时只有一个RAID控制器发生故障,这使得它只能单独维护的多磁盘高RAID存储不仅无法使用,而且甚至在那里的所有数据都无法恢复。这对公司是沉重的打击。最终,大多数数据都是从工作站中的文件中重建的。太丢人了。总是在带有明显另一个控制器的独立磁盘群集上镜像数据。如果您依靠一张在多年运行7/24时会发热80°C的小型卡,则永远不要假设RAID 6将在所有情况下挽救您的生命。
h22

Answers:


11

是的,在“单盒高可用性”设计中,您需要第二个控制器,理想情况下也要在第二个总线上。但是,这种方法已经让位于基于集群的廉价设计,而单一集群的故障不会停止服务。因此,这取决于您是打算使用集群环境还是依赖单个设备。即使您的答案是后者具有双控制器,也可能会被视为增加了额外的复杂性,并且可能会过大。

编辑-根据您对在另一个问题上使用ESXi的评论,我不得不说它的集群非常棒,我们有许多32路集群可以很好地运行。


AFAIK,我们将不使用集群。一个盒子里的第二个控制器对我有什么好处?是否存在控制器故障转移之类的问题?
Bigbio2002 2011年

1
在ESX / ESXi世界中不是,不是-一个就可以了,请确保您有一个控制器,该控制器可以构成所有6个磁盘的一个大R10阵列,但可以创建2TB(或更少)的逻辑磁盘。惠普的Pxxx系列让您顺其自然。
斩波器

7

主动使用的第二个RAID控制器不是为了冗余。仅当它是冷备用控制器时,当第一个磁盘死时,您会将所有磁盘切换到该磁盘。这样就具有冗余(对于控制器)。但请注意,如此处所述

因此,RAID用于磁盘冗余,从而导致控制器出现单点故障。使用第二个(未使用的)控制器可以解决此问题,因为您可以将所有磁盘切换到新磁盘。如果可行,则取决于其他因素...

我不是母语人士,但是对我来说,“容错”与“冗余”有所不同。会说英语的人可以帮我吗?


冗余是一种实现容错的方法:)。我一直在寻找类似于冷备用或故障转移控制器的产品。这是受支持的功能,还是我必须手动更换卡?
Bigbio2002 2011年

我从未见过自动切换磁盘的控制器。这是因为我没有寻找它,或者是因为我无法想象您应该如何在一个磁盘和两个控制器之间连接电缆。
mailq

双端口驱动器在企业环境中很常见(想想SAN架子),但是价格显然上涨了2或3倍。
适配器

3

在一个盒子上,实际上需要两个 RAID控制器,它们连接到两个不同的PCI-E根联合体,以具有完整的I / O子系统冗余。这可以通过两种不同的配置来实现:

  • 使用昂贵的双端口SAS磁盘,并且每个SAS链接都连接到不同的控制器。以这种方式,每个控制器都连接到每个磁盘。显然,两个控制器不能同时在磁盘上运行;必须采用某种形式的锁定/围栏来协调对磁盘的访问。SCSI有一些特殊规定可提供必要的防护机制,但是必须由适当的软件进行协调。换句话说,您不能简单地将一个磁盘连接到两个控制器并称其为“一天”。相反,您需要适当的软件配置才能使其正常工作。
  • 使用普通且便宜的单链接SAS / SATA磁盘,将其中的一半连接到每个控制器。例如,对于6个磁盘,您需要将3个磁盘连接到一个控制器,将3个磁盘连接到另一个控制器。在每个控制器上,根据需要配置RAID阵列(例如:RAID 5或RAID1)。然后,在操作系统级别,您可以在两个磁盘阵列之间配置软件RAID,以实现完整的阵列冗余。尽管价格便宜,但该解决方案的另一个缺点是有效地减少了存储容量(由于软件RAID1级别)。

两种方法的关键问题是您没有完整的系统冗余:主板/ CPU问题可以使整个系统瘫痪,而与您拥有多少控制器/磁盘无关。

因此,最近很少使用这种一体式冗余(中/高端SAN部署除外);相反,群集/网络镜像正在获得广泛的关注。使用群集(或网络镜像),您可以拥有完整的系统冗余,因为单个故障系统无法否定数据访问。显然,集群有其自身的陷阱,因此它不是万灵药,但是在某些情况下,它的优势是不可否认的。此外,您还可以使用异步网络镜像在地理位置不同的位置上实现几乎实时的数据冗余,因此单个灾难性事件不会对您的数据造成破坏。


对于某些类型的数据,仅更新一半的副本(因为中途同步失败)可能无法使用。数据库是典型的示例,但也包含各种源代码和数据集,其中包含大量相互依赖的小文件。
h22

它取决于基础复制机制。例如,DRBD允许使用完全(协议C)或接近完全(协议B)的同步复制。这意味着,当在源主机上确认写入时,实际上也会在远程主机上落实该写入。换句话说,在两个主机上都遵守写入障碍。有了这样的保证,任何健壮的文件系统/数据库都应该没有问题地恢复。
shodanshok '16

是的,某些数据库支持复制,而另一些应用程序也支持。这些显然很容易使用。
h22

1

您需要双端口SAS驱动器才能在多个控制器上提供实际的故障转移。尽管它们确实存在,但绝对是便宜的-不在只有内部存储的单个服务器的价格范围内。

这些是SAN系统中经常使用的技术,其中控制器故障是一个实际问题。

对于没有其他故障转移功能的单个服务器,第二个控制器将不会获得任何收益-它只会花费更多的钱并为顾问提供更多的利润。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.