服务器管理员 hardware-raid

8

序幕：我是一个代码猴子，越来越多地为我的小公司承担SysAdmin的职责。我的代码是我们的产品，越来越多的我们提供与SaaS相同的应用程序。大约18个月前，我将服务器从以高级托管为中心的供应商转移到了IV级数据中心的准系统机架推动器中。（实际上是在街对面。）这项工作自己做得更多—诸如网络，存储和监视之类的事情。作为一项重大举措，为了替代托管公司租赁的直接连接存储，我构建了一个9TB两节点NAS，该NAS基于SuperMicro机箱，3ware RAID卡，Ubuntu 10.04，两打SATA磁盘，DRBD和。这一切都在三篇博客文章中得到了详尽记录：建立和测试新的9TB SATA RAID10 NFSv4 NAS：第一部分，第二部分和第三部分。我们还建立了一个默认监视系统。最近，我们一直在添加越来越多的数据点，例如SMART值。没有ServerFault 令人敬畏的 boffins ，我无法完成所有这些工作。这是一次有趣的教育经历。我的老板很高兴（我们节省了$ 5的装箱费），我们的客户很高兴（存储成本降低了），我很开心（乐趣，有趣，有趣）。直到昨天中断与恢复：午餐后的一段时间，我们开始从我们的应用程序（按需流媒体CMS）中收到有关性能下降的报告。大约在同一时间，我们的仙人掌监测系统发送了大量电子邮件。更具说服力的警报之一是iostat等待图。性能变得如此差，以致Pingdom开始发送“服务器停机”通知。总体负载适中，没有流量高峰。登录到NAS的NFS客户端的应用程序服务器后，我确认几乎所有内容都经历了高度间歇性的IO等待时间。当我跳到主要NAS节点本身时，在尝试导航问题阵列的文件系统时，同样的延迟显而易见。是时候进行故障转移了，一切顺利。在20分钟之内，所有内容都被确认可以正常运行。事后：在任何系统故障后，我都会进行事后检查以确定故障原因。我要做的第一件事是将ssh重新插入框中并开始查看日志。完全离线。前往数据中心的时间。硬件重置，备份并运行。在/var/syslog我发现这个可怕的条目： Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_00], 6 Currently unreadable (pending) sectors Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_07], SMART Prefailure Attribute: …

103 performance hard-drive hardware-raid sata sas

6

为什么RAID 0在没有冗余时被归类为RAID？

我已经在IT部门工作了很多年，所以我知道RAID阵列是什么，RAID 0是什么，RAID 1、5、6、10、50、60等，但是最近出现了一些事情工作中的谈话；如果RAID代表独立（或廉价）磁盘的冗余阵列，那么RAID 0为何被归为RAID，而不仅仅是带状阵列？在一个阵列上跨多个磁盘对数据进行条带化不会提供任何冗余，那么为什么将其归类为RAID阵列呢？当然，最低数目应该是RAID 1（镜像），因为那是冗余真正开始的时候？

32 raid software-raid hardware-raid raid0

6

硬件RAID的ZFS最佳做法

如果恰好有一些服务器级硬件可供使用，是否建议在基于硬件的RAID1或类似硬件上运行ZFS？是否应该关闭基于硬件的RAID，然后在a mirror或a 上运行ZFS raidz zpool？关闭硬件RAID功能后，与非硬件RAID控制器相比，基于硬件RAID的SATA2和SAS控制器是否更可能隐藏读写错误？对于不可定制的服务器，如果存在一种情况，其中硬件RAID控制器实际上是成本中立的（甚至降低了预建服务器产品的成本，因为它的存在会提高托管公司提供补充IPMI的可能性）访问），应该完全避免吗？但是应该追寻吗？

30 zfs hardware-raid sas sata hardware

3

Linux-实际硬件RAID控制器调整（scsi和cciss）

我管理的大多数Linux系统都具有硬件RAID控制器（主要是HP Smart Array）。他们都在运行RHEL或CentOS。我正在寻找现实世界中的可调参数，以帮助优化设置的性能，这些设置将硬件RAID控制器与SAS磁盘（智能阵列，Perc，LSI等）和电池后备或闪存后备缓存结合在一起。假设RAID 1 + 0和多个主轴（4+个磁盘）。我花了大量时间为低延迟和金融交易应用程序调整Linux网络设置。但是，这些选项中的许多选项都有充分的文档记录（更改发送/接收缓冲区，修改TCP窗口设置等）。工程师在存储方面正在做什么？从历史上看，我对I / O调度电梯进行了更改，最近选择了deadline和noop调度程序来提高应用程序的性能。随着RHEL版本的发展，我还注意到SCSI和CCISS块设备的已编译默认值也已更改。随着时间的推移，这对建议的存储子系统设置产生了影响。但是，自从我看到任何明确的建议以来已经有一段时间了。而且我知道操作系统默认设置不是最佳的。例如，对于服务器级硬件上的部署而言，默认的128kb预读缓冲区似乎很小。以下文章探讨了在块队列上更改预读缓存和nr_requests值对性能的影响。 http://zackreed.me/articles/54-hp-smart-array-p410-controller-tuning http://www.overclock.net/t/515068/tuning-a-hp-smart-array-p400-with -linux-why-tuning-really-matters http://yoshinorimatsunobu.blogspot.com/2009/04/linux-io-scheduler-queue-size-and.html 例如，建议对HP Smart Array RAID控制器进行以下更改： echo "noop" > /sys/block/cciss\!c0d0/queue/scheduler blockdev --setra 65536 /dev/cciss/c0d0 echo 512 > /sys/block/cciss\!c0d0/queue/nr_requests echo 2048 > /sys/block/cciss\!c0d0/queue/read_ahead_kb 还有什么可以可靠地调整以提高存储性能的？我在生产方案中专门寻找sysctl和sysfs选项。

29 storage hp hardware-raid performance-tuning hp-smart-array

5

BBWC：从理论上讲，这是个好主意，但是有没有人保存过您的数据？

我熟悉BBWC（电池支持的写缓存）的用途-甚至在使用优质UPS的情况下，它们也曾在我的服务器中使用过。显然存在无法提供保护的故障。我很好奇它在实践中是否真正提供了任何真正的好处。（注意，我特别在寻找患有BBWC且发生车祸/故障以及BBWC是否有助于恢复的人的答复）更新资料收到反馈后，我越来越怀疑BBWC是否会带来任何价值。为了对数据完整性有信心，文件系统必须知道何时将数据提交到非易失性存储（不一定是磁盘，这是我将要谈到的问题）。值得注意的是，将数据提交到磁盘后，会出现许多磁盘（http://brad.livejournal.com/2116715.html）。尽管可以合理地认为禁用磁盘上的缓存可能会使磁盘更老实，但仍然不能保证确实如此。由于BBWC中的缓冲区通常过大，因此屏障可能需要将更多数据提交到磁盘，从而导致写入延迟：一般建议是在使用非易失性回写高速缓存时禁用屏障（并禁用on-磁盘缓存）。但是，这似乎破坏了写操作的完整性-仅因为非易失性存储中保留了更多数据并不意味着它会更加一致。确实，可以说在逻辑事务之间不进行划分，与其他方式相比，确保一致性的机会似乎更少。如果BBWC在数据进入其非易失性存储（而不是提交到磁盘）的那一刻承认障碍，那么它似乎可以满足数据完整性要求而不会降低性能-意味着仍应启用障碍。但是，由于这些设备通常表现出与将数据刷新到物理设备一致的行为（带有障碍的速度明显较慢）以及禁用障碍的广泛建议，因此它们无法以此方式运行。为什么不？如果将OS中的I / O建模为一系列流，则在某种程度上可以最大程度地减小由OS管理写缓存时的写屏障的阻塞效果-因为在此级别仅逻辑事务（单个流））需要承诺。另一方面，一个不知道构成事务的数据位的BBWC必须将其整个缓存提交到磁盘。内核/文件系统是否实际上在实践中实现了这一点，将比我目前打算投入的工作多得多。磁盘组合会告诉故障发生了什么，并且突然断电无疑会导致损坏-以及日记或日志结构化的文件系统在中断后无法完全执行fsck的情况下，更不可能发现损坏的发生，更不用说试图修复它。就故障模式而言，根据我的经验，大多数突发性停电是由于市电中断而造成的（通过UPS和管理性关机可以轻松缓解）。人们将错误的电缆从机架中拔出，意味着数据中心的卫生性很差（标签和电缆管理）。UPS不能阻止某些类型的突然断电事件-PSU或VRM中的故障，带有障碍物的BBWC在发生故障时将提供数据完整性，但是这种事件有多普遍？从这里缺乏回应来看非常罕见。当然，将容错能力提高到更高的堆栈中比使用BBWC的成本要高得多-但是将服务器实现为群集对于性能和可用性还有很多其他好处。减轻突然断电的影响的另一种方法是实施SAN-AoE使这成为一个可行的方案（我对iSCSI的意义不大），但同样存在更高的成本。

26 storage hardware-raid disaster-recovery bbwc

7

如何使用CentOS 6监控Dell PERC H710 Raid Controller背后的硬盘状态？

我有一个CentOS 6使用PERC H710Raid 5设置的Raid Controller卡运行的Dell服务器，我想监视Raid Controller背后的硬盘故障/工作状态。然后，我应该能够使用bash脚本监视硬盘状态，并在出现问题时发送警报电子邮件。用于CentOS / Red Hat / Linux 的LSI MegaRAID SAS命令工具（关于LSI MegaRAID SAS Linux工具）不支持PERC H710，并且smartctl也不支持。基于Dell网站，CentOS此服务器（NX3200 PowerVault）不支持IS，并且我无法下载任何Linux程序来监视硬盘。 [root@server ~]# lspci | grep RAID 03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05) [root@server ~]# smartctl -a /dev/sda smartctl 5.43 …

26 centos raid storage hardware-raid dell-perc

4

RAID控制器是否同步HDD盘片旋转？

我正在寻找新的存储解决方案。在研究各种规格时，我的一位同事说，一些RAID控制器可以将HDD旋转同步到读取头下方所有驱动器的扇区/块0传递的效果。我在网上搜索，但找不到能够证明/反驳此主张的信息。

23 raid hard-drive hardware-raid

4

LSI CacheCade SSD存储分层的有效性如何？

LSI提供了CacheCade存储分层技术，该技术可将SSD设备用作读写缓存，以增强传统RAID阵列。其他厂商也采用了类似的技术。HP SmartArray控制器具有其SmartCache。Adaptec具有MaxCache ... ... 更不用说许多基于软件的加速工具（sTec EnhanceIO，Velobit，FusionIO ioTurbine，Intel CAS，Facebook flashcache吗？）。我来自ZFS背景，利用各种类型的SSD来处理读缓存（L2ARC）和写缓存（ZIL）职责。他们各自的工作量需要不同的特征；写缓存的低延迟和持久性。高读取容量。由于CacheCade SSD可以用于写入和读取缓存，因此RAID控制器的板载NVRAM发挥什么作用？当用作写缓存时，就写持久性而言，CacheCade SSD有什么危险？鼓励使用消费类SSD。写入直接进入SSD还是首先到达控制器的缓存？读取缓存算法的智能程度如何？我了解ZFS ARC和L2ARC的功能。是否对CacheCade分层过程有任何见解？存在哪些度量标准来监视CacheCade设置的有效性？有没有一种方法可以观察缓存命中率或百分比？您怎么知道它是否真的有效？我对LSI解决方案的意见和反馈感兴趣。有什么需要注意的吗？提示？

22 storage cache hardware-raid lsi

8

RAID-5：两个磁盘同时发生故障？

我们有一台运行CentOS的Dell PowerEdge T410服务器，其RAID-5阵列包含5个Seagate Barracuda 3 TB SATA磁盘。昨天系统崩溃了（我不知道到底有多准确，也没有任何日志）。启动进入RAID控制器BIOS后，我发现在5个磁盘中，磁盘1被标记为“丢失”，磁盘3被标记为“降级”。我强行备份了磁盘3，并用新的硬盘驱动器（大小相同）替换了磁盘1。BIOS检测到此情况并开始重建磁盘1-但是它卡在％1上。纺纱进度指示器并未整夜保持稳定。完全冻结。我在这里有什么选择？除了使用一些专业的数据恢复服务之外，还有什么方法可以尝试重建？这样两个硬盘如何同时发生故障？似乎是巧合。磁盘1是否有故障，结果磁盘3“不同步”？如果是这样，我是否可以使用任何实用工具将其“同步”取回？

21 raid storage hardware-raid raid5 data-recovery

6

我是否应该“运行”新的RAID 1对中的一个磁盘以减少发生类似故障时间的机会？

我正在设置一个由两个新的4TB硬盘驱动器组成的RAID1阵列。我之前在某处听说过，同时购买RAID1阵列的新的相同硬盘会增加它们在相似的时间点发生故障的机会。因此，我正在考虑单独使用其中一个硬盘驱动器一段时间（也许几个星期），以尝试减少两个硬盘驱动器在短时间内出现故障的可能性。（未使用的驱动器将在抽屉中保持断开状态）这似乎是一种合理的方法，还是我很可能只是在浪费时间？

19 raid hardware-raid raid1 drive-failure

5

HBA卡和RAID卡有什么区别？

我以为我知道HBA和RAID之间的区别。在我看来，HBA正在从主板/ CPU上卸下负载，只是JBOD ...通常具有外部SAS端口，而RAID卡的功能与HBA相同，但是增加了所有不错的RAID级别，并且可能还提供了备用电池和其他功能好处。查看LSI网站上的产品后，我发现它们具有内置RAID的HBA卡，例如LSI SAS 9211-8i主机总线适配器。所以...显然我错了！ HBA卡和RAID卡有什么区别？

18 raid storage hardware hardware-raid hba

4

低端硬件RAID与软件RAID [关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为服务器故障的主题。 2年前关闭。我想在旧电脑上建立一个低端6TB RAID 1存档。 MB: Intel d2500hn 64bit CPU: Intel Atom D2500 RAM: 4GB DDR3 533 MHz PSU: Chinese 500W NO GPU 1x Ethernet 1Gbps 2x SATA2 ports 1x PCI port 4x USB 2.0 我想在Linux上构建RAID1存档（我想是CentOS 7，然后我将安装我需要的所有东西，我认为是ownCloud或类似的东西），并在我的本地局域网中使用它。 10-20美元的RAID PCI控制器还是软件RAID更好？如果软件突击比较好，我应该在CentOS上选择哪个？将系统放在外部USB上并在连接器上使用2个磁盘是更好的选择还是将系统放在一个磁盘中然后创建RAID？如果我要使用3磁盘RAID 5，应该选择硬件RAID PCI还是简单的PCI SATA连接器？

16 raid centos7 software-raid hardware-raid raid1

3

RAID性能突然变慢

我们最近注意到，数据库查询的运行时间比平时更长。经过一些调查，看来我们的磁盘读取速度非常慢。过去，RAID控制器在BBU上启动重新学习周期并切换到直写，也导致了类似的问题。这次似乎不是这样。我在bonnie++几天中跑了几次。结果如下： 22-82 M / s的读取速度似乎很糟糕。dd在原始设备上运行几分钟，显示的读取速度为15.8 MB / s至225 MB / s（请参阅下面的更新）。iotop并不表示有任何其他进程在争夺IO，因此我不确定读取速度为何如此变化。该RAID卡是MegaRAID SAS 9280，在RAID10中具有12个SAS驱动器（15k，300GB），带有XFS文件系统（在RAID1中配置的两个SSD上的OS）。我没有看到任何SMART警报，并且阵列似乎没有降级。我也已经跑步了，xfs_check并且似乎没有任何XFS一致性问题。接下来的调查步骤应该是什么？服务器规格 Ubuntu 12.04.5 LTS 128GB RAM Intel(R) Xeon(R) CPU E5-2643 0 @ 3.30GHz 输出xfs_repair -n： Phase 1 - find and verify superblock... Phase 2 - using internal log - scan filesystem freespace …

16 raid performance hardware-raid megaraid

5

如何检查硬件RAID是否已配置？

我有几台运行Windows 2008和Red Hat 5并具有硬件RAID功能的服务器。如何检查是否配置了硬件RAID？

15 raid configuration hardware-raid

5

我可以从Linux内部检测硬件RAID信息吗？

当我进入Linux时，可以从lsblk（从输出中删除无关的驱动器）获取以下信息： NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT sda 8:0 0 298G 0 disk sdb 8:16 0 2.7T 0 disk 当我手动将驱动器从服务器中拉出时，可以告诉我实际上是在使用以下驱动器： 0 Seagate 320GB 1 Seagate 320GB 2 Hitachi 1TB 3 Hitachi 1TB 4 Hitachi 1TB 5 Hitachi 1TB 6 [empty] 7 [empty] 因为服务器中的物理存储多于Linux中的可用空间，所以这显然意味着我正在使用某种形式的RAID系统。通过一点数学，我经常可以弄清楚正在使用哪种类型的RAID系统。有没有一种方法可以让我检测是否正在Linux内部使用硬件RAID ，并找出有关它的所有信息（例如RAID类型，可用驱动器）而无需关闭服务器，从物理上拉出驱动器，并阅读他们的标签？可以从Linux内部收集此信息，还是从硬件RAID的角度使底层系统对操作系统“不可见”？

15 linux raid hard-drive hardware hardware-raid

Questions tagged «hardware-raid»