Questions tagged «hardware-raid»

具有硬件协助的RAID解决方案。RAID奇偶校验计算可以由主CPU或RAID控制器卡上的单独处理器执行。

8
硬件SATA RAID-10阵列中的单个磁盘如何使整个阵列停止运转?
序幕: 我是一个代码猴子,越来越多地为我的小公司承担SysAdmin的职责。我的代码是我们的产品,越来越多的我们提供与SaaS相同的应用程序。 大约18个月前,我将服务器从以高级托管为中心的供应商转移到了IV级数据中心的准系统机架推动器中。(实际上是在街对面。)这项工作自己做得更多—诸如网络,存储和监视之类的事情。 作为一项重大举措,为了替代托管公司租赁的直接连接存储,我构建了一个9TB两节点NAS,该NAS基于SuperMicro机箱,3ware RAID卡,Ubuntu 10.04,两打SATA磁盘,DRBD和。这一切都在三篇博客文章中得到了详尽记录:建立和测试新的9TB SATA RAID10 NFSv4 NAS:第一部分,第二部分和第三部分。 我们还建立了一个默认监视系统。最近,我们一直在添加越来越多的数据点,例如SMART值。 没有ServerFault 令人敬畏的 boffins , 我无法完成所有这些工作。这是一次有趣的教育经历。我的老板很高兴(我们节省了$ 5的装箱费),我们的客户很高兴(存储成本降低了),我很开心(乐趣,有趣,有趣)。 直到昨天 中断与恢复: 午餐后的一段时间,我们开始从我们的应用程序(按需流媒体CMS)中收到有关性能下降的报告。大约在同一时间,我们的仙人掌监测系统发送了大量电子邮件。更具说服力的警报之一是iostat等待图。 性能变得如此差,以致Pingdom开始发送“服务器停机”通知。总体负载适中,没有流量高峰。 登录到NAS的NFS客户端的应用程序服务器后,我确认几乎所有内容都经历了高度间歇性的IO等待时间。当我跳到主要NAS节点本身时,在尝试导航问题阵列的文件系统时,同样的延迟显而易见。 是时候进行故障转移了,一切顺利。在20分钟之内,所有内容都被确认可以正常运行。 事后: 在任何系统故障后,我都会进行事后检查以确定故障原因。我要做的第一件事是将ssh重新插入框中并开始查看日志。完全离线。前往数据中心的时间。硬件重置,备份并运行。 在/var/syslog我发现这个可怕的条目: Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_00], 6 Currently unreadable (pending) sectors Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_07], SMART Prefailure Attribute: …

6
为什么RAID 0在没有冗余时被归类为RAID?
我已经在IT部门工作了很多年,所以我知道RAID阵列是什么,RAID 0是什么,RAID 1、5、6、10、50、60等,但是最近出现了一些事情工作中的谈话;如果RAID代表独立(或廉价)磁盘的冗余阵列,那么RAID 0为何被归为RAID,而不仅仅是带状阵列? 在一个阵列上跨多个磁盘对数据进行条带化不会提供任何冗余,那么为什么将其归类为RAID阵列呢?当然,最低数目应该是RAID 1(镜像),因为那是冗余真正开始的时候?

6
硬件RAID的ZFS最佳做法
如果恰好有一些服务器级硬件可供使用,是否建议在基于硬件的RAID1或类似硬件上运行ZFS?是否应该关闭基于硬件的RAID,然后在a mirror或a 上运行ZFS raidz zpool? 关闭硬件RAID功能后,与非硬件RAID控制器相比,基于硬件RAID的SATA2和SAS控制器是否更可能隐藏读写错误? 对于不可定制的服务器,如果存在一种情况,其中硬件RAID控制器实际上是成本中立的(甚至降低了预建服务器产品的成本,因为它的存在会提高托管公司提供补充IPMI的可能性)访问),应该完全避免吗?但是应该追寻吗?

3
Linux-实际硬件RAID控制器调整(scsi和cciss)
我管理的大多数Linux系统都具有硬件RAID控制器(主要是HP Smart Array)。他们都在运行RHEL或CentOS。 我正在寻找现实世界中的可调参数,以帮助优化设置的性能,这些设置将硬件RAID控制器与SAS磁盘(智能阵列,Perc,LSI等)和电池后备或闪存后备缓存结合在一起。假设RAID 1 + 0和多个主轴(4+个磁盘)。 我花了大量时间为低延迟和金融交易应用程序调整Linux网络设置。但是,这些选项中的许多选项都有充分的文档记录(更改发送/接收缓冲区,修改TCP窗口设置等)。工程师在存储方面正在做什么? 从历史上看,我对I / O调度电梯进行了更改,最近选择了deadline和noop调度程序来提高应用程序的性能。随着RHEL版本的发展,我还注意到SCSI和CCISS块设备的已编译默认值也已更改。随着时间的推移,这对建议的存储子系统设置产生了影响。但是,自从我看到任何明确的建议以来已经有一段时间了。而且我知道操作系统默认设置不是最佳的。例如,对于服务器级硬件上的部署而言,默认的128kb预读缓冲区似乎很小。 以下文章探讨了在块队列上更改预读缓存和nr_requests值对性能的影响。 http://zackreed.me/articles/54-hp-smart-array-p410-controller-tuning http://www.overclock.net/t/515068/tuning-a-hp-smart-array-p400-with -linux-why-tuning-really-matters http://yoshinorimatsunobu.blogspot.com/2009/04/linux-io-scheduler-queue-size-and.html 例如,建议对HP Smart Array RAID控制器进行以下更改: echo "noop" > /sys/block/cciss\!c0d0/queue/scheduler blockdev --setra 65536 /dev/cciss/c0d0 echo 512 > /sys/block/cciss\!c0d0/queue/nr_requests echo 2048 > /sys/block/cciss\!c0d0/queue/read_ahead_kb 还有什么可以可靠地调整以提高存储性能的? 我在生产方案中专门寻找sysctl和sysfs选项。

5
BBWC:从理论上讲,这是个好主意,但是有没有人保存过您的数据?
我熟悉BBWC(电池支持的写缓存)的用途-甚至在使用优质UPS的情况下,它们也曾在我的服务器中使用过。显然存在无法提供保护的故障。我很好奇它在实践中是否真正提供了任何真正的好处。 (注意,我特别在寻找患有BBWC且发生车祸/故障以及BBWC是否有助于恢复的人的答复) 更新资料 收到反馈后,我越来越怀疑BBWC是否会带来任何价值。 为了对数据完整性有信心,文件系统必须知道何时将数据提交到非易失性存储(不一定是磁盘,这是我将要谈到的问题)。值得注意的是,将数据提交到磁盘后,会出现许多磁盘(http://brad.livejournal.com/2116715.html)。尽管可以合理地认为禁用磁盘上的缓存可能会使磁盘更老实,但仍然不能保证确实如此。 由于BBWC中的缓冲区通常过大,因此屏障可能需要将更多数据提交到磁盘,从而导致写入延迟:一般建议是在使用非易失性回写高速缓存时禁用屏障(并禁用on-磁盘缓存)。但是,这似乎破坏了写操作的完整性-仅因为非易失性存储中保留了更多数据并不意味着它会更加一致。确实,可以说在逻辑事务之间不进行划分,与其他方式相比,确保一致性的机会似乎更少。 如果BBWC在数据进入其非易失性存储(而不是提交到磁盘)的那一刻承认障碍,那么它似乎可以满足数据完整性要求而不会降低性能-意味着仍应启用障碍。但是,由于这些设备通常表现出与将数据刷新到物理设备一致的行为(带有障碍的速度明显较慢)以及禁用障碍的广泛建议,因此它们无法以此方式运行。为什么不? 如果将OS中的I / O建模为一系列流,则在某种程度上可以最大程度地减小由OS管理写缓存时的写屏障的阻塞效果-因为在此级别仅逻辑事务(单个流) )需要承诺。另一方面,一个不知道构成事务的数据位的BBWC必须将其整个缓存提交到磁盘。内核/文件系统是否实际上在实践中实现了这一点,将比我目前打算投入的工作多得多。 磁盘组合会告诉故障发生了什么,并且突然断电无疑会导致损坏-以及日记或日志结构化的文件系统在中断后无法完全执行fsck的情况下,更不可能发现损坏的发生,更不用说试图修复它。 就故障模式而言,根据我的经验,大多数突发性停电是由于市电中断而造成的(通过UPS和管理性关机可以轻松缓解)。人们将错误的电缆从机架中拔出,意味着数据中心的卫生性很差(标签和电缆管理)。UPS不能阻止某些类型的突然断电事件-PSU或VRM中的故障,带有障碍物的BBWC在发生故障时将提供数据完整性,但是这种事件有多普遍?从这里缺乏回应来看非常罕见。 当然,将容错能力提高到更高的堆栈中比使用BBWC的成本要高得多-但是将服务器实现为群集对于性能和可用性还有很多其他好处。 减轻突然断电的影响的另一种方法是实施SAN-AoE使这成为一个可行的方案(我对iSCSI的意义不大),但同样存在更高的成本。

7
如何使用CentOS 6监控Dell PERC H710 Raid Controller背后的硬盘状态?
我有一个CentOS 6使用PERC H710Raid 5设置的Raid Controller卡运行的Dell服务器,我想监视Raid Controller背后的硬盘故障/工作状态。 然后,我应该能够使用bash脚本监视硬盘状态,并在出现问题时发送警报电子邮件。 用于CentOS / Red Hat / Linux 的LSI MegaRAID SAS命令工具(关于LSI MegaRAID SAS Linux工具)不支持PERC H710,并且smartctl也不支持。 基于Dell网站,CentOS此服务器(NX3200 PowerVault)不支持IS,并且我无法下载任何Linux程序来监视硬盘。 [root@server ~]# lspci | grep RAID 03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05) [root@server ~]# smartctl -a /dev/sda smartctl 5.43 …

4
RAID控制器是否同步HDD盘片旋转?
我正在寻找新的存储解决方案。在研究各种规格时,我的一位同事说,一些RAID控制器可以将HDD旋转同步到读取头下方所有驱动器的扇区/块0传递的效果。 我在网上搜索,但找不到能够证明/反驳此主张的信息。

4
LSI CacheCade SSD存储分层的有效性如何?
LSI提供了CacheCade存储分层技术,该技术可将SSD设备用作读写缓存,以增强传统RAID阵列。 其他厂商也采用了类似的技术。HP SmartArray控制器具有其SmartCache。Adaptec具有MaxCache ... ... 更不用说许多基于软件的加速工具(sTec EnhanceIO,Velobit,FusionIO ioTurbine,Intel CAS,Facebook flashcache吗?)。 我来自ZFS背景,利用各种类型的SSD来处理读缓存(L2ARC)和写缓存(ZIL)职责。他们各自的工作量需要不同的特征;写缓存的低延迟和持久性。高读取容量。 由于CacheCade SSD可以用于写入和读取缓存,因此RAID控制器的板载NVRAM发挥什么作用? 当用作写缓存时,就写持久性而言,CacheCade SSD有什么危险?鼓励使用消费类SSD。 写入直接进入SSD还是首先到达控制器的缓存? 读取缓存算法的智能程度如何?我了解ZFS ARC和L2ARC的功能。是否对CacheCade分层过程有任何见解? 存在哪些度量标准来监视CacheCade设置的有效性?有没有一种方法可以观察缓存命中率或百分比?您怎么知道它是否真的有效? 我对LSI解决方案的意见和反馈感兴趣。有什么需要注意的吗?提示?

8
RAID-5:两个磁盘同时发生故障?
我们有一台运行CentOS的Dell PowerEdge T410服务器,其RAID-5阵列包含5个Seagate Barracuda 3 TB SATA磁盘。昨天系统崩溃了(我不知道到底有多准确,也没有任何日志)。 启动进入RAID控制器BIOS后,我发现在5个磁盘中,磁盘1被标记为“丢失”,磁盘3被标记为“降级”。我强行备份了磁盘3,并用新的硬盘驱动器(大小相同)替换了磁盘1。BIOS检测到此情况并开始重建磁盘1-但是它卡在%1上。纺纱进度指示器并未整夜保持稳定。完全冻结。 我在这里有什么选择?除了使用一些专业的数据恢复服务之外,还有什么方法可以尝试重建?这样两个硬盘如何同时发生故障?似乎是巧合。磁盘1是否有故障,结果磁盘3“不同步”?如果是这样,我是否可以使用任何实用工具将其“同步”取回?

6
我是否应该“运行”新的RAID 1对中的一个磁盘以减少发生类似故障时间的机会?
我正在设置一个由两个新的4TB硬盘驱动器组成的RAID1阵列。 我之前在某处听说过,同时购买RAID1阵列的新的相同硬盘会增加它们在相似的时间点发生故障的机会。 因此,我正在考虑单独使用其中一个硬盘驱动器一段时间(也许几个星期),以尝试减少两个硬盘驱动器在短时间内出现故障的可能性。(未使用的驱动器将在抽屉中保持断开状态) 这似乎是一种合理的方法,还是我很可能只是在浪费时间?

5
HBA卡和RAID卡有什么区别?
我以为我知道HBA和RAID之间的区别。 在我看来,HBA正在从主板/ CPU上卸下负载,只是JBOD ...通常具有外部SAS端口,而RAID卡的功能与HBA相同,但是增加了所有不错的RAID级别,并且可能还提供了备用电池和其他功能好处。 查看LSI网站上的产品后,我发现它们具有内置RAID的HBA卡,例如LSI SAS 9211-8i主机总线适配器。 所以...显然我错了! HBA卡和RAID卡有什么区别?

4
低端硬件RAID与软件RAID [关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为服务器故障的主题。 2年前关闭。 我想在旧电脑上建立一个低端6TB RAID 1存档。 MB: Intel d2500hn 64bit CPU: Intel Atom D2500 RAM: 4GB DDR3 533 MHz PSU: Chinese 500W NO GPU 1x Ethernet 1Gbps 2x SATA2 ports 1x PCI port 4x USB 2.0 我想在Linux上构建RAID1存档(我想是CentOS 7,然后我将安装我需要的所有东西,我认为是ownCloud或类似的东西),并在我的本地局域网中使用它。 10-20美元的RAID PCI控制器还是软件RAID更好? 如果软件突击比较好,我应该在CentOS上选择哪个?将系统放在外部USB上并在连接器上使用2个磁盘是更好的选择还是将系统放在一个磁盘中然后创建RAID? 如果我要使用3磁盘RAID 5,应该选择硬件RAID PCI还是简单的PCI SATA连接器?

3
RAID性能突然变慢
我们最近注意到,数据库查询的运行时间比平时更长。经过一些调查,看来我们的磁盘读取速度非常慢。 过去,RAID控制器在BBU上启动重新学习周期并切换到直写,也导致了类似的问题。这次似乎不是这样。 我在bonnie++几天中跑了几次。结果如下: 22-82 M / s的读取速度似乎很糟糕。dd在原始设备上运行几分钟,显示的读取速度为15.8 MB / s至225 MB / s(请参阅下面的更新)。iotop并不表示有任何其他进程在争夺IO,因此我不确定读取速度为何如此变化。 该RAID卡是MegaRAID SAS 9280,在RAID10中具有12个SAS驱动器(15k,300GB),带有XFS文件系统(在RAID1中配置的两个SSD上的OS)。我没有看到任何SMART警报,并且阵列似乎没有降级。 我也已经跑步了,xfs_check并且似乎没有任何XFS一致性问题。 接下来的调查步骤应该是什么? 服务器规格 Ubuntu 12.04.5 LTS 128GB RAM Intel(R) Xeon(R) CPU E5-2643 0 @ 3.30GHz 输出xfs_repair -n: Phase 1 - find and verify superblock... Phase 2 - using internal log - scan filesystem freespace …


5
我可以从Linux内部检测硬件RAID信息吗?
当我进入Linux时,可以从lsblk(从输出中删除无关的驱动器)获取以下信息: NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT sda 8:0 0 298G 0 disk sdb 8:16 0 2.7T 0 disk 当我手动将驱动器从服务器中拉出时,可以告诉我实际上是在使用以下驱动器: 0 Seagate 320GB 1 Seagate 320GB 2 Hitachi 1TB 3 Hitachi 1TB 4 Hitachi 1TB 5 Hitachi 1TB 6 [empty] 7 [empty] 因为服务器中的物理存储多于Linux中的可用空间,所以这显然意味着我正在使用某种形式的RAID系统。通过一点数学,我经常可以弄清楚正在使用哪种类型的RAID系统。 有没有一种方法可以让我检测是否正在Linux内部使用硬件RAID ,并找出有关它的所有信息(例如RAID类型,可用驱动器)而无需关闭服务器,从物理上拉出驱动器,并阅读他们的标签? 可以从Linux内部收集此信息,还是从硬件RAID的角度使底层系统对操作系统“不可见”?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.