服务器管理员 storage

5

问题我们在现有平台上的性能存在问题，因此，我正在蜂巢式地寻求对此的第二种意见。到目前为止，性能问题与IOPS有关，而不与吞吐量有关。场景 16个主机的刀片中心，每个主机具有64GB的RAM。（这是一台带M610的Dell M1000e，但这可能不相关）500个VM，所有Web服务器（或相关的Web技术，例如MySQL，负载均衡器等），其中约90％是Linux，其余的是Windows。系统管理程序是VMWare vSphere。我们需要提供主机HA，因此本地存储空间不足。这样，主机只需启动一张SD卡即可。有点背景思维目前，我们最多可容纳6台主机（以当前的增长，刀片服务器中心将在几年内达到满负荷状态），并且我们正在iSCSI上运行Dell MD3220i w / MD1220进行扩展。我们已经考虑了可能的选择，以及随之而来的即时想法：在NFS数据存储中分布VM，并运行满足多达给定数量VM的性能要求的NFS存储。NFS似乎更便宜，而且比块级存储要抽象得多，因此我们可以根据需要进行移动。添加更多的MD3220i控制器/目标。尽管我们担心这样做会在某种程度上对VMWare处理具有许多目标的方式产生负面影响。将所有磁盘从Nearline SAS交换到SSD。这应该可以完全解决IOPS问题，但是会明显降低我们的存储容量。而且它仍然非常昂贵。 vSphere 5具有存储设备。我们没有做太多研究，但是它必须运作良好吗？问题您将在所有这些存储下运行哪种存储？它不需要扩展到另一个刀片服务器中心，只需要为所有这些VM提供相对良好的性能即可。我不是在寻找“购买SAN x，因为它是最好的”答案。我正在寻找关于各种SAN技术（iSCSI，FC，FCoE，InfiniBand，NFS等），不同类型的存储（SATA，SAS，SSD）以及用于处理100个VM的存储方法（整合，分离）的想法。，分片等）。对此绝对欢迎任何想法，链接，指南，指针等。我也很想听听我们已经考虑过的上述选择的想法。非常感谢您的任何投入！ 12年3月5日更新到目前为止，一些精彩的回复，非常感谢大家！到目前为止，按照对这个问题的回答，我开始认为以下方法是可行的：将可用存储分层到VMWare群集，并将VM磁盘放置在适合其工作负载的存储上。潜在地利用能够自动管理将数据放置到合适的存储上的SAN的SAN。 Infiniband似乎是最具成本效益的，可在主机满载时获得所需带宽。绝对听起来像是要利用主要SAN供应商的售前服务来解决这个问题。我将继续考虑这个问题一段时间。同时，我们再感激收到任何更多的建议！

15 virtualization storage nfs storage-area-network vmware-vsphere

3

SAS与Nearline / MDL SAS-有何区别？

正如我所猜测的那样，就SAN而言，大多数供应商都提供10k或15k“适当”的SAS驱动器，许多供应商还提供7.2k MDL / Nearline SAS驱动器。请问有人对此有权威的解释吗？

15 storage hard-drive storage-area-network sas sata

12

除了价格，NetApp SAN解决方案没有其他缺点吗？[关闭]

这个问题不太可能对将来的访客有所帮助；它仅与较小的地理区域，特定的时间段或极为狭窄的情况相关，通常不适用于Internet的全球受众。要获得使该问题更广泛适用的帮助，请访问帮助中心。 8年前关闭。我们已经为第一个SAN选择了NetApp解决方案。鉴于此，我一直在寻找尽可能多的理由不使用NetApp的原因。我们喜欢这样做A），这样我们就知道要进入什么； B）这样，我们就不会因不可避免的后供应商演示快感而蒙上阴影。我在互联网上搜索了缺点，只能找到一个：价格。您是否曾经想过摆脱NetApp的噩梦体验？请只有具有NetApp经验的人员。谢谢！

15 storage storage-area-network netapp

7

在HP Smart Array P400上禁用RAID功能

我计划在系统上使用ZFS（HP ML370 G5，Smart Array P400、8 SAS磁盘）。我希望ZFS单独管理所有磁盘，因此它可以利用更好的调度（即，我想使用ZFS中的软件RAID功能）。问题是，我找不到在RAID控制器上禁用RAID功能的方法。现在，控制器将所有磁盘聚合到一个大RAID-5卷中。因此ZFS无法看到单个磁盘。有什么办法可以完成此设置吗？

15 raid storage zfs hp-proliant hp-smart-array

3

为什么大型磁盘（LFF）仍然很流行？

小尺寸（SFF）/ 2.5英寸磁盘现在似乎比LFF磁盘更受欢迎，因为在许多情况下（低功耗，高密度等），它们比LFF磁盘更受欢迎。但是，LFF磁盘似乎仍然具有在主要供应商的产品中（以最近发布的Gen9系列HP服务器为例）。从磁盘的价格来看，在大多数较低容量（低于500GB）的磁盘中，这些天的价格差异似乎很小。这就引出了一个问题，为什么它们仍然受欢迎，以至于供应商觉得值得投资支持他们的最新产品？纯粹是因为LFF尺寸磁盘比SFF磁盘具有更高的容量，还是有其他原因使它们仍然流行？这就是我试图了解在SSF上配置带有LFF机架/磁盘的现代服务器的客观依据的事实。什么情况/要求可能意味着LFF将是首选？如果您需要以合理的价格购买大型，数TB的磁盘，还是只有其他原因，您才真正这样做吗？

14 hard-drive hardware storage

10

兼容S3的对象存储系统

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，以使其成为服务器故障的主题。 5年前关闭。有没有人遇到过接近100％与Amazon S3 RESTful API兼容的对象存储系统？我所需要的是位于任何（最好是POSIX）文件系统之上的一层，该文件系统提供了Amazon S3风格的RESTful API ，以使用体面身份验证来存储（PUT），检索（GET），stat（HEAD）和delete（DELETE）。也欢迎商业项目/想法。注意：到目前为止，我已经尝试过桉树和积云；其中尤加利（Eucalyptus）似乎盲目自称与S3兼容。响应XML文档根本不兼容，并且在某些地方根本没有XML文档，因此是不完整的。Cumulus设法使响应文档保持非常相似，但似乎忘记了数据完整性！让我解释一下后面的部分：桉树和积云都不支持Amazon S3提供的完整性验证。使用S3可以做的是可以提供一个Base64（MD5（FILE））和PUT请求，然后在S3成功响应之前先由S3对其进行验证。桉树和积云不支持此功能。使用Eucalyptus，我们至少可以通过检查响应文档中提供的MD5来解决此问题（不兼容S3的行为）。在Cumulus中，这是不可能的，因为它不响应任何内容（例如S3）。Cumulus通过在HEAD请求中不给出ETag来使情况更糟。

14 storage amazon-s3 cloud-storage network-storage

2

临时存储有什么好处？

我一直在阅读有关Amazon EC2的临时存储的信息，并试图找出使用它们为您提供的100 GB的最佳方法是什么。如果不是持久性的，那有什么用呢？

14 amazon-ec2 storage amazon-web-services

7

您如何备份存储服务器？

我正在考虑实现一个非常大的存储服务器，以用作其他几台服务器（均基于Linux）的实时NAS。总的来说，我的意思是在4TB到20TB之间的可用空间（尽管我们不太可能实际将其变为20TB）。为了提高数据安全性和性能，存储服务器将使用RAID 10，但我们仍然需要一个备份解决方案，包括异地备份。我的问题是：您如何备份那么多数据！并不是说我只能连接便携式硬盘驱动器并传输文件。我们目前没有其他具有如此大存储空间的设备。我是否需要预算第二个异地存储服务器，还是有更好的解决方案？

14 backup raid storage network-attached-storage

3

惠普存储阵列-多个渠道？

我们的SQL服务器正变得非常繁重，并且所有迹象都表明磁盘通道是瓶颈。当前的HP服务器具有相当低端的阵列卡，我们正在寻求通过智能阵列卡和带有SSD驱动器的外部存储阵列来扩展该服务器。当前配置为： DL360 G7 智能阵列P410i Windows Server 2008R2 32Gb RAM 当前阵列是用于引导/操作系统的2 x 300Gb SAS RAID1逻辑驱动器和用于数据的1 x 120Gb SATA SSD驱动器。数据库服务器托管一个相当大的数据库（约100Gb），其中包含实时数据和历史数据。由于许多原因，拆分数据库不是一种选择，因此当前的想法是在新阵列上具有多个逻辑驱动器，每个逻辑驱动器都在其自己的通道上，然后将数据库拆分为逻辑SQL分区。例如，该数组可能具有： 2个SSD（RAID1） 2个SSD（RAID1） 4个SSD（RAID1 + 0）当前，我们正在研究带有高端智能阵列卡的D2600。为了获得最佳性能，我们确实需要每个逻辑驱动器尽可能快地运行。惠普的规格表明，他们的高端固态硬盘可能接近最大限度地利用Smart Array卡支持的6Gb连接。但是，一些较大的SA卡表明它们支持“多个通道”。我不清楚这是如何工作的。这是否意味着，通过一条从SA到D2600的电缆，每个RAID集都可以配置为拥有自己的6Gb通道？还是6Gb是互连的限制，如果可以的话，是否有可以克服此限制的配置选项（甚至是不同的HP产品-不试图绕开“没有主观问题”的规则，老实:)）？编辑：我看不到有任何惠普服务器可以做到这一点，但是如果有一个不错的Proliant盒子，它可以让我将内部驱动器仓分成两个（或更多）通道，则可能是“计划B”-有人知道这样的服务器吗？

14 storage hp hp-proliant ssd hp-smart-array

4

URE到底是什么？

最近，我一直在研究RAID5与RAID6，而由于URE额定值和驱动器尺寸的增加，我一直看到RAID5不再足够安全。基本上，我发现的大多数内容都说在RAID5中，如果发生磁盘故障，如果阵列的其余部分为12TB，那么您几乎有100％的机会满足URE并丢失数据。 12TB的数字来自这样的事实，即磁盘的额定读取速率为10 ^ 14位，可以达到一个URE。好吧，有些事情我没有到达这里。读取是由扇区上的磁头完成的，导致读取失败的原因是磁头死了或扇区死了。也可能是由于其他某些原因导致读取无法正常工作（我不知道，就像是振动使磁头跳了起来……）。因此，让我解决所有3种情况：阅读无效：这不是无法恢复的，对吗？可以再次尝试。头部死了：这肯定是无法恢复的，但是，这也意味着整个盘子（或至少侧面）是不可读的，这会更加令人震惊，不是吗？该扇区消失：以及完全无法恢复，但是在这里我不明白为什么URE的4TB磁盘的额定值为10 ^ 14，而URE的8TB磁盘的额定值为10 ^ 14，这意味着磁盘上的扇区8TB（最有可能是较新的技术）的可靠性是4TB的一半，这没有意义。如您所见，从我确定的3个故障点来看，没有任何道理。那么具体来说，URE是什么意思？有谁可以向我解释吗？编辑1 在第一波答案之后，似乎原因是该部门失败了。好消息是固件，RAID控制器和OS +文件系统都有适当的程序来尽早发现并重新分配扇区。好吧，我现在知道什么是URE（实际上，这个名称是不言自明的:)）。我仍然对根本原因以及它们给出的稳定评级感到困惑。一些人将失效的部分归因于外部来源（宇宙波），然后令我感到惊讶的是，那么URE率是基于读数计数而不是年龄，宇宙波的确会影响更多的旧磁盘，仅仅是因为它已经暴露了此外，尽管我可能错了，但我认为这更像是一种幻想。现在来谈谈与磁盘磨损有关的另一个原因，有人指出，较高的密度会导致较弱的磁畴，这完全是有道理的，我将按照说明进行操作。但是，正如在这里很好地解释的那样，不同大小的新磁盘主要是通过在HDD机箱中放置或多或少的相同的盘片（然后是相同的密度）来获得的。扇区是相同的，并且所有扇区都应具有相同的可靠性，因此，较大的磁盘应比较小的磁盘具有更高的额定值，而扇区的读取较少，事实并非如此，为什么？但这可以解释为什么采用新技术的新磁盘没有比旧磁盘获得更好的评级，这仅仅是因为更好的技术收益被更高密度带来的损失所抵消。

14 raid hard-drive storage drive-failure

1

我应该多久清理一次RAID？

通常，我想知道需要多长时间清理一次RAID阵列。是什么导致需要更频繁地进行清理（读取数据，写入数据，意外关闭，驱动器寿命，驱动器大小，用户数量等）？我在这里阅读过Arch维基，它真正说的是应该定期进行清理。我只是想知道有足够的定期性。显然，这取决于，但是合理的范围是多少？每年？每月一次？每周？日常？非常感谢您提供任何信息。

13 raid storage hard-drive maintenance

1

计算ZFS RAIDZ的IOPS是否不同于计算RAID5和RAID6的IOPS？

在计算传统RAID阵列的IOPS时，可以使用以下公式（取自Symantec Connect上的IOPS v1.3入门）： Ieffective = (n * Isingle) / (READ% + (F * WRITE%)) 哪里：有效是IOPS的有效数量 Isingle是单个驱动器的平均IOPS。 n是阵列中的磁盘数 READ％是从磁盘配置文件读取的分数 WRITE％是从磁盘性能分析获取的写入次数的一部分 F是RAID写惩罚： RAID Level Write Penalty RAID-0 1 RAID-1 2 RAID-5 4 RAID-6 6 RAID-10 2 RAID-DP 2 该公式实质上是以下功能的函数：阵列中每个驱动器的IOPS 磁盘数。更多的磁盘意味着更多的IOPS 每个写入操作的RAID损失。 RAID5和RAID6每次写入都需要4个以上的磁盘操作。控制器必须先读取该块，然后读取奇偶校验数据（两次操作），计算新的奇偶校验数据，然后更新奇偶校验块并更新数据块（再执行两次操作）。RAID6具有两个奇偶校验块，因此需要三个读取和三个写入。因此，RAID5和RAID6阵列的IOPS比RAID1少。 RAID1和RAID10仅需要2次写入，一次写入镜像中的每个磁盘。而且要明确的是，所有这些都提供了对理论性能的估计。各种控制器和RAID方法都有一些技巧来加快其中的一些速度。 ZFS相当于RAID5和RAID6的是RAIDZ和RAIDZ2。在为RAIDZ阵列计算IOPS时，我可以使用与RAID5和RAID6相同的公式，还是ZFS具有特殊的技巧来减少写操作所需的操作数量。在为RAIDZ阵列计算IOPS时，可以使用其他公式吗？

13 performance storage zfs

2

带有屏障的SATA驱动器上的写缓存的安全性

最近，我一直在阅读有关SATA驱动器的写缓存，NCQ，固件错误，障碍等信息，但我不确定在电源故障的情况下哪种最佳设置可以确保数据安全。据我了解，NCQ允许驱动器对写入进行重新排序以优化性能，同时让内核了解已物理写入了哪些请求。写入缓存使驱动器更快地处理请求，因为它不等待将数据写入物理磁盘。我不确定这里的NCQ和Write缓存如何混合使用... 文件系统，特别是日记系统，需要确定何时记录了特定请求。同样，用户空间进程使用fsync（）强制刷新特定文件。在文件系统确定数据已写入磁盘之前，对fsync（）的调用不应返回。有一个功能（FUA，强制单位访问），我仅在SAS驱动器上看到过，该功能强制驱动器绕过缓存并直接写入磁盘。对于其他所有方面，都有写障碍，这是内核提供的一种机制，可以触发驱动器上的缓存刷新。这将强制记录所有缓存，而不仅仅是关键数据，从而在滥用时减慢了整个系统的速度，例如使用fsync（）。然后，存在带有固件错误的驱动器，或者故意谎称何时物理写入数据。话虽这么说..有几种方法可以设置驱动器/文件系统：A）禁用NCQ和写入缓存B）启用NCQ仅C）启用写入缓存D）启用NCQ和写入缓存我正在假设启用了障碍。顺便说一句，如何检查它们是否真正启用？如果断电，则在主动写入磁盘时，我的猜测是，对于文件系统日志和数据，选项B（NCQ，无高速缓存）都是安全的。可能会有性能损失。如果使用障碍或FUA，则选项D（NCQ + cache）对于使用fsync（）的文件系统日志和应用程序将是安全的。这对于在缓存中等待的数据将是不好的，并且要由文件系统来检测它（校验和），并且至少文件系统不会（希望）处于不稳定状态。性能方面，它应该更好。但是，我的问题仍然存在……我是否想念任何东西？还有其他变量要考虑吗？是否有任何工具可以确认这一点，并且我的驱动器运行正常？

13 filesystems storage disk-cache

2

如何在ext4上获取校验和数据完整性？

在像btrfs这样的文件系统上，您可以执行清理，该清理将遍历所有数据以查看数据是否仍与文件系统校验和匹配。我想在备份之前检查ext4上的数据是否正确。题 ext4没有文件系统校验和，但是可以做类似的事情吗？

13 linux storage ext4 checksum data-integrity

1

KVM guest虚拟机io比host io慢很多：这正常吗？

我在CentOS 6.3上安装了Qemu-KVM主机系统。四个在软件RAID10中工作的1TB SATA硬盘。Guest CentOS 6.3安装在单独的LVM上。人们说他们看到宾客的表现几乎等于主持人的表现，但我没有看到。我的I / O测试显示，来宾系统的性能比主机系统慢30-70％。我试图更改调度程序（elevator=deadline在主机和elevator=noop客户机上设置），blkio.weight在cgroup 中将其设置为1000，将io更改为virtio ...但是这些更改都没有给我带来任何显着的结果。这是一个guest .xml配置部分： <disk type='file' device='disk'> <driver name='qemu' type='raw'/> <source file='/dev/vgkvmnode/lv2'/> <target dev='vda' bus='virtio'/> <address type='pci' domain='0x0000' bus='0x00' slot='0x05' function='0x0'/> </disk> 有我的测试：主机系统：碘测试 # iozone -a -i0 -i1 -i2 -s8G -r64k random random KB reclen write rewrite read reread read write 8388608 …

13 linux storage software-raid kvm-virtualization

Questions tagged «storage»