服务器管理员 drive-failure

10

Google 对硬盘驱动器故障进行了非常彻底的研究，发现大量硬盘驱动器在大量使用后的前三个月内会发生故障。我和我的同事都在考虑，我们可以对所有新硬盘执行老化过程，从而有可能避免在新的未经测试的驱动器上浪费时间而为我们节省一些心痛。但是在实施老化程序之前，我们想从其他更有经验的人那里获得一些见解：在开始使用硬盘驱动器之前进行刻录有多重要？您如何实施老化过程？您在硬盘驱动器上刻录多长时间？您使用什么软件刻录驱动器？老化过程需要承受多少压力？编辑：由于业务的性质，RAID大部分时间无法使用。我们必须依靠经常在全国范围内邮寄的单个驱动器。我们会尽快备份驱动器，但是在我们有机会备份数据之前，我们仍然在这里和那里仍然遇到故障。更新我的公司已经实施了一段时间的老化过程，事实证明它非常有用。我们会立即烧毁所有库存的新驱动器，从而使我们可以在保修到期之前以及将它们安装到新的计算机系统中之前发现许多错误。事实证明，验证驱动器已损坏也很有用。当我们的一台计算机开始出现错误并且主要是硬盘驱动器时，我们将在该驱动器上重新运行老化过程，并检查任何错误以确保驱动器确实是问题所在，然后再开始RMA进程或抛出RMA进程它在垃圾桶里。我们的老化过程很简单。我们有一个带有许多SATA端口的指定Ubuntu系统，并且我们以读取/写入模式运行坏块，每个驱动器上有4次通过。为简化起见，我们编写了一个脚本，该脚本会打印“将删除所有驱动器中的数据”警告，然后在除系统驱动器之外的所有驱动器上运行坏块。

41 hard-drive drive-failure

5

平均无故障时间-SSD

此 SSD 的平均故障间隔时间（ MTBF ）列为小时。1,500,000 那是很多小时。1,500,000小时大约是170几年。由于这种特殊SSD的发明是内战之后的，他们如何知道MTBF是什么？一些对我有意义的选择： Newegg只是有错字我认为不是两次故障之间的平均时间的定义他们正在使用某种类型的统计推断来估算平均故障间隔时间题：如何获得SSD / HDD的平均故障间隔时间（MTFB）？

32 ssd drive-failure

6

我是否应该“运行”新的RAID 1对中的一个磁盘以减少发生类似故障时间的机会？

我正在设置一个由两个新的4TB硬盘驱动器组成的RAID1阵列。我之前在某处听说过，同时购买RAID1阵列的新的相同硬盘会增加它们在相似的时间点发生故障的机会。因此，我正在考虑单独使用其中一个硬盘驱动器一段时间（也许几个星期），以尝试减少两个硬盘驱动器在短时间内出现故障的可能性。（未使用的驱动器将在抽屉中保持断开状态）这似乎是一种合理的方法，还是我很可能只是在浪费时间？

19 raid hardware-raid raid1 drive-failure

6

如何从RAID 5配置中的驱动器故障中恢复？

今天早晨，我们的数据库服务器上的驱动器发生故障。驱动器阵列（3个磁盘）以RAID 5配置设置。在等待更换驱动器时，我们正在准备恢复策略。用户正在继续在系统上工作，尽管速度非常慢（不知道为什么？）。如何安装新驱动器-该驱动器的数据将根据奇偶校验自动重建，还是应该遵循另一过程？编辑：这是一个硬件RAID控制器。（感谢您到目前为止的回答，不胜感激）

15 hardware disaster-recovery raid5 drive-failure

4

URE到底是什么？

最近，我一直在研究RAID5与RAID6，而由于URE额定值和驱动器尺寸的增加，我一直看到RAID5不再足够安全。基本上，我发现的大多数内容都说在RAID5中，如果发生磁盘故障，如果阵列的其余部分为12TB，那么您几乎有100％的机会满足URE并丢失数据。 12TB的数字来自这样的事实，即磁盘的额定读取速率为10 ^ 14位，可以达到一个URE。好吧，有些事情我没有到达这里。读取是由扇区上的磁头完成的，导致读取失败的原因是磁头死了或扇区死了。也可能是由于其他某些原因导致读取无法正常工作（我不知道，就像是振动使磁头跳了起来……）。因此，让我解决所有3种情况：阅读无效：这不是无法恢复的，对吗？可以再次尝试。头部死了：这肯定是无法恢复的，但是，这也意味着整个盘子（或至少侧面）是不可读的，这会更加令人震惊，不是吗？该扇区消失：以及完全无法恢复，但是在这里我不明白为什么URE的4TB磁盘的额定值为10 ^ 14，而URE的8TB磁盘的额定值为10 ^ 14，这意味着磁盘上的扇区8TB（最有可能是较新的技术）的可靠性是4TB的一半，这没有意义。如您所见，从我确定的3个故障点来看，没有任何道理。那么具体来说，URE是什么意思？有谁可以向我解释吗？编辑1 在第一波答案之后，似乎原因是该部门失败了。好消息是固件，RAID控制器和OS +文件系统都有适当的程序来尽早发现并重新分配扇区。好吧，我现在知道什么是URE（实际上，这个名称是不言自明的:)）。我仍然对根本原因以及它们给出的稳定评级感到困惑。一些人将失效的部分归因于外部来源（宇宙波），然后令我感到惊讶的是，那么URE率是基于读数计数而不是年龄，宇宙波的确会影响更多的旧磁盘，仅仅是因为它已经暴露了此外，尽管我可能错了，但我认为这更像是一种幻想。现在来谈谈与磁盘磨损有关的另一个原因，有人指出，较高的密度会导致较弱的磁畴，这完全是有道理的，我将按照说明进行操作。但是，正如在这里很好地解释的那样，不同大小的新磁盘主要是通过在HDD机箱中放置或多或少的相同的盘片（然后是相同的密度）来获得的。扇区是相同的，并且所有扇区都应具有相同的可靠性，因此，较大的磁盘应比较小的磁盘具有更高的额定值，而扇区的读取较少，事实并非如此，为什么？但这可以解释为什么采用新技术的新磁盘没有比旧磁盘获得更好的评级，这仅仅是因为更好的技术收益被更高密度带来的损失所抵消。

14 raid hard-drive storage drive-failure

2

UNC SMART错误严重吗？需要采取行动？

我有一台300G Western Digital Raptor，最近展示了UNC SMART，想知道有经验的人知道我应该更换它并获得WD保修吗？ smartctl -a的详细信息如下： smartctl 5.41 2011-06-09 r3365 [FreeBSD 8.2-RELEASE-p6 amd64] (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net === START OF INFORMATION SECTION === Model Family: Western Digital VelociRaptor Device Model: WDC WD3000HLFS-01G6U0 Serial Number: WD-WXD0C79C8807 LU WWN Device Id: 5 0014ee 0ac3cfaf0 Firmware Version: …

10 linux smart drive-failure

1

如何确定磁盘是否在ESXi上出现故障/这些错误是什么意思？

我有一台运行VMware ESXi v4.1.0 348481的服务器。它具有硬件RAID10和SATA备份驱动器。我有一个正在运行的VM，它在RAID10数据存储上具有主引导vmdk，在SATA备份驱动器的数据存储上具有600 GB的vmdk。VM运行带有FreeBSD内核的Debian linux，并使用ZFS作为备份驱动器。编辑：驱动器未直接连接到VM。它用作VMware数据存储，并且VM在SATA驱动器的数据存储上具有vmdk。数据存储是不完整的（只有65％满）我使用SSH登录到服务器，并发现昨晚备份已挂起，zfs list或zpool list都已挂起。所以，我打开ESXi中的虚拟主机，是悲伤地看到： (da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0 (da1:mpt0:0:1:0): CAM status: SCSI Status Error (da1:mpt0:0:1:0): SCSI status: Check Condition (da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed) (da1:mpt0:0:1:0): READ(10). …

10 vmware-esxi drive-failure debian

4

硬盘读取错误…停止了吗？

我的故事很简单。我有一台运行Arch Linux的轻型服务器，该服务器将大多数数据存储在由两个SATA驱动器组成的RAID-1上。它正常工作了大约四个月。然后，突然我开始在其中一个驱动器上出现读取错误。总是，消息看起来像这样： Apr 18 00:20:15 hope kernel: [307085.582035] ata5.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Apr 18 00:20:15 hope kernel: [307085.582040] ata5.01: failed command: READ DMA EXT Apr 18 00:20:15 hope kernel: [307085.582048] ata5.01: cmd 25/00:08:08:6a:34/00:00:27:00:00/f0 tag 0 dma 4096 in Apr 18 00:20:15 hope kernel: [307085.582050] …

10 linux hardware drive-failure errors

3

为什么硬盘驱动器发生故障？

我对硬盘发生故障的原因非常感兴趣。有人说这是因为它在运输和运输过程中处理不善，而其他人则说这是由于高温/长时间使用导致的，但我什至听说有人说这是因为灰尘。硬盘故障最可能的答案和原因是什么？

8 hardware hard-drive drive-failure

2

如果LTO-6驱动器的所有LED闪烁，这是什么意思？[关闭]

半高LTO-6驱动器的所有LED均以〜4 Hz的频率闪烁。LTO-5磁带仍在里面，驱动器对命令无反应，重新启动后闪烁继续。我在Tandberg手册中找不到错误代码。该驱动器已有3年历史，仅有15次完整备份的历史，该磁带被写入了两次。因此，我并不期望机械磨损，而是电子问题。这款Tandberg LTO-6驱动器是单独安装在机箱中的LTO-6 HP驱动器，因此也有助于了解该代码对HP LTO-6驱动器的含义。谁知道代码的含义以及在哪里记录？

6 backup hardware drive-failure tapedrive lto

Questions tagged «drive-failure»