我有一个小型的Ubuntu服务器在家里运行,有2个硬盘。磁盘上有两个软件袭击(raid1),由mdadm管理,我认为这无关紧要,但无论如何都提到了这一点。
这两款硬盘均为Western Digital,并且已经使用了大约2年,当时其中一个开始发出咔嗒声并死亡。我认为2年后可能会很自然,所以我买了一个新的,并重新同步了RAID阵列。大约一个月后,另一个驱动器也死了。
我并没有怀疑,因为两个驱动器是同时购买的,看到两个驱动器彼此靠近也就不足为奇了,所以我又买了一个。
到目前为止,系统中有2个旧驱动器发生故障,有2个是全新驱动器。一个月后,其中一个新驱动器失效。这是开始变得可疑的时候。由于PC是由一些真正的旧零件组装而成(例如AthlonXP),因此我认为主板的SATA控制器可能是罪魁祸首。当然,您不能在这样的旧PC上轻松切换部件,因此我购买了整个系统,新的MB,新的CPU和新的RAM。将刚刚发生故障的驱动器退回,因为它已处于保修期内,并已将其更换。
因此,旧驱动器最多有2个故障驱动器,新驱动器最多有1个故障驱动器。没问题,持续1个月。之后,错误在/ var / log / messages中再次蔓延,并且mdadm报告了RAID阵列故障。我开始把头发扯掉。系统中的所有内容都是新的,取决于第三种全新的硬盘驱动器,我购买的所有新驱动器都不可能出现故障。
让我们看看仍然很常见的电缆。好吧,远景,让我们更换SATA电缆。带回硬盘,对柜台的那个家伙微笑,说我真的很倒霉。他更换了硬盘驱动器。我回家,一个月过去了,其中一个硬盘再次出现故障。我不是在开玩笑。
两个全新的硬盘驱动器发生故障。也许这是操作系统中的错误。让我们看看制造商的测试工具怎么说。下载测试工具,将其刻录到CD,重新启动,让硬盘测试过夜。测试说驱动器有故障,如果仍然可以,我应该备份所有内容。我不知道发生了什么,但它看起来并不像软件问题,肯定是硬盘驱动器发生故障。
我现在要提一下,整个系统都在一个鞋盒中。既然有大量的“建造自己的宜家皮套”东西,我认为将东西扔进盒子里然后塞进某个地方应该没有任何问题。盒子通风良好,但我认为可能只是驱动器过热。没有其他可能的答案。因此,我拿回了硬盘驱动器,并进行了更换(第3次),并购买了硬盘驱动器散热器。
而现在,我听到了厄运的声音。单击单击whizzzzzzzzz。SSH进入包装盒:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
dmesg输出:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
概括:
- 没有过热的可能性
- 6个驱动器发生故障,其中4个是全新的。现在我不确定原来的两个是否有故障,或与新的一样遭受同样的事情。
- 除了OS(现在是Ubuntu Karmic)(以Jaunty开头)之外,系统中没有什么共同之处。新的MB,新的CPU,新的RAM,新的SATA电缆。
- 不,硬盘驱动器上的小孔未被覆盖
我在哭 真。我现在没有面子要返回商店,四个驱动器在4个月内不可能出现故障。
我一直在思考一些想法:对驱动器进行分区和重新同步时,是否有可能弄乱了某些东西?会不会很糟糕,以至于物理损坏了驱动器?(由于供应商提供的工具说驱动器已损坏),我使用fdisk进行分区,并对raid1分区使用相同的块大小(我使用fdisk -lu检查确切的块大小)
Linux内核或mdadm或某些与该确切品牌的硬盘驱动器不兼容,并可能对其造成损坏吗?
可能是鞋盒吗?尝试将其放置在其他地方吗?现在在架子下,所以湿度也不是问题。普通的PC机箱是否可以解决我的问题(然后我要开枪自杀)?明天我会照相。
我只是被诅咒吗?
任何帮助或推测,我们将不胜感激。
编辑:电源板可防止过电压。
Edit2:我在这四个月之间移动过,所以两个地方的原因都是“脏”电的可能性很小。
Edit3:我检查了BIOS中的电压(不能借用万用表),它们似乎都是正确的,最大的差异在于12V,因为它提供的是11.3。我应该为此担心吗?
Edit4:我将台式机的PSU放入服务器。BIOS报告的电压读数更准确,并且它已经成功地重建了raid1阵列,这花费了大约3-4个小时,所以我现在感到有些积极。明天将获得一个新的PSU进行测试。另外,附上有关包装盒的图片:(忽略第三个驱动器)