为什么我的硬盘驱动器出现故障?


23

我有一个小型的Ubuntu服务器在家里运行,有2个硬盘。磁盘上有两个软件袭击(raid1),由mdadm管理,我认为这无关紧要,但无论如何都提到了这一点。

这两款硬盘均为Western Digital,并且已经使用了大约2年,当时其中一个开始发出咔嗒声并死亡。我认为2年后可能会很自然,所以我买了一个新的,并重新同步了RAID阵列。大约一个月后,另一个驱动器也死了。

我并没有怀疑,因为两个驱动器是同时购买的,看到两个驱动器彼此靠近也就不足为奇了,所以我又买了一个。

到目前为止,系统中有2个旧驱动器发生故障,有2个是全新驱动器。一个月后,其中一个新驱动器失效。这是开始变得可疑的时候。由于PC是由一些真正的旧零件组装而成(例如AthlonXP),因此我认为主板的SATA控制器可能是罪魁祸首。当然,您不能在这样的旧PC上轻松切换部件,因此我购买了整个系统,新的MB,新的CPU和新的RAM。将刚刚发生故障的驱动器退回,因为它已处于保修期内,并已将其更换。

因此,旧驱动器最多有2个故障驱动器,新驱动器最多有1个故障驱动器。没问题,持续1个月。之后,错误在/ var / log / messages中再次蔓延,并且mdadm报告了RAID阵列故障。我开始把头发扯掉。系统中的所有内容都是新的,取决于第三种全新的硬盘驱动器,我购买的所有新驱动器都不可能出现故障。

让我们看看仍然很常见的电缆。好吧,远景,让我们更换SATA电缆。带回硬盘,对柜台的那个家伙微笑,说我真的很倒霉。他更换了硬盘驱动器。我回家,一个月过去了,其中一个硬盘再次出现故障。我不是在开玩笑。

两个全新的硬盘驱动器发生故障。也许这是操作系统中的错误。让我们看看制造商的测试工具怎么说。下载测试工具,将其刻录到CD,重新启动,让硬盘测试过夜。测试说驱动器有故障,如果仍然可以,我应该备份所有内容。我不知道发生了什么,但它看起来并不像软件问题,肯定是硬盘驱动器发生故障。

我现在要提一下,整个系统都在一个鞋盒中。既然有大量的“建造自己的宜家皮套”东西,我认为将东西扔进盒子里然后塞进某个地方应该没有任何问题。盒子通风良好,但我认为可能只是驱动器过热。没有其他可能的答案。因此,我拿回了硬盘驱动器,并进行了更换(第3次),并购买了硬盘驱动器散热器。

而现在,我听到了厄运的声音。单击单击whizzzzzzzzz。SSH进入包装盒:

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...

dmesg输出:

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete

概括:

  1. 没有过热的可能性
  2. 6个驱动器发生故障,其中4个是全新的。现在我不确定原来的两个是否有故障,或与新的一样遭受同样的事情。
  3. 除了OS(现在是Ubuntu Karmic)(以Jaunty开头)之外,系统中没有什么共同之处。新的MB,新的CPU,新的RAM,新的SATA电缆。
  4. 不,硬盘驱动器上的小孔未被覆盖

我在哭 真。我现在没有面子要返回商店,四个驱动器在4个月内不可能出现故障。

我一直在思考一些想法:对驱动器进行分区和重新同步时,是否有可能弄乱了某些东西?会不会很糟糕,以至于物理损坏了驱动器?(由于供应商提供的工具说驱动器已损坏),我使用fdisk进行分区,并对raid1分区使用相同的块大小(我使用fdisk -lu检查确切的块大小)

Linux内核或mdadm或某些与该确切品牌的硬盘驱动器不兼容,并可能对其造成损坏吗?

可能是鞋盒吗?尝试将其放置在其他地方吗?现在在架子下,所以湿度也不是问题。普通的PC机箱是否可以解决我的问题(然后我要开枪自杀)?明天我会照相。

我只是被诅咒吗?

任何帮助或推测,我们将不胜感激。

编辑:电源板可防止过电压。

Edit2:我在这四个月之间移动过,所以两个地方的原因都是“脏”电的可能性很小。

Edit3:我检查了BIOS中的电压(不能借用万用表),它们似乎都是正确的,最大的差异在于12V,因为它提供的是11.3。我应该为此担心吗?

Edit4:我将台式机的PSU放入服务器。BIOS报告的电压读数更准确,并且它已经成功地重建了raid1阵列,这花费了大约3-4个小时,所以我现在感到有些积极。明天将获得一个新的PSU进行测试。另外,附上有关包装盒的图片:(忽略第三个驱动器)

厄运盒子的图片


7
你为什么这么讨厌硬盘?
杰夫·阿特伍德

3
相反,他们恨我。充满热情。
K. Norbert

4
WishCow,如果使用薄片状电源进行驱动器测试,则仅反映使用薄片状电源的驱动器操作。在许多情况下,如果供电不当而发生故障的硬件在提供适当的电源后将可以正常工作。坦白说,电源故障占所有硬件问题的大部分。当我怀疑硬件组件有问题时,我的第一个动作是尝试使用已知良好的电源...
理查德T 2010年

3
配电盘只能保护您免受过电压的侵害;它不会保护您免受欠压。如其他人所指出的那样,UPS(至少要花费其盐分中的任何盐)将“清洁”肮脏的电源,因为它将由电池供电,而不是直接从电源输出。
韦恩·哈特曼

3
嗨,WishCow,您可以通过将所有组件与任何导电材料连接在一起来使它们接地。传统上,人们使用“外壳”,但是您可以使用电线。磁盘驱动器上有许多用于固定螺钉的螺纹孔-完美。母板可能会比较棘手,因为它打算通过外壳中的安装螺柱接地。他们让“对峙”,已在一端的螺丝和有螺纹紧固件其他。您可以使用其中的一个,螺钉和螺母将其连接到板子的一个安装孔中,以使导线附件脱离板子本身。-cont-
Richard T

Answers:


26

您的电源也旧了吗?可能是驱动器功率不足/功率过大导致了故障。如果您有万用表,我将尝试测量硬盘驱动器中正在运行的电压,并观察一段时间。另一个罪魁祸首可能是“脏”电,因此,UPS可能会正常运转,以便“清理”流入PSU的电源。


psu!那太老了,将尝试使用万用表。我忘了提一下,但是电源板可以防止过电压,至少它是某种特殊类型的。谢谢你的建议。
K. Norbert

电源不可靠可能导致硬盘驱动器等电子组件发生故障。在阅读您的帖子时,PSU是我想到的第一件事。
ConcernedOfTunbridgeWells,2010年

标记为已接受,直到硬盘再次放弃,并考虑将组件接地。谢谢你的提示!
K. Norbert

WishCow,希望您现在意识到这不是正确的答案。问题是/您没有为组件提供任何依据。
理查德·T

2
可能是PSU加上没有接地。您引用的+ 12V电压非常低(实际上不符合ATX规范),我从经验中知道HDD易受低压的影响-它们会产生各种奇怪的错误,因此您认为MB,CPU或内存有故障。对于使用PC的任何人,实际上都值得拥有一个知名的PSU,以便您可以检查问题是否与电源无关。
raw_noob 2010年

14

我同意别人:力量。

但是,有个转折。

所有组件都必须具有公共接地-机箱是典型的,但在您的情况下,谁知道呢!我敢肯定,“漂流地面”会造成这种情况

您希望所有组件都连接到单个接地,并且该接地要连接到设备的“电网”接地。这个很重要。

顺便说一句,有可能,所有旧的硬件确实还行!我发现使用片状电源的设备有时会在提供适当电源后仍然可以正常使用。

我希望这有帮助。

逆转录


哦,天哪,我希望旧的硬件不能正常工作,因为我已经将它丢弃了。测试仪工具说硬盘坏了。将尝试更换PSU。
K. Norbert

6
我在运行“无外壳”系统时遇到了地面问题(所有零件都安装在一个plexy上并悬挂在墙上。)解决方案是从电源盒到每个设备的机箱和主板的地线使用一根地线。
克里斯·纳瓦

5

这是旧帖子,原始问题可能不再与提出问题的人相关。但是,为了将来供人们参考来构建廉价PC,Power并不是磁盘驱动器的全部问题。在我看来,作为EMC认证的实施工程师,这是一个误导性的回答,因为计算机是在纸板箱内,所以将电源归咎于是唯一的责任方。

硬盘会振动,尽管没有特定的位置(垂直或水平)会增加或减少磁盘的使用寿命,但是,带有主轴的硬盘驱动器会产生振动因素。此处显示的驱动器只是放在纸板箱中。这是预算工程的一个例子,振动驱动器位于其侧面,进一步增加了碟片上的共振。尽管这本身并不能解决问题,但安装不正确的硬盘可能会导致磁盘故障,原因是盘片振动会干扰读写头正确接触盘片。

一般而言,电源,廉价电源始终对计算机不利,但是,此PSU不太可能会杀死硬盘驱动器,而不会杀死板上的其他更敏感的组件。该系统位于纸箱中,因此工程和功能可能会导致更严重的故障,但不一定会导致磁盘故障。有可能,但在这种情况下没有得到证明。

热量:热量可能会损坏磁盘,但是,如果在故障发生时接触不到热量,热量就不是问题的根源。对于PC或服务器,卡板盒并不是一个好的工程壮举。最好将零件用螺栓固定在计算机桌或工作台上,至少将它们接地。

软RAID和廉价驱动器。鉴于照片中显示的纸板箱和旧部件,您似乎正在使用标准台式机驱动器和Soft RAID。可以将台式机驱动器放置在RAID控制器上,但是,随着磁盘上I / O的增加,磁盘故障的机会也会增加。在这种情况下,映像的磁盘不在硬件RAID控制器上,而是与主板上的软件组件组合在一起。这对于硬盘驱动器不是理想的。这会增加CPU的工作量,并且已知软RAID会出错并过早地杀死硬盘驱动器。软RAID可能首先杀死了这些驱动器。

预防将来的构建:如果您正在阅读此书,并通过google问题看到了这个旧的用户场景,或者不是:

-确保将磁盘正确安装在稳定的硬盘驱动器机箱中。用至少4个硬盘驱动器螺钉将磁盘固定,或使用机箱随附的特殊磁盘底座。

-确保您的机箱中有足够的空气流通,RAID中的硬盘往往在磁盘上具有更多的I / O,并且比单独安装物理卷时要热得多。

-请勿使用廉价的电源。脏电是昂贵的计算机零件的杀手。还要确保您的电源提供足够的功率以处理所需的工作负载。

-使用RAID控制器卡!切勿在主板上使用软RAID。与RAID控制器卡相比,软RAID降低磁盘性能并增加磁盘故障的可能性。

-RAID通常会增加磁盘故障的机会,因为所有卷的I / O都增加了。连接的磁盘池越大,驱动器发生故障的机会就越高。如果您使用RAID驱动器,请始终使用奇偶校验驱动器和热备用。如果使用RAID 0 2-3磁盘,则可能会丢失数据。如果您有3个磁盘,请使用RAID 5!如果您的驱动器在保修范围内,则RAID 5(4 + 1)上的6个具有热备用磁盘的磁盘非常理想。如果您负担不起更多磁盘或磁盘不在保修范围内,请不要使用RAID。

-台式机驱动器不是企业级驱动器。桌面驱动器与企业驱动器相似,但并非旨在处理RAID控制器带来的巨大工作量。如果您从newegg购买台式机驱动器并在主板上进行RAID组装,则您第一年可能会遇到至少一个驱动器故障。您在RAID上操作计算机的时间越长,向磁盘写入的I / O越多,并且卷出现故障的可能性就越大。将便宜的驱动器与便宜的主板软RAID结合使用,您会受到伤害。

该用户可能在鞋盒服务器中遇到了所有这些因素。廉价电源,不良气流,未正确安装在机箱中的旧廉价驱动器以及主板软RAID ...所有这些都增加了发生磁盘故障的机会。


4

我无法想象您在鞋盒中如何保持良好的通风和散热?您真的应该为一台真正的电脑机箱掏出50或60美元吗?

配电盘只能防止电涌;电子设备的常见问题是欠电压(掉电)和过电压(尖峰)。EMI噪声也很常见-一段时间前我们有一台不稳定的计算机,结果证明这是由于在同一电路上安装了跑步机引起的(我个人对此进行了验证)。它将使调制解调器脱机,并导致系统不时冻结。

同样,持续暴露于噪声和电源波动中,最终会损坏PSU,随着时间的流逝,会降低传递给电子设备的电能质量。

编辑:电力波动可以隔离到特定电路。更重要的是,诸如微波炉,冰箱,跑步机,火炉之类的高耗电设备可能对该电路的电能质量产生重大影响。冰箱等事物也具有连续的开/关操作周期,当电动机启动和退出时,棕色会变成褐色并在电源线上产生尖峰功率。

另外,如果您由同一家电力公司服务,则他们可能一直无法在整个板上提供电压。在105V和125V之间不断波动会对电子设备产生负面影响(据我所知)。


盒子没有盖,硬盘上有冷却器。良好的通风在这里可能不是正确的术语,但绝对不是过热,我已经使用smartmontools检查了温度。但是,如果问题出在电子方面,家庭中的其他计算机是否不会引起某些症状?另外,我现在要补充的问题是,在四个月之间我已搬到新地方,所以两个地方都不太可能出现电力问题。
K. Norbert

移动后,您可能仍然在与计算机相同的电路上拥有相同的设备;而且您的PSU可能已经被枪击,因此损坏可能已经造成。我想我首先要获得便宜的电源滤波 UPS(约100美元),然后立即更换计算机上的PSU(约60美元)。
劳伦斯·多尔

2

听起来确实像是电源问题。

如果确实有电涌,许多便宜的电源板将只工作一次-通常没有迹象表明它们不再受到保护。

一个好的UPS可能会有所帮助-一些高端的UPS实际上是由电池供电的,并且不断地充电,提供完全隔离的电源。唯一的缺点是它们可能很吵。


从他“塞进去”的插座上可以不是一个问题吗?我倾向于先在房子的某个地方尝试一下,以免受到电压消耗大的人和剥线的影响。
mtone 2010年

我实际上是从Costco那里花了100美元买了一个功率调节UPS。电池不是很大,只能提供足够的电力来保持我的互联网调制解调器和电话亭正常运行,但是我购买它主要是为了调节计算机的电源。
劳伦斯·多尔

盒子基本上在架子下面,没有盖,也没有在其他电器附近。(除了没有插入atm的ps2之外)。如果是电力,它还会在其他PC上引起一些问题吗?
K. Norbert

我可能是进入建筑物的电源,也可能是房屋中的其他物品-不需要靠近故障设备来影响电源。可能是电源的边缘,所以它比其他计算机受干扰的影响更大
chris

2

实际上,HDD制造商不会在驱动器上打印有关工作位置的信息,但将硬盘驱动器侧放完全可以。我上次检查该信息时,可以将驱动器放平放置或侧面放置,并且与这些位置的夹角最大为5度或10度。颠倒放置它们或使连接器朝上或朝下都不是合法位置。大约15年前,朝上或朝下的连接器一直是运输的最佳位置。这是我所掌握的最新信息。

我在全新的500GB WD绿色硬盘驱动器上遇到相同类型的错误,并且您的SATA电缆看起来像我的,并且我非常怀疑它们。

接地问题不是一件坏事,应通过正确安装在金属外壳上将组件接地,但如果所有连接器和电缆都100%正常,则不应该这样做。

当然,电源故障可能会对整个系统造成很多不良影响,我将使用新的PSU ASAP进行测试,最好将所有部件安装在适当的机箱上。

祝好运


1

我同意,可能是罪魁祸首。但是,考虑过热是可能的原因。如果驱动器摸起来很热,则它们太热。给他们放一个风扇。


驱动器上有风扇。
诺伯特

1

您可以通过查看SMART值来检查它们是否过热。无需将外壳接地,因为许多热插拔托架都是塑料的且未接地。通过SATA电缆接地应该足够。牢固安装它们可能有助于解决振动问题。磁头不会碰到盘片,而是会略微移到上方并撞击盘片,这会导致细小颗粒破裂,最终导致磁头碰撞。



0

鞋盒(完全没有屏蔽)旁边是否可能有任何大型扬声器,冰箱,空调,电动机或其他磁性源?


不幸的是,没有。
K. Norbert

0

我同意,糟糕的地面可能是导致您存储惨案的原因。但是,我也会更牢固地“固定”硬盘驱动器,因为振动会引起永久性损坏。


0

检查为驱动器风扇分配功率的功率分配器。间歇性连接器可能会导致驱动器在关键时刻掉电并使其崩溃。绝对需要在MB,PSU和HD之间建立坚实的基础。


-3

我认为将硬盘驱动器放在一边可能会导致它们无法正常工作,因为在大多数情况下,硬盘驱动器平放在计算机机箱中。


2
这不是原因。硬盘并不真正在意它们的方向。
Dan D.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.