我们有一个使用了三年的Linux服务器。我们正在其上运行许多虚拟化服务器,其中一些表现不佳,并且在相当长的时间内,服务器的io容量超出了容量,导致iowait故障。它有4个500GB梭子鱼SATA驱动器连接到3com RAID控制器。1个驱动器有操作系统,其他3个是安装RAID-5。
现在,我们就驱动器的状态以及驱动器是否正在发生故障进行辩论。
这是4个磁盘中的1个磁盘的部分输出。它们都有相对相似的统计数据:
SMART Attributes Data Structure修订版号:10 具有阈值的供应商特定的SMART属性: ID#ATTRIBUTE_NAME标记值最坏的阈值类型已于WHEN_FAILED RAW_VALUE更新 1 Raw_Read_Error_Rate 0x000f 118099006始终预失败-169074425 3 Spin_Up_Time 0x0003 095092000总是故障前-0 4 Start_Stop_Count 0x0032 100100020始终老龄-26 5 Reallocated_Sector_Ct 0x0033 100100036预故障始终-0 7 Seek_Error_Rate 0x000f 077060030始终预失败-200009354607 9 Power_On_Hours 0x0032 069069000始终有老人年龄-27856 10 Spin_Retry_Count 0x0013 100100097始终预故障-1 12 Power_Cycle_Count 0x0032 100100020始终老龄-26 184 Unknown_Attribute 0x0032 100100099老年总是-0 187 Reported_Uncorrect 0x0032 100100000 Old_age Always-0 188 Unknown_Attribute 0x0032 100100000始终老龄-1 189 High_Fly_Writes 0x003a 100100000老年总是-0 190 Airflow_Temperature_Cel 0x0022 071060045始终老龄-29(终生最低/最高26/37) 194 Temperature_Celsius 0x0022 029 040 000 Always Old_age Always-29(0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046033 000 Always Old_age Always-169074425 197 Current_Pending_Sector 0x0012 100100000老年总是-0 198 Offline_Uncorrectable 0x0010 100100000老年离线-0 199 UDMA_CRC_Error_Count 0x003e 200200 000老龄始终-0 SMART错误日志版本:1 没有记录错误
我对此的解释是,我们没有任何坏道,也没有其他迹象表明任何驱动器正在发生故障。
但是,高的Raw_Read_Error_Rate和Seek_Error_Rate表示驱动器快要死了。