ReFS /存储空间驱动器在重负载下掉落


8

我的公司内部有Windows 10工作站,用于图像处理(Photoshop)和软件开发(Eclipse)。这是一台基于i7-2600K的计算机,技嘉GA-B75M-D3H B75主板,16 GB RAM。操作系统使用Samsung 850 pro SSD,另外还有850 pro用于数据存储,WD Black用于数据存储,另外两个4GB HGST驱动器分别位于存储空间镜像中的SATA 3端口上,格式为ReFS,格式为ReFS。阵列使用了1.63GB,免费使用了1.99GB。

最近,存储空间镜像中的ReFS驱动器已开始下降-到目前为止,一个月中已有3次。长时间运行后,这通常在中等到重载下发生。据我所知,没有其他磁盘在负载下掉落,因此我认为是ReFS,存储空间或基础磁盘有问题。重新启动会使磁盘联机。

我可以在事件查看器中看到如下错误。这些不是全部放在一个地方,尽管“应用程序和服务日志->微软-> Windows”下有NTFS和存储空间日志区域,但ReFS似乎没有一个。

我很乐意帮助您找出导致这些问题的原因并加以解决,以使我的系统正常运行。

16:27.05 (under event viewer -> application and services log -> microsoft -> windows -> storagespaces-driver-operationsl
Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} requires a data integrity scan.                                    
Data on the disk is out-of-sync and a data integrity scan is required.                  To start the scan, run the following command:                  

Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask                  

Once you have resolved the condition listed above, you can online the disk by using the following commands in PowerShell:                  

Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsReadOnly $false                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsOffline  $false

16:27.05 (windows system event log): The file system was unable to write metadata to the media backing volume R:. A write failed with status "A device which does not exist was specified." ReFS will take the volume offline. It may be mounted again automatically.
16:27.06 (windows system event log): The file system detected a checksum error and was not able to correct it. The name of the file or folder is "<unable to determine file name>".
18:35.50 (windows system event log): Failed to connect to the driver: (-2147024894) The system cannot find the file specified. 
18:35.50 (Kernel PNP) The driver \Driver\WudfRd failed to load for the device SWD\WPDBUSENUM\_??_USBSTOR#Disk&Ven_Generic&Prod_STORAGE_DEVICE&Rev_9451#7&2a9fd895&0#{53f56307-b6bf-11d0-94f2-00a0c91efb8b}.

18:35.58: Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} could not be repaired because there is not enough free space in the storage pool.                  
Replace any failed or disconnected physical disks. The virtual disk will then be repaired automatically or you can repair it by running this command in PowerShell:                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Repair-VirtualDisk

yagmoth指出此错误包括有关USB的某些信息。我记得发生此错误的情况是:a)备份到外部USB磁盘时b)运行CrashPlan备份到另一个内部SATA磁盘时


1
杀毒软件删除,以防其Windows 10兼容性问题?就像mcafee在周年升级时遇到了麻烦
yagmoth555

@ yagmoth555我想我可以尝试一下,但是对我来说似乎不太可能。我对如何解决问题本身很感兴趣,而不是猜测和检查。
蒂姆(Tim)

可悲的是,没有更多日志了,我怀疑是底层硬件问题。由于AV的想法很容易测试,就像您的镜像无法处理IO一样,访问/写入时的AV驱动程序也无济于事(因为通过在两者之间安装驱动程序会减慢IO的速度)。可以先尝试使用流程监视器来记录所有内容。如果全部失败,我将尝试删除镜像以在之后再次进行测试(但遗憾的是,该测试仍然是测试/错误测试)。请
随时

我可以问一下您的镜像是否用usb磁盘完成了吗?作为内核错误状态的USB驱动程序
yagmoth555

两个磁盘均在SATA 3Gbps上。很好地发现了USB错误。问题已更新。我不在机器上呆了一周左右,但是我将尝试再次触发它,看看日志是否不同。ProcessMonitor看起来会生成大量日志,但是我会在某个时候感谢您的帮助。
蒂姆(Tim)

Answers:


2

存储空间似乎对写入延迟非常敏感:如果峰值过多,则可以丢弃该卷。

使用消费类SSD时,这似乎是一个已知问题,如您在这里所见


感谢您提供的信息。我的ReFS /存储空间磁盘是4TB HGST硬盘驱动器,而不是SSD。我的SSD运行NTFS。写延迟的事情虽然很有趣。
蒂姆(Tim)

1

首先,您确实应该检查HCL。我敢打赌,晚餐很不错,您在Storage Spaces HCL上没有提到任何内容。与vSAN一样,Windows和存储空间具有完全不同的HCL。我什至无需查找驱动器就可以知道它们都不在HCL上,因为它们都不是企业级驱动器。

如果需要稳定的解决方案,请获取LSI SAS卡(非RAID),获取企业SATA HDD并获取Intel dc系列SSD。这个很贵吗?是的 会可靠吗?就存储而言,Windows可以达到最大程度(这不是很好)。

我,我丢了存储空间,然后回到LSI RAID卡。每周从数据损坏到在同一硬件上存放两年以上的固态存储。我有HCL上的所有企业级工具包。

您可以在此处找到硬件兼容性列表(HCL)https://www.windowsservercatalog.com/results.aspx?&chtext=&cstext=&csttext=&chbtext=&bCatID=1642&cpID=0&avc=10&ava=0&avq=0&OR=1&PGS=25&ready=0


1
感谢您的想法Eric。也许您可以编辑帖子以扩展“ HCL”,因为我不知道这意味着什么,其他人也不会阅读此帖子。我认为诸如存储空间之类的软件RAID的全部目的是避免对昂贵的企业级解决方案的需求。我不确定您的回答“扔掉并买其他东西”是否真的解决了我的问题。
蒂姆(Tim)

请参阅我的评论,HCL =经认证可按外行条款工作的硬件。SW RAID不等于或意味着您可以跳过企业级硬件,这意味着您具有基于SW的解决方案的灵活性。
埃里克·辛格

...并停止使用ReFS,切换回NTFS。它比ReFS更加成熟。ReFS前景广阔,但还有很多工作要做。
埃里克·辛格

我写了一篇有关Storage Spaces BTW的博客文章,开始了一系列文章,但由于IMO是POS而放弃了。像大多数MS解决方案一样,它的一半已经成熟。 ericcsinger.com/backup-storage-part-5-failure-a-failure 我们切换回RAID卡,此后没有出现任何问题。由于使用的是镜像,因此最好设置一些robocopy脚本以将数据从一个磁盘复制到另一个磁盘。故障排除更容易并且可能更可靠,这将使您可以保留用户级磁盘。
埃里克·辛格

1
也就是说,由于要镜像磁盘,因此可以逐出一个磁盘,使用NTFS对其进行格式化,然后将数据复制到该磁盘上。我强烈建议不要使用存储空间,因为您看到的问题与ReFS无关,而与存储空间有关。与将磁盘逐出或显示为故障有关的任何事情都与存储空间有关。如果您只是想使磁盘保持同步以拥有本地副本,则robocopy是最简单的方法,它只是并非全部都是实时的。
埃里克·辛格
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.