Windows DFSR-更改了复制目录权限,现在积压了350,000多个星期


10

问题:有没有办法使这350,000个文件积压工作更快完成?对于几乎每个文件,唯一的变化就是对每个受影响文件的ACL进行了更改。某些文件的内容已更改,但是在这种情况下并不常见。

这可能是固定的。经过一段时间的验证后,我将编辑此文本以确认成功/失败。在本问题文本的结尾,我详细介绍了最近可能已解决的更改。

我们有一个DFSR复制组,其中包含约450,000个文件,并占用1.5TB的空间。在这种情况下,有两台Windows Server 2008 R2服务器相距约500英里。还有其他服务器,但是这些服务器不参与此复制组。服务器ALPHA是主要服务器,并且是大多数员工使用的服务器。服务器测试版是远程办公室中的服务器,不太忙。

这是此复制组(Google云端硬盘上托管的PNG)的积压工作图,显示了同步进度缓慢。

我需要删除该复制组的根目录中的一个权限条目,该权限条目当然是在大多数子文件夹中继承的。我在服务器ALPHA上进行了此更改。此后,DFSR立即积压了350,000个文件。已经有一个多星期了,现在是267,000。唯一更改的内容(最初)是单个权限的更改。

这就是发生的情况(这不是解决方案,只是对导致此问题的原因的另一种解释):http : //blogs.technet.com/b/askds/archive/2012/04/14/saturday-mail-sack因为它可以星期五星期五晚上打架了。aspx#dfsr

服务器BETA上发生的任何更改都将很快复制到服务器ALPHA,因为该方向没有积压。在BETA上更改的任何文件都可以毫无问题地添加到ALPHA。

它通过一端的50Mbps连接以全速复制24/7,另一端则是100Mbps光纤。每台服务器上的暂存区域为100GB。事件日志中没有任何有趣的东西。对于不相关的复制组,将显示一个不相关的高水印事件,该事件既不适用于此特定复制也不适用于此ALPHA / BETA服务器对。特别是,没有高水位或连接错误的事件日志条目。

ALPHA对复制组的看法:

节省带宽:减少99.83%(复制了30.85 MB,而不是18.1 GB)

我相信30.85MB / 18.1GB是自上次在ALPHA和BETA上重新启动DFSR服务以来发生的。如果是这样,这表明即使花费了很长时间(比我认为的要长),它实际上并没有通过网络传输文件内容。

复制文件夹:1.46TB(实际大小),439,387(文件),52,886(文件夹)

冲突和已删除文件夹:100.00GB(配置的大小),34.01GB(实际大小),19,620(文件),2,393(文件夹)

暂存文件夹:200.00GB(已配置大小),92.54GB(实际大小)

我在日志中(5月14日晚上7点)遇到了一个高水印错误,因此将暂存配额从100GB增加到了200GB。我知道Microsoft批准的途径将增加20%,但是我并没有对此进行讨论。我们有足够的磁盘空间可用于暂存磁盘阵列。

禁用防病毒软件的所有服务器上并没有帮助,但我认为这将有助于一点点。现在,我已经重新启用了防病毒功能,但是将复制组的路径设置为不扫描,以便从公式中删除该变量。

有没有办法让它更快?我也将在服务器BETA上进行此更改,但是有些文件在ALPHA上已更改但尚未复制到BETA,并且通过在BETA上进行继承的权限更改会将文件从BETA 推送到ALPHA(因为DFSR似乎比较哪个文件是冲突中的胜者时,请忽略文件时间戳记。发生这种情况将是相当糟糕的。

积压量正在缓慢减少。非常非常缓慢 不过,它正在向前发展。但以这种速度,还需要数周才能完成。我正在考虑只是将数据集的副本推到3TB驱动器上,然后将其运送到远程办公室。有没有更好的办法?

5月16日凌晨4点(美国时间):可能已解决了该问题(无论如何,如果确实是已解决):

我对DC进行了许多更改,而这些更改本应该是很久以前的。问题是该网络是从其他人那里继承的,而该人可能是从其他人那里继承的,等等。我不能保证哪个更改可以解决问题。在这里,它们没有特定的顺序:

  • 所有DC都不在“域控制器” OU中。我从未见过Windows域在其他地方具有DC。我将它们移回了它们所属的地方。他们以前是在OU中,按每个办公室所在城市的名称来区分。(我觉得我搬走了那些,现在我需要做一些管道工作,但目前看来还可以。)
  • AVG Anti-Virus在所有参与DC和DFSR的服务器上运行。我从主动/按访问扫描中排除了复制的文件夹和临时文件夹。我认为这不能解决问题,以后可能会测试该问题,以了解是否撤消该更改是否会干扰DFSR的复制速度。这是另一天的挑战。
  • dcdiag.exe抱怨有关RODC的DNS问题。即使我们在域上根本没有RODC,我也解决了这个问题。我怀疑这没有解决任何问题。
  • 对于其中一个DC(不是DFSR服务器之一),缺少_ldap._tcp.domain.GUID._msdcs.DOMAIN.NET SRV记录之一,我对此进行了纠正。我也不认为这有帮助。
  • 我重启服务器测试版的其中一次,它抱怨DFSR数据库严重关闭(事件2212),然后它花费了数小时来重建数据库。完成后,它报告事件2214,让我知道它已完成。此后,复制仍然非常缓慢地运行,但是它可能有助于解开任何卡住的内容。
  • 其中一个DC在其接口配置中没有127.0.0.1作为辅助DNS服务器。我加了 这不是DFSR服务器之一,因此可能与它无关。
  • 我关注了TechNet博客:在DFSR中优化复制性能建议使用DFSR服务器的注册表设置。我使用了所有“经过测试的高性能值”值,但AsyncIoMaxBufferSizeBytes设置为4194304,这比高值低了一个档次。这本来可以解决问题的……或可能没有。很难说出何时更改了太多变量。
  • dcdiag.exe抱怨与BETA上的RPC服务通信存在问题,但仅在进行了上述更改之后。这似乎是最有可能发生的问题,但是我没有做任何纠正。VPN运行正常,防火墙没有阻止它。以上问题之一可能是引起该问题的原因,然后纠正了RPC问题,或者这可能是偶然的。我现在没有收到该错误,复制目前正在顺利进行。

这个故事的寓意是:一次更改一件事,否则您将永远无法真正知道解决问题的方法。但是我很拼命,没有时间来修复它,所以我只是为解决这个问题开了一枪。如果我能找到正确的解决方法,我将在此处报告。不过,请不要依靠我来缩小范围。

编辑5/21/2012: 我昨天用备用服务器(GAMMA)开车到远程办公室大约七个小时,解决了这个问题。GAMMA现在充当其主要本地服务器,而其常规服务器(BETA)则赶上了复制。自从我将其放置到位以来,服务器的复制速度一直在翻倍。尽管这告诉我这可能是与VPN相关的问题,但我不太倾向于相信这是因为所有似乎从ALPHA复制到GAMMA的新更新都非常快而且进展顺利。

编辑5/22/2012: 现在是12000,应该在几个小时内完成。我将发布一张从慢速开始到快速完成的进度图表。问题在于,真正真正“修复”的唯一东西是本地服务器连接。我目前在想,也许VPN是问题的一部分。如果是这样,我觉得这个问题还没有完全解决。在我有更多时间检查通过VPN复制事物并看到任何故障之后,我将调试并报告进度。

如果有什么变化,我会在这里更新。


您的站点和远程站点之间需要复制多少数据以及多少带宽可用?另外,您是否限制DFS复制?
MDMarra

1
我要添加的答案与MDMarra相同(请检查您的复制计划和分段大小),因此我只发表评论。如果是权限更改,则不是要复制的实际数据,而是每个文件上的安全属性。在这些情况下,积压订单通常不依赖带宽。您没有提到事件日志中显示的任何内容,但是值得一看。同时为复制组运行DFSR诊断报告。
杰夫·迈尔斯

2
此外,Windows Server 2012中具有的功能,应该永远地带走这个问题:blogs.technet.com/b/askds/archive/2012/04/14/...
杰夫万里

我更新了问题以回答这些问题。
艾玛莉·威尔逊

dfsrdiag replicationstate /a显示它仅发送两个文件,但是文件名相同。它说,无论如何,它有两个从ALPHA到BETA的出站连接。它发送的文件是850MB。如前所述,我不确定它实际上是在发送整个文件的内容,尽管我不确定如果不发送该文件会做什么,因为处理单个文件需要很长时间。该文件的最新更新时间是2008年(在两台服务器上),因此,除了在BETA上更新该文件上的ACL信息外,没有任何其他理由。
艾玛莉·威尔逊

Answers:


2

非常奇怪的问题,尤其是在检查了编辑之后。

我将检查DFSR调试日志,该日志位于此处:%systemroot%\ debug默认情况下,应该有9个以前的日志文件已被GZ存档,并且当前正在被写入。

在文本文件中将其打开,然后搜索文本“警告”或“错误”。您可以查看此博客系列以获取有关调试日志的更多详细信息:http : //blogs.technet.com/b/askds/archive/2009/03/23/understanding-dfsr-debug-logging-part-1-日志记录级别日志格式guid-s.aspx

其他问题/建议:

查看资源监视器时,有什么地方不对吗?超出基准的硬盘驱动器或CPU活动过多?

如果可能的话,我将重新启动Alpha和Beta服务器。如果它可以解决您的问题,则您可能永远不知道真正的问题是什么,但是,如果能尽快解决此问题至关重要,则值得尝试。

根据问题更新进行编辑

您提到了两个与850 MB文件相关的条目,以及DFSR调试日志中的错误。

您可以尝试将暂存位置更改为每个服务器上的其他文件夹或驱动器吗?如果当前正在暂存的文件已损坏或以某种方式阻止了复制。


最新的日志文件没有与“警告”匹配的内容,但确实有错误。错误全都像这样:“ 20120513 23:38:59.198 6592 ASYN 755 [WARN] AsyncUnbufferedFileWriter :: SetFileSizeEstimate [Error:87(0x57)FileUtil :: SetFileValidDataLength fileutil.cpp:1657 6592 W该参数不正确。]我还禁用了防病毒软件,以查看是否导致了这种可怕的速度下降。我忘记了av甚至在那些服务器上,它很可能是造成麻烦的原因。:-|
艾玛莉·威尔逊

反病毒说明已添加到问题中。如前所述,它似乎没有任何影响。
艾玛莉·威尔逊

在调试此问题的过程中,我多次重新启动了ALPHA和BETA。除了在相对服务器上的事件日志中的相关错误之外,它似乎没有任何影响。两台服务器上的CPU活动非常低。即使在中午负载较高的情况下,也几乎不会达到20%的平均值。与RAM相同。磁盘写入非常频繁,但从未显示为100%固定。它似乎不受磁盘IO约束。现在,我只需要假设某个地方正在等待某种查找和超时?我看不到这种现象的任何其他原因。我仍在挖掘...
艾玛莉·威尔逊

由于应用了Windows Updates,我不得不再次重新启动BETA,它重新启动为2212,但没有重新启动2214,所以现在我等待。也许这是好事的预兆。或者,这意味着BETA上还有更多搞砸的内容。服务器:pfft。
艾玛莉·威尔逊

... 没有骰子。同样的缓慢,同样的问题。我会继续推。
艾玛莉·威尔逊

5

您可以调整复制计划,以允许DFS-R在非工作时间(或适当的时候甚至几个小时)全速复制。

您也可以尝试增加回存服务器上的暂存大小。在这种情况下,它应该提高性能。

您没有提到它是否受限制,但是我想是因为您已经通过WAN复制了。


我更新了问题以回应您的回答。特别是,它详细说明了24/7全速复制计划和100GB暂存区域。如果这些项目尚未到位,您所说的内容将很有帮助。感谢您对此的互动。
艾玛莉·威尔逊

1

我的经验是,这就是它的工作方式。

在更新了相当少量的4个DFS复制组(550 GB数据,58k文件,3.4k文件夹)的安全性后,我偶然发现了这一点。在线上实际传输的数据很低,因此似乎不是为了安全性更改就移动了整个文件,但是磁盘活动感觉就像是在复制整个层次结构-持续的磁盘传输速率在60-100 MB /秒之间,并且磁盘队列最多30个,在SSD分层存储空间上最高达到500个。

我的感觉是,DFS在其暂存和降级过程中会产生很多混乱,从而导致磁盘I / O过多。在两个千兆位局域网连接的盒之间进行初始复制过程所花费的时间要比在盒之间简单复制文件所花费的时间长很多倍,这似乎表明复制的每个字节都需要多个字节的磁盘读写。

安全更新似乎没有任何特殊的复制逻辑,禁止使用基于2012声明的安全性(未广泛使用的AFAICT),从而导致与数据更改相同的阶段/阶段变更。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.