查找局域网内TCP重传的原因


25

您好服务器故障的居民

我的局域网有大约100台计算机,2台Windows域服务器和12台VoIP电话,这令人烦恼。自从大约一年前安装它们以来,大约每周一次,我们注意到VoIP电话会自行重置-有时在通话过程中会重置。同时,经常有计算机暂时断开连接的迹象:访问网络共享时资源管理器中的冻结,由于与数据库服务器的连接断开而导致的管理软件错误。

我一直在对VoIP PBX与网络其余部分之间的连接进行Wireshark监视。当我们记录电话重启时,Wireshark会拾取大量重传的TCP数据包。Wireshark日志每天显示大约2个重传群集,范围从5个数据包到数百个。每个群集中的电话主要位于PBX和VoIP电话的某些组之间,但并不总是同一组。通常,同时重传是连接到同一交换机的电话,但是有时重传会一起发生在网络相对端的电话。在传递TCP通信时,通常会有一些重发,例如在客户端计算机和文件服务器之间。

重传和电话重置的峰值与网络负载较重时没有很好的关联。它们似乎在白天发生的次数略多,但在晚上的大部分时间(应减少流量)。它们通常在深夜发生,这时大多数计算机都已关闭,并且流量应该最低。

您有任何想法可以帮助诊断此类问题的原因吗?我尚未尝试但应该尝试的一件事是更新所有交换机的固件。


1
什么型号的开关?处理器,内存等统计数据如何显示?您在一个广播域中吗?您在网络上看到的最大吞吐量接近多少?
Zypher

您正在使用哪种VoIP协议?另外,使用UDP还是TCP?
克里斯·S

所有交换机均为3Com:Baseline 2924-PWR Plus(3CBLSG24PWR)x 2、4200(3C17304A)x 3、4200(3C17304)x 2、2824-SPF Plus(3C16487),2250 plus(3C16476CS)。我认为他们没有提供有关处理器或内存的统计信息,但是如果不这样做,我将非常高兴。是的,我们在一个广播域中。我不了解吞吐量,我将考虑对其进行衡量。
超现实,

Answers:


17

TCP重传通常是由于网络拥塞造成的。问题发生时,查找大量广播数据包。如果捕获的广播流量百分比超过捕获的总流量的3%左右,那么您肯定会出现拥塞。查找网络上的物理层(ARP)和网络层(名称解析)广播。如果发现大量广播流量,则可以从捕获数据将其跟踪到源。


9
此外,TCP重传不是问题的原因,而是问题的征兆。
joeqwerty,2010年

我应该提到,我看过UDP广播,它们与重传无关。一些重传事件与UDP广播中的尖峰同时发生,但大多数情况并非如此。我再看一遍,发现UDP广播在任何10分钟的时间段内都不会超过流量的1.5%(约350个数据包),而且很少达到该水平。但是我没有看过以太网广播。我现在正在运行一个脚本,以过滤所有wireshark日志。UDP广播和以太网广播的3%经验法则是单独还是组合使用?
超现实

1
3%并不是真正的经验法则。这是我所听到的,也是我在自己的环境中所看到的。我听到的数字范围从10%到20%,但是我发现一旦超过3%到5%,通常会引起问题。您需要查看所有广播流量:以太网,网络和多播广播,因为它们都会导致拥塞。基本上,所有广播到所有交换机端口的流量都是需要分析,减少或消除的流量。
joeqwerty,2010年

在很长一段时间内,我仍然没有一张漂亮的图表来检查良好的相关性,但是以太网广播看起来很有希望。进行重新传输的一本日志的广播量略高于3%,另一本约为6%。我至少发现了一个问题:一台旧服务器正在不断发送免费的ARP数据包流。
超现实,

1
我使用-的Wireshark过滤器发现过多的ARP条目,arp并且使用eth.addr==ff:ff:ff:ff:ff:ff
mlhDev

2

收集交换机的流量统计信息可能会显示您有一段时间处于满负荷或接近负荷的状态。当响应没有在初始超时(通常3秒)之内返回时,这可能导致重试。这会暂时增加拥塞,直到出现拥塞缓解机制。

寻找使用流媒体的人,因为它们可以迅速吸收带宽。

您可以通过流量调整来减轻电话问题。这只会将问题移至其他用户。


2

对我来说,这听起来像是生成树循环或广播风暴,尤其是如果重新传输和问题都位于同一台交换机(不同)上时。发生这种情况时,L2设备上的端口状态是什么?可能是错误的切换或错误的根网桥优先级?有趣的问题。


感谢您提示我阅读生成树,我对此无知。但是,我认为这可能不是生成树循环,因为我们的网络中没有任何冗余链接(这本身就是一个问题)。通过“ L2设备上的端口状态”,我是说您是由于生成树算法而使交换机启用了哪些端口?我们还没有手动配置根桥,这样做是一个好主意吗?
超现实主义

熟悉STP是个好主意,但是如果您确定没有任何多余的链接,那么STP就不会成为问题。
joeqwerty,2010年

是的,如果您没有多余的链接,那将不是问题。通过端口状态,是的,我的意思是转发/阻止/学习。
McJeff 2010年

2

您可能已经解决了这一问题,因为它已经很长时间了,但实际上您需要在具有端点的端口(语音电话,工作站,服务器)上启用“快速端口”。电话可以发送PDU,因此如果该家伙重新启动,将导致STP收敛,从而导致FDB表被刷新,并且所有设备都将经历4/5步骤的STP乐趣。通过将具有端点的端口置于“快速端口”,它们可以跳过等待并直接进入转发模式。


1

希望您的电话与其他计算机位于不同的子网和VLAN上吗?


不,它们位于相同的IP子网中,而且我也可以肯定相同的VLAN。这是一个严重的问题吗?听起来确实是个好主意。我可以看到它将电话和其他所有广播域分开。它还有其他优势吗?
超现实

是的,我一定会将电话放在专用VLAN上。
格雷格·阿瑟

1

这也可能是设备故障,例如开关故障。重传是否与某个特定交换机或网络一部分上的电话/计算机相关?

只是为了扩大我的答案。即使它们具有相同的规格,也不是所有的开关都是相同的。有些处理器能够承受比其他处理器高得多的负载,因为它们内部具有更快的处理器。可能是您的交换机不完全合格。

首先,将您最麻烦的VOIP电话中的一些放到他们自己的物理交换机上,看看这些复位是否继续。如果它消失了,那么您将很快解决它。


我希望他们做到了。连接到位于网络相对两端的两个交换机的设备似乎确实存在最大问题。但是,在网络的其他部分也有大量的电话重传。
超现实,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.