需要帮助找出服务器上的随机连接超时问题
我发现此问题试图对自定义的node.js Websocket服务器进行负载测试,其中某些套接字无法连接(它们达到了连接超时)。它似乎与当前负载无关,因为我也可以仅通过单个客户端线程测试就随机获得失败。 这似乎与node.js无关,因为我还可以重现在同一服务器上为静态页面提供服务的nginx负载测试的问题。总体故障率似乎在入站连接将失败的7-10%之间。 在本地客户端计算机或Internet连接上这似乎不是问题,因为我可以从其他位置的另一台计算机上重现该问题。 我已经检查了所有正常的可调参数(somaxconn,最大打开文件数等),据我所知,我远远没有达到任何极限。我没有在系统日志中看到与此问题相关的任何条目。我还尝试完全禁用iptables以防止出现任何防火墙问题。 该服务器是Ubuntu LTS 16.04(i7,32GB),是colo设施中的专用计算机。在与他们联系之前,我想看看是否可以找到有关O / S级别,机器级别或网络级别的问题的更多数据。 我能够捕获失败连接的tcpdump,但是我不确定如何处理它: 07:19:29.952730 IP localmachine.53949 > server.30312: Flags [S], seq 2408213894, win 64240, options [mss 1460,nop,wscale 8,nop,nop,sackOK], length 0 07:19:29.952879 IP server.30312 > localmachine.53949: Flags [S.], seq 1245200353, ack 2408213895, win 28200, options [mss 1410,nop,nop,sackOK,nop,wscale 7], length 0 07:19:30.951778 IP server.30312 …