好的,我们的新版本在每台服务器上随机间隔有100%的CPU峰值。长期以来,它会使网站完全无响应-这将在高峰时期,因为不同国家的人登录到网站等。
我们研究了perfmom,内存探查器,CLR探查器,sql探查器,Red Gate蚂蚁探查器,尝试在UAT中进行负载测试-但甚至无法重现该问题。这可能意味着只有成千上万的用户点击了实时站点才导致它发生。
我们确实注意到的一种模式是,新代码-残破的构建-实际上使用了明显更少的线程。
我们还在IOC上使用弹簧-它有床的声誉吗?
更糟糕的是,由于业务影响,我们无法部署到现场-因此无法将问题缩小到我们添加的新功能的子集。
我们确实被摧毁了-有人有任何战斗伤痕可以挽救我们的生命吗?