Questions tagged «numa»

1
irqbalance在现代硬件上还有用途吗?
之前已经问过这个问题,但是我相信世界已经发生了足够的变化,可以再次被问到。 irqbalance在当今具有NUMA功能的CPU及其内核之间共享内存的系统上是否有用? 运行irqbalance --oneshot --debug表明,现代VMware ESXi环境中的虚拟客户机正在内核之间共享NUMA节点。 # irqbalance --oneshot --debug 3 Package 0: numa_node is 0 cpu mask is 0000000f (load 0) Cache domain 0: numa_node is 0 cpu mask is 0000000f (load 0) CPU number 0 numa_node is 0 (load 0) CPU number 1 numa_node is 0 (load 0) …

1
Xeon Skylake SMP出现意外和无法解释的缓慢(和异常)内存性能
我们一直在测试使用2x Xeon Gold 6154 CPU和Supermicro X11DPH-I主板以及96GB RAM的服务器,发现与仅使用1个CPU(一个插槽为空),类似双CPU的运行相比,内存存在一些非常奇怪的性能问题。 CPU Haswell Xeon E5-2687Wv3(用于该系列测试,但其他Broadwell的性能类似),Broadwell-E i7和Skylake-X i9(用于比较)。 可以预期,具有更快内存的Skylake Xeon处理器在处理各种memcpy功能甚至内存分配(我们在下面的测试中未涵盖,我们找到了一种解决方法)时,其性能将比Haswell更快,但同时安装了两个CPU ,Skylake Xeon的速度几乎是Haswell Xeon的一半,与i7-6800k相比,甚至更低。甚至更奇怪的是,当使用Windows VirtualAllocExNuma分配NUMA节点进行内存分配时,虽然普通内存复制功能预期在远程节点上的性能要比本地节点差,但使用SSE,MMX和AVX寄存器的内存复制功能却执行得很多在远程NUMA节点上的速度比在本地节点上快(什么?)。如上所述,借助Skylake Xeons, 我不确定这是否是主板或CPU上的错误,或者是UPI与QPI的错误,还是以上都不是,但BIOS设置的组合似乎都没有用。在BIOS中禁用NUMA(测试结果中未包括)确实可以提高使用SSE,MMX和AVX寄存器的所有复制功能的性能,但是所有其他普通内存复制功能也会遭受很大的损失。 对于我们的测试程序,我们同时使用内联汇编函数和_mm内在函数进行了测试,除了汇编函数(msvc ++不会针对x64编译asm)之外,我们将Windows 10与Visual Studio 2017一起用于所有其他功能,我们使用mingw / msys的gcc到使用-c -O2标记编译obj文件,该标记包含在msvc ++链接器中。 如果系统使用的是NUMA节点,我们将对每个NUMA节点使用VirtualAllocExNuma测试两个新的用于内存分配的运算符,并对每个内存复制函数进行100个平均16MB的内存缓冲区副本的累积平均值,然后轮换我们在哪个内存分配上在每组测试之间。 所有100个源缓冲区和100个目标缓冲区都是64字节对齐的(为了兼容使用流功能的AVX512),并分别初始化为源缓冲区的增量数据和目标缓冲区的0xff。 在每种配置下,每台计算机上平均的副本数量各不相同,因为某些副本的速度快得多,而另一些配置的速度慢得多。 结果如下: Haswell Xeon E5-2687Wv3具有32GB DDR4-2400(10c / 20t,25 MB的L3缓存)的 Supermicro X10DAi上的1个CPU(1个空插槽)。但是请记住,基准测试通过100对16MB缓冲区循环,因此我们可能没有获得L3缓存命中率。 --------------------------------------------------------------------------- Averaging 7000 copies of 16MB of …


1
我如何知道是否应该在运行较旧应用程序的VM上禁用虚拟NUMA?
从VMware的文档中: 虚拟NUMA拓扑可用于硬件版本8的虚拟机,并且当虚拟CPU的数量大于八个时,默认情况下已启用。您还可以使用高级配置选项来手动影响虚拟NUMA拓扑。 假设我有一个已分配8个CPU的VM,即它正在运行的Virtual NUMA。如果我在服务器上运行了一个旧的,不支持NUMA的应用程序,它会不会运行得很差,或者至少不会像在非V-NUMA模式下那样运行不佳? 我假设这样启用了V-NUMA,因为如果应用程序供应商建议使用8个或更多内核,则该软件很可能会识别NUMA。还是有许多支持多核但不支持NUMA的应用程序? 我如何确定由这个可能的问题引起的瓶颈? 编辑:是否有想到vCenter中有一个度量标准来监视远程NUMA调用?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.