C代码循环性能[续]
这个问题在我的问题上继续(根据Mystical的建议): C代码循环性能 继续我的问题,当我使用打包指令而不是标量指令时,使用内在函数的代码将非常相似: for(int i=0; i<size; i+=16) { y1 = _mm_load_ps(output[i]); … y4 = _mm_load_ps(output[i+12]); for(k=0; k<ksize; k++){ for(l=0; l<ksize; l++){ w = _mm_set_ps1(weight[i+k+l]); x1 = _mm_load_ps(input[i+k+l]); y1 = _mm_add_ps(y1,_mm_mul_ps(w,x1)); … x4 = _mm_load_ps(input[i+k+l+12]); y4 = _mm_add_ps(y4,_mm_mul_ps(w,x4)); } } _mm_store_ps(&output[i],y1); … _mm_store_ps(&output[i+12],y4); } 尽管我希望它是标量版本性能的4倍,即每个周期4.1,6 = 6,4 FP ops,但该内核的测量性能约为每个周期5.6个FP操作。 考虑到权重因子的移动(感谢指出),时间表如下: 看起来时间表没有改变,尽管在操作之后还有一条额外的指令movss将标量权重值移动到XMM寄存器,然后用于shufps将该标量值复制到整个向量中。mulps考虑到从负载到浮点域的切换延迟,权重向量似乎已准备就绪,可以及时使用,因此不会引起任何额外的延迟。 …