Answers:
BLAS的一种著名的C语言实现是ATLAS。有用的功能包括:
对于不仅是性能最高的高性能实现(在Intel Xeon Phi的60个内核上,峰值的85%以上),而且写得也最精美的恕我直言,请查看BLIS:
我们目前正在开发一个大规模开放式在线课程“ LAFF-On-Performance Computing”,该课程以dgemm为例,通过一个并行度来指导不同的并行化级别:指令级,OpenMP,MPI。
这不是BLAS的参考实现,而是有关如何对BLAS进行编码(以提高性能)的参考。要随时了解情况,请访问www.ulaff.net