Questions tagged «compiling»

3
英特尔Fortran编译器:编译时的优化技巧
我将从我在实验室中的亲身经历开始。在ifort 9天和10天中,我们过去一直非常积极地进行优化,使用-O3和特定于处理器的标志(例如-xW -xSSE4.2)进行编译。但是从ifort 11开始,我们开始注意到: 1.结果中存在一些不一致之处(因为未保留语义) 2.与-O2相比,获得的收益较小。 因此,当前,我们通常仅使用-O2和-xhost进行编译。您是否对ifort 11有更好的建议?当我们过渡到ifort 12时,这种情况会再次改变吗?提前致谢。

1
如何在共享内存模式(如OpenMP)中运行MPI-3.0
我正在并行化代码以数字方式求解5维人口平衡模型。当前,我在FORTRAN中有一个很好的MPICH2并行化代码,但是随着我们增加参数值,数组变得太大而无法在分布式内存模式下运行。 我可以访问具有15个节点的群集,其中每个节点具有两个8个核心CPU和128GB RAM。我想在共享内存模式下以MPI-3.0编写运行程序,以便每个进程都不会生成每个数组的自己的副本。 在集群上运行任何东西之前,必须在运行Ubuntu的桌面上对其进行测试。它实质上是集群的一个刀片,因为它具有两个8个核心CPU和128 GB的RAM。我将在上面编写和测试我的代码,因此请针对在Ubuntu计算机上运行程序调整您的响应。 我已经读到有一种方法可以在共享内存模式(如OpenMP)而不是其默认的分布式内存模式下运行MPI-3.0。 问题: 我将如何更改我的代码?我是否需要添加对其他MPI函数的调用MPI_WIN_ALLOCATE? 如何编译我的代码以在共享内存模式下运行MPI-3.0?如果跨越多个节点,情况会有所不同吗? 请提供示例编译脚本。我也只有GNU编译器。我使用的群集不支持Intel编译器。

4
最快的线性系统求解小平方矩阵(10x10)
我对通过线性系统求解小矩阵(10x10)(有时也称为小矩阵)来优化地狱非常感兴趣。有没有现成的解决方案?矩阵可以假定为非奇异的。 此求解器将在Intel CPU上执行超过1000000次(以微秒为单位)。我说的是计算机游戏中使用的优化级别。无论是在特定于汇编和体系结构的代码中进行编码,还是研究精度或可靠性方面的折衷并使用浮点hack(我都使用-ffast-math编译标志,这都没有问题)。解决甚至可能在大约20%的时间内失败! Eigen的partialPivLu在我当前的基准测试中是最快的,当使用-O3和良好的编译器进行优化时,性能优于LAPACK。但是现在我要手工制作一个定制的线性求解器。任何建议将不胜感激。我将使我的解决方案开源,并会在出版物等方面获得关键见解。 相关:用块对角矩阵求解线性系统 的速度什么是最快的方法来反转数百万个矩阵? https://stackoverflow.com/q/50909385/1489510


1
静态,动态和单动态链接是什么意思?
我使用Intel MKL for BLAS,并使用Intel MKL Link Line Advisor获得有关命令行选项的帮助。 该顾问程序提供静态,动态和单个动态库的选项。这些术语是什么意思? 关于SO的文章很多,但所有这些文章都集中在开发软件而不是科学/数学代码上。(这个特别有用) 这些术语与并行计算有什么关系? 这个比那个好吗?(我知道最好更好地定义更好的方法,但到目前为止我还不知道如何做) 什么是更常用的,为什么? 链接时程序员需要考虑什么?
9 compiling 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.