1
为什么在带有内置插件的运行SLURM的群集上请求GPU作为通用资源失败?
免责声明:这篇文章很长,因为我试图提供所有相关的配置信息。 状态和问题: 我管理一个gpu集群,我想使用Slurm进行作业管理。不幸的是,我无法使用Slurm的相应通用资源插件来请求GPU。 注意:test.sh是打印环境变量CUDA_VISIBLE_DEVICES的小脚本。 正在运行的作业--gres=gpu:1未完成 运行会srun -n1 --gres=gpu:1 test.sh导致以下错误: srun: error: Unable to allocate resources: Requested node configuration is not available 日志: gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available 运行作业--gres=gram:500确实完成 srun -n1 --gres=gram:500 test.sh但是,如果我打电话,该作业将运行并打印 CUDA_VISIBLE_DEVICES=NoDevFiles 日志: …