Questions tagged «hpc»

1
为什么在带有内置插件的运行SLURM的群集上请求GPU作为通用资源失败?
免责声明:这篇文章很长,因为我试图提供所有相关的配置信息。 状态和问题: 我管理一个gpu集群,我想使用Slurm进行作业管理。不幸的是,我无法使用Slurm的相应通用资源插件来请求GPU。 注意:test.sh是打印环境变量CUDA_VISIBLE_DEVICES的小脚本。 正在运行的作业--gres=gpu:1未完成 运行会srun -n1 --gres=gpu:1 test.sh导致以下错误: srun: error: Unable to allocate resources: Requested node configuration is not available 日志: gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available 运行作业--gres=gram:500确实完成 srun -n1 --gres=gram:500 test.sh但是,如果我打电话,该作业将运行并打印 CUDA_VISIBLE_DEVICES=NoDevFiles 日志: …

5
如何在Linux上允许用户将文件传输给其他用户
我们有一个数千用户在大约40个群集上运行应用程序的环境,范围从20个计算节点到98,000个计算节点。这些系统上的用户生成由传统的Unix权限控制的海量文件(有时大于1PB)(由于文件系统的特殊性,ACL通常不可用或不实用)。 当前,我们有一个名为“ give”的程序,它是一个suid-root程序,当组权限不足时,该程序允许用户将文件“提供”给另一个用户。因此,用户将键入类似于以下内容的文件以将文件提供给另一个用户: > give username-to-give-to filename-to-give ... 然后,接收用户可以使用称为“ take”的命令(give程序的一部分)来接收文件: > take filename-to-receive 然后,文件的权限将有效地转移到接收用户。 这个程序已经存在多年了,我们希望从安全和功能的角度重新审视事情。 我们当前的行动计划是在我们当前的“ give”实现中消除一点烂点,并将其打包为开源应用程序,然后再将其重新部署到生产中。 当只有传统的unix权限可用时,是否有人使用另一种方法在用户之间传输超大文件?
10 linux  filesystems  hpc 

1
Slurm:对于GPU和仅CPU作业有两个单独的队列
目前,我们已设置Slurm来管理一个由六个节点组成的小型集群,每个集群具有四个GPU。到目前为止,这一直很好,但是现在我们想利用Intel Core i7-5820K CPU来完成仅需要CPU处理能力的作业。每个CPU有六个核心和12个线程,每个GPU需要一个线程/逻辑核心,因此(每个节点)剩余8个线程可用于“仅CPU”作业。 当前配置: 猫/etc/slurm-llnl/gres.conf Name=gpu File=/dev/nvidia0 Name=gpu File=/dev/nvidia1 Name=gpu File=/dev/nvidia2 Name=gpu File=/dev/nvidia3 猫/etc/slurm-llnl/slurm.conf(节选) SchedulerType=sched/builtin SelectType=select/cons_res SelectTypeParameters=CR_Core AccountingStorageType=accounting_storage/none GresTypes=gpu MaxTasksPerNode=4 NodeName=node1 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node2 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node3 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node4 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node5 …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.