服务器管理员 hpc

1

免责声明：这篇文章很长，因为我试图提供所有相关的配置信息。状态和问题：我管理一个gpu集群，我想使用Slurm进行作业管理。不幸的是，我无法使用Slurm的相应通用资源插件来请求GPU。注意：test.sh是打印环境变量CUDA_VISIBLE_DEVICES的小脚本。正在运行的作业--gres=gpu:1未完成运行会srun -n1 --gres=gpu:1 test.sh导致以下错误： srun: error: Unable to allocate resources: Requested node configuration is not available 日志： gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available 运行作业--gres=gram:500确实完成 srun -n1 --gres=gram:500 test.sh但是，如果我打电话，该作业将运行并打印 CUDA_VISIBLE_DEVICES=NoDevFiles 日志： …

10 cluster hpc job-scheduler

5

如何在Linux上允许用户将文件传输给其他用户

我们有一个数千用户在大约40个群集上运行应用程序的环境，范围从20个计算节点到98,000个计算节点。这些系统上的用户生成由传统的Unix权限控制的海量文件（有时大于1PB）（由于文件系统的特殊性，ACL通常不可用或不实用）。当前，我们有一个名为“ give”的程序，它是一个suid-root程序，当组权限不足时，该程序允许用户将文件“提供”给另一个用户。因此，用户将键入类似于以下内容的文件以将文件提供给另一个用户： > give username-to-give-to filename-to-give ... 然后，接收用户可以使用称为“ take”的命令（give程序的一部分）来接收文件： > take filename-to-receive 然后，文件的权限将有效地转移到接收用户。这个程序已经存在多年了，我们希望从安全和功能的角度重新审视事情。我们当前的行动计划是在我们当前的“ give”实现中消除一点烂点，并将其打包为开源应用程序，然后再将其重新部署到生产中。当只有传统的unix权限可用时，是否有人使用另一种方法在用户之间传输超大文件？

10 linux filesystems hpc

1

Slurm：对于GPU和仅CPU作业有两个单独的队列

目前，我们已设置Slurm来管理一个由六个节点组成的小型集群，每个集群具有四个GPU。到目前为止，这一直很好，但是现在我们想利用Intel Core i7-5820K CPU来完成仅需要CPU处理能力的作业。每个CPU有六个核心和12个线程，每个GPU需要一个线程/逻辑核心，因此（每个节点）剩余8个线程可用于“仅CPU”作业。当前配置：猫/etc/slurm-llnl/gres.conf Name=gpu File=/dev/nvidia0 Name=gpu File=/dev/nvidia1 Name=gpu File=/dev/nvidia2 Name=gpu File=/dev/nvidia3 猫/etc/slurm-llnl/slurm.conf（节选） SchedulerType=sched/builtin SelectType=select/cons_res SelectTypeParameters=CR_Core AccountingStorageType=accounting_storage/none GresTypes=gpu MaxTasksPerNode=4 NodeName=node1 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node2 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node3 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node4 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node5 …

1 ubuntu cluster hpc job-scheduler job-control

Questions tagged «hpc»