Questions tagged «job-scheduler»

6
cron越来越大:下一个调度程序是什么?[关闭]
我一直记得使用cron已有很长时间,因为我记得自己可以处理所有的工作计划需求。从存储克隆/快照到针对数据库的报告,再到每日系统报告,再到监控检查,一切都通过cron计划在数百台服务器上进行。 缺点非常明显:难以管理作业,没有简单的方法来创建依赖关系(尤其是在不同服务器上),当然,不可避免的是有人“暂时”跳过了作业,但后来却忘记了删除注释。 我们尝试了商业发行,但最终它被认为太昂贵了,以至于超出了cron。 我看到了其他选项,例如SLURM,Oracle Grid Engine,Torque / Maui,Quartz,DIET,Condor,它们似乎适用于更大,更同类的集群环境,其作业可以在任意数量的相似节点上运行:网格计算等等。我们的环境是混合的(各种Linux,AIX和FreeBSD),我们需要在不同类型的系统之间创建依赖关系(例如,Linux机器上的作业可能需要确定AIX机器上的作业是否应该运行。) 有没有人有从cron转向更集中管理的产品的经验?选择软件的任何技巧,或者开源或商业化是否更好?

3
秋季时间变更期间的计划作业
我想知道其他人如何处理这种情况。 如果您有工作计划在凌晨1:30运行,该怎么办。在秋天,随着时间的变化,从1:00:00到1:59:59的时间重复进行,因此作业将运行两次。 可以是Windows Task Scheduler,SQL Agent或任何其他计划工具。这些工具中的大多数似乎是基于机器时间而不是UTC时间。如果我告诉它每天晚上UTC时间执行任务,那么我就不会遇到重复的小时问题。

1
为什么在带有内置插件的运行SLURM的群集上请求GPU作为通用资源失败?
免责声明:这篇文章很长,因为我试图提供所有相关的配置信息。 状态和问题: 我管理一个gpu集群,我想使用Slurm进行作业管理。不幸的是,我无法使用Slurm的相应通用资源插件来请求GPU。 注意:test.sh是打印环境变量CUDA_VISIBLE_DEVICES的小脚本。 正在运行的作业--gres=gpu:1未完成 运行会srun -n1 --gres=gpu:1 test.sh导致以下错误: srun: error: Unable to allocate resources: Requested node configuration is not available 日志: gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available 运行作业--gres=gram:500确实完成 srun -n1 --gres=gram:500 test.sh但是,如果我打电话,该作业将运行并打印 CUDA_VISIBLE_DEVICES=NoDevFiles 日志: …

1
Slurm:对于GPU和仅CPU作业有两个单独的队列
目前,我们已设置Slurm来管理一个由六个节点组成的小型集群,每个集群具有四个GPU。到目前为止,这一直很好,但是现在我们想利用Intel Core i7-5820K CPU来完成仅需要CPU处理能力的作业。每个CPU有六个核心和12个线程,每个GPU需要一个线程/逻辑核心,因此(每个节点)剩余8个线程可用于“仅CPU”作业。 当前配置: 猫/etc/slurm-llnl/gres.conf Name=gpu File=/dev/nvidia0 Name=gpu File=/dev/nvidia1 Name=gpu File=/dev/nvidia2 Name=gpu File=/dev/nvidia3 猫/etc/slurm-llnl/slurm.conf(节选) SchedulerType=sched/builtin SelectType=select/cons_res SelectTypeParameters=CR_Core AccountingStorageType=accounting_storage/none GresTypes=gpu MaxTasksPerNode=4 NodeName=node1 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node2 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node3 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node4 CoresPerSocket=4 Procs=8 Sockets=1 ThreadsPerCore=2 Gres=gpu:4 State=UNKNOWN NodeName=node5 …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.