赞
踩
参数 | 解释 |
---|---|
-E, --endtime=end_time | 查询在指定时间之前,任何状态的作业.如果通过-s参数指定 状态则返回在此时间之前的指定状态的作业,有效格式为: HH:MM[:SS] [AM|PM] MMDD[YY] or MM/DD[/YY] or MM.DD[.YY] MM/DD[/YY]-HH:MM[:SS] YYYY-MM-DD[THH:MM[:SS]] |
-S, --starttime= starttime | 在指定时间后,任何状态的作业 |
-T, --truncate | 如果一个job在 --starttime之前开始运行,开始时间将被截断 为 --starttime,同样的作业结束时间 = --endtime |
-o, --format | 指定显示字段以逗号分隔 |
下线节点:
scontrol update nodename=gv21 state=drain reason="hardware error"
上线节点:
scontrol update nodename=[node_name] state=idle
清空节点
scontrol update nodename=[node_name] state=down reson="debug"
节点恢复
scontrol update nodename=[node_name] state=resume
显示分区详情:
scontrol show partition [queue_name]
显示作业详情:
scontrol show job [jobid]
显示节点详情
scontrol show node nodes
显示配置详情
scontrol show config
修改配置文件后使配置文件生效
scontrol reconfig
查询用户
sacctmgr show user ***
添加用户
sacctmgr add user sghpc2 DefaultAccount=acct02 Qos=test_qos
修改用户
sacctmgr modify user sghpc2 set QoS=nomal
删除用户
sacctmgr delete user username
查询账户
sacctmgr show account ***
添加账户
sacctmgr add account acct
修改账户
sacctmgr modify account acc
删除账户
sacctmgr delete account acct
查询QOs:
sacctmgr show qos mormal
添加QOs
sacctmgr add qos mormal
修改QOs
sacctmgr modify qos mormal
删除QOs
sacctmgr delete qos mormal
参数 | 参数解释 |
---|---|
-J 或者 --job-name | 指定作业名称 |
-p 或者 --partition | 指定队列资源 |
-N 或者 –nodes= <number> | 指定节点数量 |
-n 或者 --ntasks =<number> | 指定处理器数量 |
-o 或者--output=<filename pattern> | 指定 stdout 的输出文件 |
或者--error=<filename pattern> | 指定 stderr 的输出文件,如果指定的文件已经存在,它将被 覆盖。 |
产看节点拥有资源
slurmd -C
查看slurm的版本信息
slurmd --version
slurmd -V
sinfo -V
查看slurm中集群列表的命令
sacctmgr show cluster
systemctl启动、停止、重启、查看slurmctld.service的命令
systemctl start slurmctld.service
systemctl stop slurmctld.service
systemctl restart slurmctld.service
systemctl status slurmctld.service
取消指定id作业
scancel [jobid]
查看作业列表
squeue
查看你节点和分区状态
sinfo
]写出使用srun提交使用1个节点,1个核心,一个gpu卡的sleep 100秒作业的命令
srun -N 1 -n 1 –gres=gpu:1 sleep 100
查看系统支持的pmi
srun --mpi=list
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。