slurm 安装文档

[TOC] SLURM是一款集群资源管理调度软件,适合深度学习集群管理调度. 清理软件 卸载已安装的软件 yum remove -y munge* yum remove -y slurm* 清除自建文件和目录 log文件 /var/spool/ 下的目录和文件 注意检查文件的权属 在master节点安装MariaDB 数据库 yum install mariadb-server mariadb-devel -y 安装 munge 1. 在 master 节点创建 UID 和 GID export MUNGEUSER=1050 groupadd -g $MUNGEUSER munge useradd -m -c "MUNGE Uid 'N' Gid Emporium" -d /var/lib/munge -u $MUNGEUSER -g munge -s /sbin/nologin munge export SlurmUSER=1051 groupadd -g $SlurmUSER slurm useradd -m -c "Slurm workload manager" -d /var/lib/slurm -u $SlurmUSER -g slurm -s /bin/bash slurm 2. 在所有计算节点创建相同的UID 和 GID 进行 munge 安装 1. 先安装最新的 epel-release RPM yum install epel-release 2. 安装 MUNGE RPM 包 yum install munge munge-libs munge-devel -y 3. 检查加密方式 munge -C munge -M 4. 在mater 节点创建所有 node 需要的秘钥。 yum install rng-tool -y /usr/sbin/create-munge-key -r dd if=/dev/urandom bs=1 count=1024 > /etc/munge/munge.key chown munge: /etc/munge/munge.key chmod 400 /etc/munge/munge.key 5. 将 /etc/munge/munge.key 拷贝到其他节点 export NODE=172.16.10.18 scp /etc/munge/munge.key root@login:/etc/munge scp /etc/munge/munge.key root@node1:/etc/munge 6. 在所有节点上设置权限和所属 : chown -R munge: /etc/munge/ /var/log/munge/ chmod 0700 /etc/munge/ /var/log/munge/ 7. 在所有节点上运行 munge: systemctl enable munge systemctl start munge 8. 测试 munge -n munge -n | unmunge # Displays information about the MUNGE key munge -n | ssh somehost unmunge remunge 二、安装 Slurm 1. 先安装一下支持的软件包: yum install rpm-build gcc openssl openssl-devel pam-devel numactl numactl-devel \ hwloc hwloc-devel lua lua-devel readline-devel rrdtool-devel ncurses-devel \ gtk2-devel man2html libibmad libibumad perl-Switch perl-ExtUtils-MakeMaker 2. 下载最新的slurm 版本到存储节点NFS文件下 cd /gensoft/slurm-rpms export VER=17.02.0 wget http://www.schedmd.com/download/latest/slurm-17.02.0.tar.bz2 3. 在所有节点上编译并安装 rpmbuild -ta slurm-$VER.tar.bz2 cd /root/rpmbuild/RPMS/x86_64 yum install slurm-$VER*rpm slurm-devel-$VER*rpm slurm-munge-$VER*rpm \ slurm-perlapi-$VER*rpm slurm-plugins-$VER*rpm slurm-torque-$VER*rpm \ slurm-seff-$VER*rpm # OR yum install slurm*rpm 4. 配置 slurm 访问网站 http://slurm.schedmd.com/configurator.html 进行配置填写,完成后下载文件 ...

July 26, 2017