<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Slurm on My Blog</title><link>/tags/slurm/</link><description>Recent content in Slurm on My Blog</description><generator>Hugo</generator><language>en-us</language><lastBuildDate>Wed, 26 Jul 2017 00:00:00 +0000</lastBuildDate><atom:link href="/tags/slurm/index.xml" rel="self" type="application/rss+xml"/><item><title>slurm 安装文档</title><link>/2017/07/26/slurm-%E5%AE%89%E8%A3%85%E6%96%87%E6%A1%A3/</link><pubDate>Wed, 26 Jul 2017 00:00:00 +0000</pubDate><guid>/2017/07/26/slurm-%E5%AE%89%E8%A3%85%E6%96%87%E6%A1%A3/</guid><description>&lt;!-- toc --&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;p&gt;SLURM是一款集群资源管理调度软件,适合深度学习集群管理调度.&lt;/p&gt;
&lt;h1 id="清理软件"&gt;清理软件&lt;/h1&gt;
&lt;p&gt;卸载已安装的软件&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;yum remove -y munge*
yum remove -y slurm*
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;清除自建文件和目录&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;log文件&lt;/li&gt;
&lt;li&gt;/var/spool/ 下的目录和文件
注意检查文件的权属&lt;/li&gt;
&lt;/ul&gt;
&lt;h1 id="在master节点安装mariadb-数据库"&gt;在master节点安装MariaDB 数据库&lt;/h1&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;yum install mariadb-server mariadb-devel -y
&lt;/code&gt;&lt;/pre&gt;&lt;h1 id="安装-munge"&gt;安装 munge&lt;/h1&gt;
&lt;h2 id="1-在-master-节点创建-uid-和-gid"&gt;1. 在 master 节点创建 UID 和 GID&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;export MUNGEUSER=1050
groupadd -g $MUNGEUSER munge
useradd -m -c &amp;#34;MUNGE Uid &amp;#39;N&amp;#39; Gid Emporium&amp;#34; -d /var/lib/munge -u $MUNGEUSER -g munge -s /sbin/nologin munge
export SlurmUSER=1051
groupadd -g $SlurmUSER slurm
useradd -m -c &amp;#34;Slurm workload manager&amp;#34; -d /var/lib/slurm -u $SlurmUSER -g slurm -s /bin/bash slurm
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id="2-在所有计算节点创建相同的uid-和-gid"&gt;2. 在所有计算节点创建相同的UID 和 GID&lt;/h2&gt;
&lt;h1 id="进行-munge-安装"&gt;进行 munge 安装&lt;/h1&gt;
&lt;h2 id="1-先安装最新的-epel-release-rpm"&gt;1. 先安装最新的 epel-release RPM&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;yum install epel-release
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id="2-安装-munge-rpm-包"&gt;2. 安装 MUNGE RPM 包&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;yum install munge munge-libs munge-devel -y
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id="3-检查加密方式"&gt;3. 检查加密方式&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;munge -C
munge -M
&lt;/code&gt;&lt;/pre&gt;&lt;hr&gt;
&lt;h2 id="4-在mater-节点创建所有-node-需要的秘钥"&gt;4. &lt;strong&gt;在mater 节点创建所有 node 需要的秘钥。&lt;/strong&gt;&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;yum install rng-tool -y
/usr/sbin/create-munge-key -r
&lt;/code&gt;&lt;/pre&gt;&lt;pre tabindex="0"&gt;&lt;code&gt;dd if=/dev/urandom bs=1 count=1024 &amp;gt; /etc/munge/munge.key
chown munge: /etc/munge/munge.key
chmod 400 /etc/munge/munge.key
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id="5-将-etcmungemungekey-拷贝到其他节点"&gt;5. &lt;strong&gt;将 /etc/munge/munge.key 拷贝到其他节点&lt;/strong&gt;&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;export NODE=172.16.10.18
scp /etc/munge/munge.key root@login:/etc/munge
scp /etc/munge/munge.key root@node1:/etc/munge
&lt;/code&gt;&lt;/pre&gt;&lt;hr&gt;
&lt;h2 id="6-在所有节点上设置权限和所属-"&gt;6. 在所有节点上设置权限和所属 :&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;chown -R munge: /etc/munge/ /var/log/munge/
chmod 0700 /etc/munge/ /var/log/munge/
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id="7-在所有节点上运行-munge"&gt;7. 在所有节点上运行 munge:&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;systemctl enable munge
systemctl start munge
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id="8-测试"&gt;8. 测试&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;munge -n
munge -n | unmunge # Displays information about the MUNGE key
munge -n | ssh somehost unmunge
remunge
&lt;/code&gt;&lt;/pre&gt;&lt;hr&gt;
&lt;hr&gt;
&lt;h1 id="二安装-slurm"&gt;二、安装 Slurm&lt;/h1&gt;
&lt;h2 id="1-先安装一下支持的软件包"&gt;1. 先安装一下支持的软件包:&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;yum install rpm-build gcc openssl openssl-devel pam-devel numactl numactl-devel \
hwloc hwloc-devel lua lua-devel readline-devel rrdtool-devel ncurses-devel \
gtk2-devel man2html libibmad libibumad perl-Switch perl-ExtUtils-MakeMaker
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id="2-下载最新的slurm-版本到存储节点nfs文件下"&gt;2. 下载最新的slurm 版本到存储节点NFS文件下&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;cd /gensoft/slurm-rpms
export VER=17.02.0
wget http://www.schedmd.com/download/latest/slurm-17.02.0.tar.bz2
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id="3-在所有节点上编译并安装"&gt;3. 在所有节点上编译并安装&lt;/h2&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;rpmbuild -ta slurm-$VER.tar.bz2
cd /root/rpmbuild/RPMS/x86_64
yum install slurm-$VER*rpm slurm-devel-$VER*rpm slurm-munge-$VER*rpm \
slurm-perlapi-$VER*rpm slurm-plugins-$VER*rpm slurm-torque-$VER*rpm \
slurm-seff-$VER*rpm
# OR
yum install slurm*rpm
&lt;/code&gt;&lt;/pre&gt;&lt;hr&gt;
&lt;h2 id="4-配置-slurm"&gt;4. 配置 slurm&lt;/h2&gt;
&lt;blockquote&gt;
&lt;p&gt;访问网站 &lt;a href="http://slurm.schedmd.com/configurator.html"&gt;http://slurm.schedmd.com/configurator.html&lt;/a&gt; 进行配置填写，完成后下载文件&lt;/p&gt;</description></item></channel></rss>