1. Introduction

Le cluster du Prof. Sam Arey (unité IIE/LMCE qui a fermé en été 2016) n'est plus utilisé depuis début février 2017 et peut donc être réaffecté aux unités IIE intéressées. Acquis en automne 2011 auprès de ServiWare, il se compose de 40 noeuds Dell bi-CPU exa-cores. Sa configuration logicielle n'a pas évolué depuis 2011 (OS Debian 6.0.7 "Squeeze", gestion de queues batch PBS+MAUI...).

Après analyse aproffondie de la question par ENAC-IT et concertation avec les unités, il s'avère que ce système présente encore de l'intérêt en tant que machines indépendantes et non pas en tant que cluster. Le maintenir en tant que cluster nécessiterait de complètement le réinstaller selon les derniers standards. Cet effort n'a pas de sens compte tenu de son âge ; en outre son usage en tant que cluster par plusieurs labos simultanément poserait de grandes difficultés (applications et usages très divers, gestion des priorités...).

Il a donc été décidé avec les personnes concernées de réaffecter ces machines aux unités intéressées tout en les laissant dans le rack actuel (dans le local serveur GR). ENAC-IT se chargera de réinstaller préalablement tous les noeuds en Ubuntu Server 16.04 LTS 64bits. Une fois les noeuds redistribués, les unités seront responsables d'installer les applications dont elles ont besoin et maintenir l'OS (i.e. installer les updates). Elles pourront bien entendu s'appuyer sur l'expertise Linux/Ubuntu de ENAC-IT.

Le présent document décrit les modalités de cette réaffectation et réinstallation.

2. HARDWARE

enacit-node01 to enacit-node40 is a set of compute nodes located in GR C0 544, third rack on the right.

Front side

Frontend photo

Back

Backend photo

Compute nodes are enclosed in 2U rack-mount boxes with redundant power supply. Each box contains 4 nodes and each node is equipped as follow:

Note : No node have power backup with an UPS.

3. Décision de répartition des noeuds entre laboratoires ENAC-IIE

Un email a été adressé par Jean-Daniel Bonjour le 23.2.2017 aux chefs des unités qui avaient manifesté fin 2016 leur intérêt pour ce système, leur demandant de confirmer leur besoin et désigner un interlocuteur pour leur labo. Les labos suivants ont renouvelé leur intérêt :

Une séance a été convoquée pour le 16.3.2017. Présidée par Jean-Daniel Bonjour, elle a réuni les personnes susmentionnée (sauf les représentants TOPO qui ont été entendus préalablement le 8.3.2017) ainsi que Samuel Bancal (expert Linux). A l'unanimité, les participants se sont mis d'accord sur la redistribution suivante .

Répartition des noeuds par labos

Répartition des noeuds par labos

Le serveur 2x Xeon 4-cores, 256 GB, 8x 500 GB RAID n'a pour l'instant pas encore trouvé de repreneur.

Les labos s'accordent également sur le principe du fair play, à savoir que si leur unité n'utilise pas certains noeuds durant un certain laps de temps, ils aviseront ENAC-IT et ces noeuds pourront être temporairement réaffectés aux labos intéressés. ENAC-IT se chargera de faire une image Clonezilla des machines ainsi mises à disposition, et les remettra à plat (réinstallation) pour les nouvelles unité.

Ce cluster faisant l'objet d'un seul numéro d'inventaire, il est transféré par M. Sudki à l'inventaire ENAC-IT (et non pas sur les inventaires des unités).

4. ENACIT INSTALLATION SETUP

Following ENACIT standard : http://enacit1.epfl.ch/linux/ubuntu-16.04-server/admin_log.html

Network

DRAC

Note: DRAC is not configured yet.

Partitioning

Disk is 500GB

type partition size filesystem mount point
-> primary sda1 47 GB ext4 /
-> primary sda2 1 GB ext4 /clone_sys
-> logic sda5 380 GB ext4 /home
-> logic sda6 9 GB swap

Admin account

Server basics packages

Firewall

If the unit wish to add the VPN subnets, here is how to do it simply :

sudo ufw allow proto tcp from 128.178.2.0/24 to any port 22
sudo ufw allow proto tcp from 128.179.252.0/24 to any port 22
sudo ufw allow proto tcp from 128.179.253.0/24 to any port 22
sudo ufw allow proto tcp from 128.179.254.0/24 to any port 22
sudo ufw allow proto tcp from 128.179.255.0/24 to any port 22

EPFL's firewall (diode) is closed, so no connection can be done directly to the nodes from outside EPFL.

Backup

No default backup strategy is done by default. It's up to the unit to estimate what data is requiring what kind of backup

Monitoring

All nodes enacit-node01 -> enacit-node40 are gonna be monitored on http://enac-itmonitoring.epfl.ch/. The default checks are gonna be :

5. UNIT's INSTALLATION GUIDE

InfiniBand

Infiniband is accessible through :

netcdf

From Ubuntu's official repos :

sudo apt install netcdf-bin

fftw

Choose expected package from Ubuntu's official repos :

apt search fftw
sudo apt install fftw2
sudo apt install libfftw3-bin
sudo apt install libfftw3-dev
# ...

hdf5

Choose expected package from Ubuntu's official repos :

apt search hdf5
sudo apt install hdf5-tools
sudo apt install libhdf5-10
sudo apt install libhdf5-dev
sudo apt install libhdf5-mpi-dev
sudo apt install libhdf5-mpich-10
sudo apt install libhdf5-mpich-dev
sudo apt install libhdf5-openmpi-10
sudo apt install libhdf5-openmpi-dev
# ...

Intel compilers and Intelmpi

http://scitas.epfl.ch/support-and-training/scientific-software/intel

matlab

Order and follow instructions from http://distrilog.epfl.ch/

Other softwares commonly used on HPC clusters at EPFL

http://scitas.epfl.ch/support-and-training/scientific-software

6. Delivery

All nodes should be delivered to the units by 1st week of May 2017.