Service HPC sur Blue Gene. - Lemanicus Blue Gene/Q

Transcription

Service HPC sur Blue Gene. - Lemanicus Blue Gene/Q
EPFL – DOMAINE IT - EXPLOITATION
Service HPC sur Blue Gene.
Description du service
(D’après OGC - ITIL v3 - Service Design- Appendix F : Sample SLA and OLA)
Source :
communDIT:_EX:Catalogue-Services:HPC:BGQ:SLA_DIT_BGQ.docx
Distribution :
Tous les utilisateurs du service.
Cette accord est fait entre le DIT et les utilisateurs du service.
Cet accord couvre le service d’hébergement de la machine Blue Gene par le DIT pour
le compte de CADMOS.
Cet accord est valide pour 12 mois du (01/01/2013) au (31/12/2013).
Cet accord ne sera normalement pas révisé pendant la durée de vie de la machine. Les
changements mineurs survenus pendant la période de validité pourront être ajoutés à
l’aide du formulaire d’amendement, ils doivent être accepté par les deux parties et mis
en production au travers du processus de gestion des changements (s’il existe).
Versions
0.1
1.0
Date
26.11.2012
08/01/2013
Révisions
Auteur
Fabien Figueras
Fabien Figueras
Page 1 sur 11
Commentaires
Document de travail
Point d’entrée unique Help Desk
EPFL – DOMAINE IT - EXPLOITATION
Table des matières
!"! #$%&'()*(+,-#.-%$'/(&$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-0!
!"!! )'(,&()$-#.-%$'/(&$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-0!
!"1! 23,34(&$%-#.-%$'/(&$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-0!
!"5! %)3&(4(&6*(+,%-#.-%7%*$8$-29:;-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-0!
1! $*$,#.$-#$-<=6&&+'#"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->!
1"!! &+./$'*-)6'-<=6&&+'#"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->!
1"1! ,+,-&+./$'*-)6'-<=6&&+'#"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->!
5! ?$.'$%-#=+./$'*.'$%-#.-%$'/(&$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->!
5"!! )3'(+#$%-+./'62<$%"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->!
5"1! )3'(+#$%-#$-86(,*$,6,&$%"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->!
5"5! &6<$,#'($'-#$%-&+,93%"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->!
0! #(%)+,(2(<(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@!
0"!! #34(,(*(+,-#=.,$-)6,,$-+.-#=.,$-(,#(%)+,(2(<(*3-A%(-6))'+)'(3B"-"""""""""""""""""""""""""""""""""""""-@!
0"1! 83*?+#$-#$-&6<&.<"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@!
0"5! +2C$&*(4-#$-#(%)+,(2(<(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@!
>! 4(62(<(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@!
>"!! #34(,(*(+,-#=.,$-)6,,$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@!
>"1! 83*?+#$-#$-&6<&.<"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@!
>"5! +2C$&*(4-#$-4(62(<(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D!
@! %.))+'*-.*(<(%6*$.'"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D!
@"!! &6<<-&$,*$'"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D!
@"1! ?$<)-#$%E"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D!
@"5! #$86,#$%-#$-<=.*(<(%6*$.'"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D!
D! )+(,*%-#$-&+,*6&*%-$*-$%&6<6#$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F!
F! )$'4+'86,&$"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F!
G! &7&<$-#=$H3&.*(+,-#$%-*'6(*$8$,*%-)6'-<+*%--I-26*&?-J-A%(-6))'+)'(3B"-""-F!
!K! 4+,&*(+,,6<(*3%-8(,(86<$%-A%(-6))'+)'(3B"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F!
!!! 9$%*(+,-#$%-&?6,9$8$,*%"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F!
!!"!! $/+<.*(+,-#$-<=(,4'6%*'.&*.'$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F!
!!"1! $/+<.*(+,-#.-,(/$6.-#$-%$'/(&$"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F!
!1! &+,*(,.(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-G!
!5! %3&.'(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-G!
Page 2 sur 11
EPFL – DOMAINE IT - EXPLOITATION
!0! (8)'$%%(+,-A%(-6))'+)'(3B"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-G!
!>! '$%)+,%62(<(*3"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-G!
!@! 46&*.'6*(+,"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K!
!D! '6))+'*-%.'-<$-%$'/(&$-$*-'3/(%(+,%"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K!
!D"!! (,#(&6*$.'%-#$-)$'4+'86,&$%-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K!
!F! 9<+%%6('$-A%(-6))'+)'(3B"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K!
!G! 4+'8.<6('$-#=68$,#$8$,*-A%(-6))'+)'(3B"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K!
Page 3 sur 11
EPFL – DOMAINE IT - EXPLOITATION
1. Description du service.
CADMOS offre un service HPC sur un supercalculateur IBM de type Blue Gene/Q
(abrégé BG/Q), installé sur le site de l’EPFL dans la salle machine du DIT et maintenu
par le groupe exploitation. Ce service est à disposition des membres des Universités de
Genève (UNIGE) et de Lausanne (UNIL) et de l'EPFL, dont les projets ont été
formellement approuvés par le Comité de Direction CADMOS..
Ce document présente les caractéristiques et les objectifs attendus pour ce service, pour la
durée de vie du système BG/Q, soit normalement jusqu’à fin 2016.
!"! #$%&'%()*+,*-./012."*
Les ressources humaines du DIT consacrées au service sont de 1.5 EPT (Equivalent
Temps Plein).
Par ordre de priorité, le service offre les prestations suivantes :
• Exploitation du système BG/Q : hébergement et maintenance de l’infrastructure
BG/Q en salle machine, administration du système et résolution des pannes en
relation avec le support d’IBM.
• Maintenance logicielle : installation et mise à jour des logiciels système, ainsi que
de packages standards, selon les demandes des utilisateurs.
• Coordination de l’accès à la machine : ouverture et gestion des comptes utilisateur.
• Partage équitables des ressources : mise en place de la politique d’allocation des
ressources définie par le Comité de Direction CADMOS.
• Support utilisateur : assistance pour les problèmes d’accès et d’utilisation du
système BG/Q.
• Support applicatif : dans la mesure des ressources humaines disponibles, conseils
et aide à la compilation, au debugging et au portage des codes des utilisateurs sur
l’architecture BG/Q.
!"3 45&56%')7*+,*-./012."*
Le service prend en charge l’exploitation du système BG/Q et assure la disponibilité de
celui-ci.
Le service offre également une assistance aux utilisateurs, sous forme de conseils, pour
adapter leurs codes aux caractéristiques du BG/Q, afin de bénéficier au maximum de la
puissance disponible.
!"8 -(5'%6%'9:%;&7*+,*7<7:=>)*4?@A*
Le BG/Q est un superordinateur dit massivement parallèle, car il compte un très grand
nombre de processeurs. La machine dispose de 1024 nœuds de calcul, soit 16’384 unités
Page 4 sur 11
EPFL – DOMAINE IT - EXPLOITATION
de calcul indépendantes. Le système offre 16TB de mémoire et un espace de stockage de
3PB brut.
2 Etendue de l’accord.
Cette section décrit ce qui est couvert par l’accord et ce qui ne l’est pas.
3"! 2;,B)$:*(9$*CD9'';$+"*
•
•
•
•
•
La maintenance du superordinateur de type Blue Gene.
L’administration et la maintenance des frontales.
L’administration et la maintenance du sous-système de stockage.
L’installation et la maintenance de logiciels système.
La sauvegarde journalière des répertoires d’accueil des utilisateurs.
3"3 E;&*';,B)$:*(9$*CD9'';$+"*
•
•
Le support des applications.
La sauvegarde des répertoires scratch.
3 Heures d’ouvertures du service.
Le service est normalement disponible en permanence. Cependant le DIT ne s’engage à
maintenir l’infrastructure dans son état optimum que dans les périodes décrites cidessous.
8"! #5$%;+)7*;,B$9FC)7"*
Le DIT est ouvert du lundi au vendredi 8h à 17h.
8"3 #5$%;+)7*+)*>9%&:)&9&')7"*
L’infrastructure pourra fonctionner dans un mode dégradé de performance ou être
totalement indisponible lors des opérations de maintenance, telles que les mises à jour du
logiciel ou du matériel, ou lors d’interventions du support d’IBM.
Les utilisateurs seront avisés si possible avec un préavis d’une semaine.
8"8 29C)&+$%)$*+)7*';&G57"*
Le DIT peut être fermé pendant certaines périodes de l’année (par exemple les jours
fériés). Lors de ces périodes aucun délai d’intervention n’est garanti.
Page 5 sur 11
EPFL – DOMAINE IT - EXPLOITATION
4 Disponibilité.
Le service est disponible s’il n’est pas en panne.
H"! I56%&%:%;&*+D,&)*(9&&)*;,*+D,&)*%&+%7(;&%F%C%:5*J7%*9(($;($%5K"*
On considère que le service BG est en panne lorsque, hors période de maintenance, plus
aucun job ne tourne et qu’il n’est pas possible d’en soumettre de nouveaux.
H"3 L5:M;+)*+)*'9C',C"*
Le calcul de la durée totale des pannes se fera en additionnant la durée totale des
indisponibilités du service pendant les périodes ouvrables (cf § 3.1).
H"8 NFO)':%6*+)*+%7(;&%F%C%:5"*
L’objectif annuel est d’offrir un niveau de disponibilité qualifié de très bon.
Durée totale des indisponibilités
1h
5h
10h
41h
82h
Niveau de disponibilité
Excellent
Très bon
Bon
Moyen
Médiocre
5 Fiabilité.
C’est le nombre maximum de pannes annuelles pendant les heures ouvrables. Ce point
peut aussi être mesuré en terme de MTBF (temps moyen entre panne) ou MTSI (temps
moyne entre incident système). L’objectif annuel de fiabilité sera fonction du type
d’architecture retenue.
P"! I56%&%:%;&*+D,&)*(9&&)"*
(Voir les définitions au paragraphe 4.1)
P"3 L5:M;+)*+)*'9C',C"*
Le calcul du nombre de pannes se fera en additionnant la durée totale des indisponibilités
complètes du service pendant les périodes ouvrables (cf. 3.1).
Page 6 sur 11
EPFL – DOMAINE IT - EXPLOITATION
P"8 NFO)':%6*+)*6%9F%C%:5"*
Comme pour la disponibilité l’objectif annuel est d’offrir un niveau de fiabilité qualifié
de très bon.
Nombre de panne
1
2
3
5
10
Niveau de fiabilité
Excellent
Très bon
Bon
Moyen
Médiocre
6 Support utilisateur.
Le support du DIT comporte deux niveaux : Le premier est constitué par le « Call
Center », le deuxième par les spécialistes du DIT.
Le site http://hpc-dit.epfl.ch/index.php offre une vue d’ensemble des ressources HPC
disponibles à l’EPFL.
Le site http://bluegene.epfl.ch est le point d’entrée de tout utilisateur du sytème BG/Q. Il
propose différents documents sur l’utilisation de la machine et les manuels Blue Gene
d’IBM. Il propose également des informations sur la charge courante de la machine et sur
les jobs qui tournent et qui ont tournés.
Q"! 29CC*2)&:)$"*
Le Call Center est ouvert du lundi au vendredi de 7h30 à 18h.
Téléphone interne à l’école : 1234
Téléphone depuis la Suisse : 021 69 312 34
Téléphone depuis l’étranger : +41 21 69 312 34
E-mail : [email protected]
Q"3 R)C(*I)7S"*
Le Help Desk est situé au rez-de-chaussée du bâtiment MA, allée Piccard 3
(http://plan.epfl.ch/index.html?view=182), il est ouvert du lundi au vendredi de 8h à 18h.
Q"8 I)>9&+)7*+)*CD,:%C%79:),$"*
Pour toutes ses demandes (incidents, conseils…) l’utilisateur doit impérativement
s’adresser au Help Desk, par le Call Center ou en se déplaçant physiquement.
En cas d’escalade au niveau 2 le temps maximum qui peut s’écouler avant l’intervention
sera de 1h.
Page 7 sur 11
EPFL – DOMAINE IT - EXPLOITATION
7 Points de contacts et escalade.
En cas de non satisfaction du support, la personne à contacter est le chef du groupe DITExploitation. Prière d’envoyer la succession de mails échangés concernant le cas et/ou le
numéro de ticket du Help Desk.
8 Performance.
Les performances du système ont été évaluées lors de son installation à l’aide de Linpack.
Pour aider l’utilisateur à obtenir les meilleures performances possibles de ses
applications, CADMOS met à disposition des utilisateurs des spécialistes.
Le DIT pourra proposer son assistance pour aider à identifier les limites de performance
dues au système.
9 Cycle d’exécution des traitements par lots « batch »
(si approprié).
Les travaux « batch » sont gérés par l’ordonnanceur de tâches LoadLeveler. Il est
possible de soumettre des travaux à tout moment..
10 Fonctionnalités minimales (si approprié).
Une panne de nœud de calcul donne un mode dégradé d’exploitation, dans lequel il y a
simplement moins de puissance disponible.
11 Gestion des changements.
!!"! .B;C,:%;&*+)*CD%&6$97:$,':,$)"*
Le système BG/Q a été acquis au quatrième trimestre 2012 avec un support constructeur
commençant le ?? novembre/décembre 2012 pour quatre ans soit jusqu’au ??
novembre/décembre 2016. Pendant cette période d’exploitation, le système reste
identique et uniforme, c’est-à-dire que l’ensemble des composants demeure stable.
!!"3 .B;C,:%;&*+,*&%B)9,*+)*7)$B%')"*
Comme le montre l’expérience du DIT, le niveau de service ne change pas
significativement au cours de la durée de vie d’une infrastructure aussi stable et uniforme
que l’infrastructure BG/Q.
Page 8 sur 11
EPFL – DOMAINE IT - EXPLOITATION
12 Continuité.
Le DIT met en œuvre les moyens informatiques pour garantir qu’en cas de panne d’un
composant unique le service ne sera pas perturbé.
Les accès réseaux de l’EPFL sont redondants et en cas d’interruption de service d’un
composant réseau le basculement sur la solution de secours est transparent.
Le système BG/Q dispose de composants redondants qui doivent permettre de minimiser
l’impact d’une panne sur le fonctionnement global de la machine.
Les données utilisateurs sont sauvegardées tous les jours et enregistrées sur bandes dans
un site secondaire.
La politique de sauvegarde est la suivante :
Répertoires d’accueil des utilisateurs : une sauvegarde journalière, rétention durant 400
jours.Répertoires scratch : pas de sauvegarde.
13 Sécurité.
Seuls les utilisateurs accrédités par CADMOS peuvent obtenir un accès au BG/Q. Le
login sur les frontales du système s’effectue par ssh et le contrôle d’accès est réalisé par
le serveur LDAP de l'école.
Les autres aspects de sécurité sont pris en charge par le système d’exploitation Linux
SuSE 10.
14 Impression (si approprié).
Ne concerne pas ce service.
15 Responsabilité.
Le DIT est responsable de :
• La maintenance des logiciels système.
Les utilisateurs sont responsables de :
Leurs applications.
Sauf avis contractuel contraire le DIT n’est pas responsable de la conception, du
développement, de la maintenance et des performances des applications qui utilisent la
machine.
De même les informations contenues dans les répertoires utilisateurs et le scratch, leur
cohérence n’est pas de la responsabilité du DIT.
Page 9 sur 11
EPFL – DOMAINE IT - EXPLOITATION
16 Facturation.
L’utilisation de la machine Blue Gene ne fait pas l’objet d’une facturation, par contre son
accès est limité.
Les modalités d’accès sont définies dans le document « CADMOS Politique
d’utilisation de Blue Gene/P » édité par le Comité de Direction CADMOS, accessible par
l’url http://cadmos.epfl.ch/page-60180-en.html.
Le site http://cadmos.epfl.ch/page-60181-en.html fournit les données statistiques
d’utilisation périodiques du système BG.
17 Rapport sur le service et révisions.
Lors du dernier trimestre de l’année courante, si les indicateurs ne sont pas conformes
aux objectifs fixés ou qu’une modification a été demandée, une étude sera réalisée. Elle
conduira à la production d’un plan d’amélioration de la qualité qui fournira, au minimum,
les informations suivantes :
•
•
•
•
Proposition d’amélioration de l’existant.
Possibilités d’évolution.
Coûts (investissement, récurrent, humains)
Planification de mise en œuvre.
!T"! 1&+%'9:),$7*+)*()$6;$>9&')7*
Les indicateurs de performance permettent de suivre l’évolution de la qualité de service
pendant la période de référence.
Les données statistiques pour l'année en cours et les années précédentes sont toutes
répertoriées sur le site web CADMOS http://cadmos.epfl.ch/page-60181-en.html.
18 Glossaire (si approprié).
CADMOS : Centre de modélisation scientifique avancée, consortium composé de
l’EPFL, L’UNIGE, l’UNIL.
19 Formulaire d’amendement (si approprié).
Page 10 sur 11
EPFL – DOMAINE IT - EXPLOITATION
Pour enregistrer les amendements survenus d’un commun accord pendant la période
contractuelle. Avec les détails techniques, dates et les signatures des parties.
Les révisions sont mentionnées en début de document.
Page 11 sur 11

Documents pareils