Service HPC sur Blue Gene. - Lemanicus Blue Gene/Q
Transcription
Service HPC sur Blue Gene. - Lemanicus Blue Gene/Q
EPFL – DOMAINE IT - EXPLOITATION Service HPC sur Blue Gene. Description du service (D’après OGC - ITIL v3 - Service Design- Appendix F : Sample SLA and OLA) Source : communDIT:_EX:Catalogue-Services:HPC:BGQ:SLA_DIT_BGQ.docx Distribution : Tous les utilisateurs du service. Cette accord est fait entre le DIT et les utilisateurs du service. Cet accord couvre le service d’hébergement de la machine Blue Gene par le DIT pour le compte de CADMOS. Cet accord est valide pour 12 mois du (01/01/2013) au (31/12/2013). Cet accord ne sera normalement pas révisé pendant la durée de vie de la machine. Les changements mineurs survenus pendant la période de validité pourront être ajoutés à l’aide du formulaire d’amendement, ils doivent être accepté par les deux parties et mis en production au travers du processus de gestion des changements (s’il existe). Versions 0.1 1.0 Date 26.11.2012 08/01/2013 Révisions Auteur Fabien Figueras Fabien Figueras Page 1 sur 11 Commentaires Document de travail Point d’entrée unique Help Desk EPFL – DOMAINE IT - EXPLOITATION Table des matières !"! #$%&'()*(+,-#.-%$'/(&$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-0! !"!! )'(,&()$-#.-%$'/(&$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-0! !"1! 23,34(&$%-#.-%$'/(&$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-0! !"5! %)3&(4(&6*(+,%-#.-%7%*$8$-29:;-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-0! 1! $*$,#.$-#$-<=6&&+'#"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->! 1"!! &+./$'*-)6'-<=6&&+'#"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->! 1"1! ,+,-&+./$'*-)6'-<=6&&+'#"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->! 5! ?$.'$%-#=+./$'*.'$%-#.-%$'/(&$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->! 5"!! )3'(+#$%-+./'62<$%"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->! 5"1! )3'(+#$%-#$-86(,*$,6,&$%"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->! 5"5! &6<$,#'($'-#$%-&+,93%"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""->! 0! #(%)+,(2(<(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@! 0"!! #34(,(*(+,-#=.,$-)6,,$-+.-#=.,$-(,#(%)+,(2(<(*3-A%(-6))'+)'(3B"-"""""""""""""""""""""""""""""""""""""-@! 0"1! 83*?+#$-#$-&6<&.<"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@! 0"5! +2C$&*(4-#$-#(%)+,(2(<(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@! >! 4(62(<(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@! >"!! #34(,(*(+,-#=.,$-)6,,$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@! >"1! 83*?+#$-#$-&6<&.<"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-@! >"5! +2C$&*(4-#$-4(62(<(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D! @! %.))+'*-.*(<(%6*$.'"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D! @"!! &6<<-&$,*$'"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D! @"1! ?$<)-#$%E"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D! @"5! #$86,#$%-#$-<=.*(<(%6*$.'"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-D! D! )+(,*%-#$-&+,*6&*%-$*-$%&6<6#$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F! F! )$'4+'86,&$"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F! G! &7&<$-#=$H3&.*(+,-#$%-*'6(*$8$,*%-)6'-<+*%--I-26*&?-J-A%(-6))'+)'(3B"-""-F! !K! 4+,&*(+,,6<(*3%-8(,(86<$%-A%(-6))'+)'(3B"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F! !!! 9$%*(+,-#$%-&?6,9$8$,*%"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F! !!"!! $/+<.*(+,-#$-<=(,4'6%*'.&*.'$"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F! !!"1! $/+<.*(+,-#.-,(/$6.-#$-%$'/(&$"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-F! !1! &+,*(,.(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-G! !5! %3&.'(*3"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-G! Page 2 sur 11 EPFL – DOMAINE IT - EXPLOITATION !0! (8)'$%%(+,-A%(-6))'+)'(3B"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-G! !>! '$%)+,%62(<(*3"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-G! !@! 46&*.'6*(+,"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K! !D! '6))+'*-%.'-<$-%$'/(&$-$*-'3/(%(+,%"-"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K! !D"!! (,#(&6*$.'%-#$-)$'4+'86,&$%-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K! !F! 9<+%%6('$-A%(-6))'+)'(3B"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K! !G! 4+'8.<6('$-#=68$,#$8$,*-A%(-6))'+)'(3B"-""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""-!K! Page 3 sur 11 EPFL – DOMAINE IT - EXPLOITATION 1. Description du service. CADMOS offre un service HPC sur un supercalculateur IBM de type Blue Gene/Q (abrégé BG/Q), installé sur le site de l’EPFL dans la salle machine du DIT et maintenu par le groupe exploitation. Ce service est à disposition des membres des Universités de Genève (UNIGE) et de Lausanne (UNIL) et de l'EPFL, dont les projets ont été formellement approuvés par le Comité de Direction CADMOS.. Ce document présente les caractéristiques et les objectifs attendus pour ce service, pour la durée de vie du système BG/Q, soit normalement jusqu’à fin 2016. !"! #$%&'%()*+,*-./012."* Les ressources humaines du DIT consacrées au service sont de 1.5 EPT (Equivalent Temps Plein). Par ordre de priorité, le service offre les prestations suivantes : • Exploitation du système BG/Q : hébergement et maintenance de l’infrastructure BG/Q en salle machine, administration du système et résolution des pannes en relation avec le support d’IBM. • Maintenance logicielle : installation et mise à jour des logiciels système, ainsi que de packages standards, selon les demandes des utilisateurs. • Coordination de l’accès à la machine : ouverture et gestion des comptes utilisateur. • Partage équitables des ressources : mise en place de la politique d’allocation des ressources définie par le Comité de Direction CADMOS. • Support utilisateur : assistance pour les problèmes d’accès et d’utilisation du système BG/Q. • Support applicatif : dans la mesure des ressources humaines disponibles, conseils et aide à la compilation, au debugging et au portage des codes des utilisateurs sur l’architecture BG/Q. !"3 45&56%')7*+,*-./012."* Le service prend en charge l’exploitation du système BG/Q et assure la disponibilité de celui-ci. Le service offre également une assistance aux utilisateurs, sous forme de conseils, pour adapter leurs codes aux caractéristiques du BG/Q, afin de bénéficier au maximum de la puissance disponible. !"8 -(5'%6%'9:%;&7*+,*7<7:=>)*4?@A* Le BG/Q est un superordinateur dit massivement parallèle, car il compte un très grand nombre de processeurs. La machine dispose de 1024 nœuds de calcul, soit 16’384 unités Page 4 sur 11 EPFL – DOMAINE IT - EXPLOITATION de calcul indépendantes. Le système offre 16TB de mémoire et un espace de stockage de 3PB brut. 2 Etendue de l’accord. Cette section décrit ce qui est couvert par l’accord et ce qui ne l’est pas. 3"! 2;,B)$:*(9$*CD9'';$+"* • • • • • La maintenance du superordinateur de type Blue Gene. L’administration et la maintenance des frontales. L’administration et la maintenance du sous-système de stockage. L’installation et la maintenance de logiciels système. La sauvegarde journalière des répertoires d’accueil des utilisateurs. 3"3 E;&*';,B)$:*(9$*CD9'';$+"* • • Le support des applications. La sauvegarde des répertoires scratch. 3 Heures d’ouvertures du service. Le service est normalement disponible en permanence. Cependant le DIT ne s’engage à maintenir l’infrastructure dans son état optimum que dans les périodes décrites cidessous. 8"! #5$%;+)7*;,B$9FC)7"* Le DIT est ouvert du lundi au vendredi 8h à 17h. 8"3 #5$%;+)7*+)*>9%&:)&9&')7"* L’infrastructure pourra fonctionner dans un mode dégradé de performance ou être totalement indisponible lors des opérations de maintenance, telles que les mises à jour du logiciel ou du matériel, ou lors d’interventions du support d’IBM. Les utilisateurs seront avisés si possible avec un préavis d’une semaine. 8"8 29C)&+$%)$*+)7*';&G57"* Le DIT peut être fermé pendant certaines périodes de l’année (par exemple les jours fériés). Lors de ces périodes aucun délai d’intervention n’est garanti. Page 5 sur 11 EPFL – DOMAINE IT - EXPLOITATION 4 Disponibilité. Le service est disponible s’il n’est pas en panne. H"! I56%&%:%;&*+D,&)*(9&&)*;,*+D,&)*%&+%7(;&%F%C%:5*J7%*9(($;($%5K"* On considère que le service BG est en panne lorsque, hors période de maintenance, plus aucun job ne tourne et qu’il n’est pas possible d’en soumettre de nouveaux. H"3 L5:M;+)*+)*'9C',C"* Le calcul de la durée totale des pannes se fera en additionnant la durée totale des indisponibilités du service pendant les périodes ouvrables (cf § 3.1). H"8 NFO)':%6*+)*+%7(;&%F%C%:5"* L’objectif annuel est d’offrir un niveau de disponibilité qualifié de très bon. Durée totale des indisponibilités 1h 5h 10h 41h 82h Niveau de disponibilité Excellent Très bon Bon Moyen Médiocre 5 Fiabilité. C’est le nombre maximum de pannes annuelles pendant les heures ouvrables. Ce point peut aussi être mesuré en terme de MTBF (temps moyen entre panne) ou MTSI (temps moyne entre incident système). L’objectif annuel de fiabilité sera fonction du type d’architecture retenue. P"! I56%&%:%;&*+D,&)*(9&&)"* (Voir les définitions au paragraphe 4.1) P"3 L5:M;+)*+)*'9C',C"* Le calcul du nombre de pannes se fera en additionnant la durée totale des indisponibilités complètes du service pendant les périodes ouvrables (cf. 3.1). Page 6 sur 11 EPFL – DOMAINE IT - EXPLOITATION P"8 NFO)':%6*+)*6%9F%C%:5"* Comme pour la disponibilité l’objectif annuel est d’offrir un niveau de fiabilité qualifié de très bon. Nombre de panne 1 2 3 5 10 Niveau de fiabilité Excellent Très bon Bon Moyen Médiocre 6 Support utilisateur. Le support du DIT comporte deux niveaux : Le premier est constitué par le « Call Center », le deuxième par les spécialistes du DIT. Le site http://hpc-dit.epfl.ch/index.php offre une vue d’ensemble des ressources HPC disponibles à l’EPFL. Le site http://bluegene.epfl.ch est le point d’entrée de tout utilisateur du sytème BG/Q. Il propose différents documents sur l’utilisation de la machine et les manuels Blue Gene d’IBM. Il propose également des informations sur la charge courante de la machine et sur les jobs qui tournent et qui ont tournés. Q"! 29CC*2)&:)$"* Le Call Center est ouvert du lundi au vendredi de 7h30 à 18h. Téléphone interne à l’école : 1234 Téléphone depuis la Suisse : 021 69 312 34 Téléphone depuis l’étranger : +41 21 69 312 34 E-mail : [email protected] Q"3 R)C(*I)7S"* Le Help Desk est situé au rez-de-chaussée du bâtiment MA, allée Piccard 3 (http://plan.epfl.ch/index.html?view=182), il est ouvert du lundi au vendredi de 8h à 18h. Q"8 I)>9&+)7*+)*CD,:%C%79:),$"* Pour toutes ses demandes (incidents, conseils…) l’utilisateur doit impérativement s’adresser au Help Desk, par le Call Center ou en se déplaçant physiquement. En cas d’escalade au niveau 2 le temps maximum qui peut s’écouler avant l’intervention sera de 1h. Page 7 sur 11 EPFL – DOMAINE IT - EXPLOITATION 7 Points de contacts et escalade. En cas de non satisfaction du support, la personne à contacter est le chef du groupe DITExploitation. Prière d’envoyer la succession de mails échangés concernant le cas et/ou le numéro de ticket du Help Desk. 8 Performance. Les performances du système ont été évaluées lors de son installation à l’aide de Linpack. Pour aider l’utilisateur à obtenir les meilleures performances possibles de ses applications, CADMOS met à disposition des utilisateurs des spécialistes. Le DIT pourra proposer son assistance pour aider à identifier les limites de performance dues au système. 9 Cycle d’exécution des traitements par lots « batch » (si approprié). Les travaux « batch » sont gérés par l’ordonnanceur de tâches LoadLeveler. Il est possible de soumettre des travaux à tout moment.. 10 Fonctionnalités minimales (si approprié). Une panne de nœud de calcul donne un mode dégradé d’exploitation, dans lequel il y a simplement moins de puissance disponible. 11 Gestion des changements. !!"! .B;C,:%;&*+)*CD%&6$97:$,':,$)"* Le système BG/Q a été acquis au quatrième trimestre 2012 avec un support constructeur commençant le ?? novembre/décembre 2012 pour quatre ans soit jusqu’au ?? novembre/décembre 2016. Pendant cette période d’exploitation, le système reste identique et uniforme, c’est-à-dire que l’ensemble des composants demeure stable. !!"3 .B;C,:%;&*+,*&%B)9,*+)*7)$B%')"* Comme le montre l’expérience du DIT, le niveau de service ne change pas significativement au cours de la durée de vie d’une infrastructure aussi stable et uniforme que l’infrastructure BG/Q. Page 8 sur 11 EPFL – DOMAINE IT - EXPLOITATION 12 Continuité. Le DIT met en œuvre les moyens informatiques pour garantir qu’en cas de panne d’un composant unique le service ne sera pas perturbé. Les accès réseaux de l’EPFL sont redondants et en cas d’interruption de service d’un composant réseau le basculement sur la solution de secours est transparent. Le système BG/Q dispose de composants redondants qui doivent permettre de minimiser l’impact d’une panne sur le fonctionnement global de la machine. Les données utilisateurs sont sauvegardées tous les jours et enregistrées sur bandes dans un site secondaire. La politique de sauvegarde est la suivante : Répertoires d’accueil des utilisateurs : une sauvegarde journalière, rétention durant 400 jours.Répertoires scratch : pas de sauvegarde. 13 Sécurité. Seuls les utilisateurs accrédités par CADMOS peuvent obtenir un accès au BG/Q. Le login sur les frontales du système s’effectue par ssh et le contrôle d’accès est réalisé par le serveur LDAP de l'école. Les autres aspects de sécurité sont pris en charge par le système d’exploitation Linux SuSE 10. 14 Impression (si approprié). Ne concerne pas ce service. 15 Responsabilité. Le DIT est responsable de : • La maintenance des logiciels système. Les utilisateurs sont responsables de : Leurs applications. Sauf avis contractuel contraire le DIT n’est pas responsable de la conception, du développement, de la maintenance et des performances des applications qui utilisent la machine. De même les informations contenues dans les répertoires utilisateurs et le scratch, leur cohérence n’est pas de la responsabilité du DIT. Page 9 sur 11 EPFL – DOMAINE IT - EXPLOITATION 16 Facturation. L’utilisation de la machine Blue Gene ne fait pas l’objet d’une facturation, par contre son accès est limité. Les modalités d’accès sont définies dans le document « CADMOS Politique d’utilisation de Blue Gene/P » édité par le Comité de Direction CADMOS, accessible par l’url http://cadmos.epfl.ch/page-60180-en.html. Le site http://cadmos.epfl.ch/page-60181-en.html fournit les données statistiques d’utilisation périodiques du système BG. 17 Rapport sur le service et révisions. Lors du dernier trimestre de l’année courante, si les indicateurs ne sont pas conformes aux objectifs fixés ou qu’une modification a été demandée, une étude sera réalisée. Elle conduira à la production d’un plan d’amélioration de la qualité qui fournira, au minimum, les informations suivantes : • • • • Proposition d’amélioration de l’existant. Possibilités d’évolution. Coûts (investissement, récurrent, humains) Planification de mise en œuvre. !T"! 1&+%'9:),$7*+)*()$6;$>9&')7* Les indicateurs de performance permettent de suivre l’évolution de la qualité de service pendant la période de référence. Les données statistiques pour l'année en cours et les années précédentes sont toutes répertoriées sur le site web CADMOS http://cadmos.epfl.ch/page-60181-en.html. 18 Glossaire (si approprié). CADMOS : Centre de modélisation scientifique avancée, consortium composé de l’EPFL, L’UNIGE, l’UNIL. 19 Formulaire d’amendement (si approprié). Page 10 sur 11 EPFL – DOMAINE IT - EXPLOITATION Pour enregistrer les amendements survenus d’un commun accord pendant la période contractuelle. Avec les détails techniques, dates et les signatures des parties. Les révisions sont mentionnées en début de document. Page 11 sur 11