Dossier de montage de l`architecture cluster de PC

Transcription

Dossier de montage de l`architecture cluster de PC
DESCRIPTIF DES BESOINS DE CALCULS
SCIENTIFIQUES SUR ARCHITECTURE
DEDIEE
Institut de recherche
pour le développement
DEMANDE DES UNITES DE RECHERCHE 103 ET 65 DU CENTRE DE NOUMEA,
SEPTEMBRE 2004
Groupe de travail
Pascal Douillet, resp. Scientifique UR 103 ([email protected])
Alexandre Ganachaud, resp. Scientifique UMR 65 ([email protected])
Jérôme Lefèvre, resp. Informatique UMR 65 / UR 103 ([email protected])
Michel Ménézo, resp. Informatique IRD, Centre Nouméa ([email protected])
Avec la participation de :
Franck Delmas, IFREMER Brest (Code MARS 3D)
Patrick Marchesiello, IRD Brest (Code ROMS)
SOMMAIRE
1. Objet....................................................................................................................... 2
2. Besoins en calculs intensifs des UR 65 (Legos) et 103 (Camelia).................... 3
2.1. Thèmes de recherche de l’UMR 65 .................................................................. 3
2.2. Thèmes de recherche de l’UR 103 ................................................................... 5
2.3. Les types d’utilisation ....................................................................................... 8
3. Définition du matériel informatique adapté aux besoins................................... 9
3.1. Critères de définition......................................................................................... 9
3.2. Configuration matérielle proposée et offres.................................................... 10
3.3. Avantages / inconvénients.............................................................................. 14
3.3. L’offre OS ....................................................................................................... 15
3.4. Compétences et demande d’assistance ........................................................ 17
4. Exemple de plateformes de calcul dédiées à la dynamique des fluides
installées dans d’autres organismes de recherche publique en France ........... 18
4.1. Tour d’horizon des plateformes de calcul ....................................................... 18
4.2. Quelques exemples de plateformes utilisées pour des applications CFD
(Computational Flow Dynamic).............................................................................. 18
Bibliographie ........................................................................................................... 20
ANNEXE 1 Détail des deux configurations matérielles fondées sur des nœuds
bi-processeurs
ANNEXE 2 Dépouillement des offres commerciales
ANNEXE 3 Extrait des notes d’évaluation des performances de calcul des
machines disponibles localement en vue de l’implantation du code ROMS au
Centre de Nouméa
ANNEXE 4 Le modèle hydrodynamique Mars
ANNEXE 5 A propos du processeur AMD Opteron
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
1
1. Objet
Le présent dossier expose les besoins en matériel de calcul scientifique intensif
exprimés par les UR 103 (CAMELIA) et UMR 65 (LEGOS) du centre IRD de
Nouméa.
Les activités de recherche des UR 103 et 65, axées respectivement sur les
conséquences des activités anthropiques sur les eaux marines côtières en milieu
tropical insulaire et sur l’étude de la circulation océanique à l’échelle du Pacifique
Sud-Ouest, emploient des modèles numériques de circulation à grande et petite
échelle, basés sur la méthode des différences finies. Les échelles des phénomènes
étudiés et des domaines couverts nécessitent un minimum de moyens de calcul pour
être effectués sur place. Les récentes et futures simulations portent également sur
l’intégration dans les modèles de circulation de modules sédimentaires, biologiques
et géochimiques, certains mis au point localement. Ces développements impliquent
une augmentation de la charge de calcul, assurée jusqu’ici au moyen de station de
travail. Les besoins actuels et exprimés à court terme impliquent des délais de calcul
déraisonnables avec les moyens actuels. D’autre part, les pays insulaires de la
région sont intéressés par des simulations numériques dans leur lagon ou autour, et
le renforcement de projet régionaux impliquera une augmentation des demandes
locales.
Ce dossier expose en première partie les besoins de chaque UR, replacés dans le
contexte scientifique et technique. En seconde partie, une étude technique présente
le matériel informatique que nous croyons adapté à ces besoins et les compétences
nécessaires pour sa mise en place et son administration. Des tableaux financiers
accompagnent l’évaluation des solutions retenues ainsi que leur principaux
avantages/inconvénients.
Le troisième volet présente des exemples de solutions de calculs, utilisés dans le
cadre de thématiques scientifiques similaires.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
2
2. Besoins en calculs intensifs des UR 65 (Legos) et 103 (Camelia)
Les deux UR ont en commun d’employer des codes de calcul portant sur la
modélisation de la circulation hydrodynamique, avec le modèle ROMS (Regional
Ocean Modelling System) pour l’extérieur du lagon (UMR 65) et M A R S pour
l’intérieur du lagon (UR 103).
2.1. Thèmes de recherche de l’UMR 65
Le groupe ECOP rattaché au
Laboratoire
en
Etudes
Géophysiques
et
Océanographie Spatiale (LEGOS) développe actuellement une étude de la
circulation océanique régionale sur l'ensemble du Pacifique Sud-Ouest avec un
zoom autour de la Nouvelle Calédonie et des îles de Polynésie Française. Cette
étude inclura des mesures satellites. En 2005, un modèle opérationnel devrait être
produit, imbriqué dans les champs de prévision du projet opérationnel Français
MERCATOR. L’exercice de ces thématiques nécessite l’emploi d’un modèle
numérique de circulation capable à la fois de restituer la réponse des phénomènes
climatiques de variabilité annuelle et inter-annuelle observée à l’échelle régionale et
rendre compte de la circulation côtière à l’approche des archipels de NouvelleCalédonie et de la Polynèsie Française. Les enjeux économiques pour les activités
de pêche hauturières et les activités environnementales nécessitent d’aboutir à une
restitution et une prévision de l’évolution des fronts thermiques et halins et des
champs de vitesse à une échelle côtière. Ce projet d'océanographie côtière est cofinancé par le programme ZoNeCo (Nouvelle Calédonie), le Ministère de l'Outre Mer
et l'IRD.
Le modèle ROMS a été retenu dans le cadre de ces chantiers. Ce code 3D et qui
emploi un schéma aux différences finies, est développé sous la supervision
d’Herman Arango et Dale Haidvogel (Université Rutgers, New-Jersey). Au sein de
l’IRD, Patrick Marchesiello et Pierrick Penven (UR097, IRD Brest), apportent leur
contribution à l’évolution du code. Parmi les dernières options innovantes du code,
citons les fonctions de zoom et de raffinement (logiciel AGRIF, INRIA) issues du
travail collaboratif entre l’IRD, l’INRIA et l’UCLA (University of California at Los
Angeles). Cet outil, à condition de disposer de moyens de calculs adaptés, permet de
concevoir sereinement la modélisation des écoulements côtiers à une échelle
appropriée (de l’ordre de 1 à 2 km à la côte et 10 km au large) en recourant aux
fonctions de zoom.
Aspects informatiques du code
Dès les premières versions, le code a été parallélisé pour bénéficier des plateformes
à mémoire partagée (Sun, SGI, etc). Le code comprend les directives OpenMP, pour
être employé sur ce type de plateforme.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
3
L’algorithme de calcul fait également appel à la bibliothèque d'échanges de
messages MPI (Message Passing Interface) pour les architectures à mémoire
distribuée (grappe de PC).
La technique de parallélisation consiste à décomposer le domaine de calcul en sous
domaines, de manière explicite. Avant compilation du programme, l’utilisateur
déclare un nombre de sous domaine égal au nombre de processeurs (ou multiple,
pour les plateformes à mémoire partagée). Chaque processus parallèle gère alors de
manière autonome son propre sous domaine et est défini une seule fois pour tout le
reste de l’exécution du programme.
La méthode de parallélisation est particulièrement efficace et offre une grande
‘’scalabilité’’ (augmentation linéaire de la performance avec le nombre de
processeurs).
Localement, le compilateur fortran Intel Version 8 (qui supporte les directives
OpenMP) a été employé pour des tests préliminaires (cf Annexe 3). Le code a été
exécuté en mode parallèle sur un bi-processeur Pentium III sous Linux et les
performances comparées avec des plateformes monoprocesseurs plus récentes. Les
temps de calcul obtenus sur une grille comportant 544 000 points sont les suivants :
Fig.1 Temps de calcul observés pour 3 machines testées au centre de Nouméa
Configuration
Tiki Pentium III Bi-Processeur
Nb CPU
1 itération
1 mois
1 année
1002 Mhz, cache 256 ko, SSE
oui, SSE2 non, HT non
Mémoire : SDR 133 Mhz 1,5 GO
1 x 1002 Mhz
36,5 s
50,5 heures
606 heures
2 x 1002 MHZ
13 s
18,0 heures
216 heures
Boris Pentium IV
1 x 1615 Mhz
7s
9,7 heures
116.4
heures
1 x 2940 Mhz
4,7 s
6,5 heures
78 heures
1615 Mhz, cache 512 ko, SSE
oui, SSE2 oui, HT non
Mémoire : DDR 266 Mhz 512 MO
Pentium IV P4P8X
2940 Mhz, cache 512 ko, SSE
oui, SSE2 oui, HT oui
Mémoire : DDR 333 Mhz 512 MO
Les résultats obtenus au cours des tests mettent en relief :
- le gain évident de performance de calcul en mode parallélisé (Fig. 1), qui montre les
perspectives d’augmentation de la vitesse d’exécution sur un cluster composé de
machines récentes, qui plus est composé de nœud bi-processeur
- le gain appréciable apporté par le partitionnement du domaine, qui permet d’aboutir
à un jeu de bloc de données de taille équivalente à la mémoire cache. L’exécution du
code s’en trouve améliorée (cf. Annexe 3).
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
4
Adéquation des moyens avec les objectifs
Il apparaît que les dernières machines du Centre constituées de pentium IV
monoprocesseur sont suffisantes pour l’exécution du code sur des domaines à
moyenne échelle, dans le cas d’une résolution inférieure à 1/10° et des périodes
simulées de quelques mois. Par exemple, 6 mois de simulation sur une machine
cadencée à 3 GHz nécessiterait 36 heures.
Au-delà, dans le cadre de l’étude affinée de processus côtiers nécessitant l’emploi de
maillages imbriqués avec une résolution plus fine (1 à 2 km) et pour des périodes
d’intégration plus longue (recherche d’un état d’équilibre, nécessitant plusieurs
années d’intégration, par exemple), les temps de calculs deviennent difficilement
acceptables. En effet, les fonctions de zoom pénalisent l’exécution du code, en fixant
un pas de temps adapté avec la maille la plus petite. De même, si l’on active les
modules biologique, sédimentaire et biochimique.
Les solutions envisageables sont alors celles pour lesquelles le code est prévu,
multiprocesseur ou grappe de PC (cluster).
2.2. Thèmes de recherche de l’UR 103
L’Unité de Recherche 103 (Camélia) étudie l’influence des apports terrigènes et
anthropiques sur les lagons de Nouméa et de Suva (Fidji). Les principales questions
scientifiques posées sont les suivantes :
Quels sont les mécanismes de transport et de transformation des principaux agents
d’influence terrigènes et anthropiques au niveau de la zone côtière tropicale ?
Quels sont les effets des apports terrigènes et anthropiques en terme d’eutrophisation des
systèmes et de bioaccumulation des métaux dans les organismes marins ?
Dans quelle mesure la modélisation permet-elle de rendre compte de ces mécanismes de
transport et de transformation ?
L’UR Camélia a pour objectif principal de déterminer comment l’homme influence les
écosystèmes littoraux du Pacifique. Dans ce cadre, Camélia s’intéresse plus
spécifiquement aux apports :
en particules entraînées par l’érosion des sols et sous-sols qui sont responsables du
processus d’hypersédimentation,
en éléments nutritifs organiques et inorganiques qui sont responsables du processus
d’eutrophisation,
en métaux qui peuvent s’avérer potentiellement toxiques pour les organismes vivant
dans le lagon.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
5
Les actions de recherche ont été définies de façon à apporter des réponses aux
questions scientifiques suivantes :
Quels sont les mécanismes de transport et de transformation des principaux agents
d’influence terrigènes et anthropiques au niveau de la zone côtière tropicale ?
Quels sont les effets des apports terrigènes et anthropiques en terme d’eutrophisation
des systèmes et de bioaccumulation des métaux dans les organismes ?
Dans quelle mesure la modélisation permet-elle de rendre compte de ces mécanismes
de transport et de transformation ?
Pour répondre à ces questions, l’UR à mise en place un réseau de modèles
numériques couvrant les différents domaines de recherche. A la base, nous avons
développé un modèle hydrodynamique du lagon sud-ouest à partir du modèle
MARS3D de l’IFREMER, le modèle de génération et de propagation des vagues
WaveWatch III a ensuite été adjoint. Depuis nous avons couplé à ces deux modèles
un modèle de transport des vases et sables. Un modèle de production primaire
couplé au modèle hydrodynamique est en cours de développement dans le cadre de
la thèse de Vincent Faure (Univ. Marseille) et devrait être opérationnel début 2005.
Enfin l’UR travaille sur les possibilités d’adaptation d’un modèle atmosphérique à la
Nouvelle-Calédonie et au lagon sud-ouest.
Bathymétrie
Marée
1980-90’s
1998
Circulation
mésoéchelle
Vent
Modèle 3D 2004
Courants
Modèle 3D 1999
Vagues
Turbulence
l -> k-l 2004
Modèle Wavewatch III
2002-2003
Transport particulaire
Modèle ‘Vases’ 2000-2003
Modèle ‘Sables’ 2001-…
Modèle
Biogéochimique
Fig. 1 Organisation des activités de modélisation physique au sein de l’UR Camélia.
La circulation mésoéchelle n’a pas d’influence sur la circulation dans le lagon sudouest, qui n’est ouvert à l’extérieur qu’au niveau des passes.
Le modèle MARS 3D (Cf. Annexe 4) est un modèle tri-dimensionnel qui utilise un
schéma aux différences finies à surface libre. Il est développé par l’IFREMER
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
6
(Pascal Lazure), qui l’applique sur les façades côtières Française. Les équations
hydrodynamiques sont portées sur un maillage isotrope. Le code comporte
également des fonctions de zoom et de raffinement (Logiciel AGRIF). L’outil est
destiné à servir de module hydrodynamique principal appliqué au lagon de NouvelleCalédonie et de Fidji. Les développements portent sur l’intégration de modules
particulaires, biologiques et bio-géochimiques. ….
Le modèle du lagon sud-ouest de Nouvelle Calédonie couvre une zone de 170 km
de long sur 50 km de large. Les grilles du maillage ont actuellement une taille de 500
mètres mais seront augmentées de manière à s’adapter à la physique des
phénomènes étudiés et à la bathymétrie, marquée par de fort gradient de pente. La
résolution verticale est de 21 niveaux. Les travaux de mise au point et de couplage
au modèle hydrodynamique des modules particulaires, biologiques la prise en
compte de nouveaux paramètres tel le déplacement des larves aboutira à une
augmentation des paramètres et des équations à résoudre numériquement. L’étude
du transport particulaire et de la production primaire est au stade de la
compréhension des processus. Cette phase implique la multiplication des runs avant
d’aboutir à des modèles calibrés et validés.
Aspects informatiques du code
La version officielle du code MARS 3D incorpore déjà les directives de compilation
OpenMP permettant son exécution parallèle sur une architecture à mémoire
partagée.
Franck Dumas (IFREMER) développe actuellement la version MPI de MARS. Les
tests réalisés sur un cluster de PC montre une bonne performance d’exécution du
code (speed-up de l’ordre de 13 pour une configuration 16 processeurs) et des
conditions de simulation réalistes sur grande grille (400 x 500 mailles). Bien que le
projet soit à l’état de prototype, une version exécutable sur plateforme à mémoire
distribuée devrait être disponible dans quelques mois.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
7
2.3. Les types d’utilisation
Les objectifs d’études de la circulation côtière mobilisant la ressource de calculs se
traduisent par exemple de la manière suivante pour le code ROMS (UMR 65) :
Courant 2004, 2ème semestre
- Etude des événements d’Upwelling : Identification des sources de forçage et réponse
hydrodynamique du phénomène sur la côte Ouest de la Nouvelle-Calédonie. Scénarios
saison froide / saison chaude pour différentes conditions de vent.
- Développement du modèle ROMS sur un maillage fermé par les latitudes 10°S et 26°S
et par les longitudes 153° et 180°E autour de la Nouv elle-Calédonie. Elaboration d’une
bathymétrie adaptée aux échelles des domaines et phénomènes physiques étudiés.
Préparation et validation des données climatologiques disponibles et runs pour
vérification préliminaire de la qualité des solutions.
Courant 2005 (Sous condition de moyens de calculs dédiés)
- Préparation des maillages emboîtés par méthode de zoom (passage progressif de 10
km à une résolution à la cote de 1 km) et vérification des conditions de convergence /
critères de stabilité aux zones frontières.
- à partir d’une solution stable, étude de la circulation côtière sous l’effet du vent, des flux
de chaleur, de la marée .... Amélioration des connaissances sur les phénomènes côtiers
localisés (Upwelling, dynamique des structures thermo-halines, ondes internes,
variabilité saisonnière des champs de température et courant …). Scénario et runs tests
pour analyse des processus et qualité des solutions en fonction des données
climatologiques et de forçage
2005/2006
- Extraction des conditions aux limites de MERCATOR sur la zone régionale (Utilisation
de l'interface développée par P. Marchesiello, Pierrick Penven et V. Echevin (IRD)).
Etablissement d’une circulation générale stable et cohérente et analyse de la circulation
basse et haute fréquence, apport du forçage océanique sur les conditions de circulation
côtière. Validation / Calibration des solutions
- Etablissement d’une plateforme d’Océanographie opérationnelle appliquée à la
Nouvelle-Calédonie.
Cette démarche appliquée à la Nouvelle-calédonie est également prévue dans le cas de
l’étude de la circulation côtière dans la ZEE de la Polynésie Française.
Dans le cas du code MARS 3D (UR 103), les différentes étapes de mise au point des
modèles et de leur calage mobiliseront la ressource dans une proportion équivalente.
La mise au point du modèle de production primaire, sa validation à l’aide d’imagerie
spatiale nécessitera en 2005 l’utilisation intensive de ce cluster. Le développement
du modèle atmosphérique demandera, pour sa mise au point, de fortes capacités de
calcul en 2005 et 2006. En 2005 et 2006 les résultats du chantier Calédonien, en
terme de modèle, seront transposé au chantier Fidjien.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
8
3. Définition du matériel informatique adapté aux besoins
3.1. Critères de définition
Le matériel est principalement dédié au calcul scientifique intensif, faisant interface
entre les ressources des centres de calcul nationaux et les applications régionales.
Nœuds de calcul
CLUSTER
SWITCH Gigabit
Connection
Gigabit
Serveur de calcul
Sauvegarde
rapide
sur SATA Raid 0
(job, serveur de
fichiers)
Connection
Gigabit
Sauvegarde sécurisée
sur SATA en Raid 1
Frontale (exploitation
des données)
Connection
vers le centre
Fig. 2 Synoptique de l’architecture de calcul envisagée
La performance de calcul (précision et rapidité) est particulièrement recherchée. Le
calculateur disposera d’un réseau de communication privé à haut débit, desservant
les nœuds de calculs. Le calculateur est doté d’un système de sauvegarde rapide
des données en cours de simulation (1er niveau), moyennant les ressources du
serveur de calcul. Une sauvegarde de 2nd niveau, visant la sécurité des données, est
effectuée sur une machine frontale. Les données sauvegardées sur les disques
‘’mirorés’’ du frontal concernent principalement les sorties validées des modèles et
les tableaux de données employées pour l’alimentation des modèles.
La solution devra offrir une souplesse d’évolutivité en fonction de la montée en
puissance des besoins de calculs, avec possibilité d’ajout de nœuds de calcul par
exemple. Une maintenance réduite et un remplacement des pièces défectueuses
avec des pièces accessibles localement constituent également un critère important,
compte tenu de la position géographique du Centre.
L’architecture doit être compatible et offrir une bonne performance vis-à-vis des
problèmes soumis et des méthodes de parallélisation adoptées dans les codes.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
9
Côté administration, le système doit offrir une ergonomie d’installation, de
surveillance, de mise à jour (logiciel et matériel) et correspondre si possible à des
solutions OS déjà connues au Centre (solutions Redhat, Mandrake). En outre, il
devra permettre de gérer une architecture homogène ou hétérogène, dans le cas par
exemple de l’incorporation de nœuds de calcul basés sur une technologie différente.
L’architecture proposée est un cluster ‘‘Beowulf’’ de classe I, composé de nœuds
mono et/ou bi-processeur. Le cluster de classe I est composé de PC accessibles
dans les magasins informatiques grand public et auprès des assembleurs. Ces
solutions sont couramment utilisées dans les laboratoires de calculs, notamment
dans les domaines des Sciences de la mer, de la Terre, du Climat, de
l’Environnement, en génie Bio-Médicale, Mécanique des structures etc...
3.2. Configuration matérielle proposée et offres
La configuration matérielle proposée est basée sur les configurations similaires
utilisées dans les centres de calculs employant des clusters de PC. Les dernières
technologies en la matière disponibles sur le marché et réputées fiables sous Linux
sont également considérées (carte mère, processeur, switch, carte raid etc.).
Pour l’évaluation budgétaire de la solution, 2 pistes ont été explorées :
L’évaluation de 3 configurations sur la base des prix du marché métropolitain
augmenté de 30 % pour taxe et frais d’expédition (source : www.LDLC.fr,
vente en ligne)
L’évaluation de 2 configurations sur la base des prix du marché local, après
consultation des fournisseurs
Une description plus complète des configurations matérielles fondées sur des nœuds
bi-processeurs figure en Annexe 1.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
10
A / Résultats des configurations issues des consultations en ligne, marché
métropolitain
Les 3 configurations proposées, par ordre décroissant de performance (et de coût),
sont les suivantes :
Configuration 1 : Serveur Bi-Opteron 2.0 Ghz + 4 Nœuds Bi-Opteron 2.0 Ghz
Master
2 opterons 246 2.0 ghz
MB : Tyan K8S
PC3200 4 x 512 Mo
4 DD serial ATA 200 Go + contrôleur raid 0
Carte ATI entrée de gamme
Ecran 17’’, clavier …
OS : ROCKS / OSCAR / CLIC
Nœuds
2 opterons 246 2.0 ghz
MB : Tyan K8S
PC3200 4 x 512 Mo
DD ATA 40 Go
Réseau
SWITCH 3COM 12 ports 24 Gbps Wirespeed
Cartes PCI Gigabit Cuivre Full Duplex, câble …
Prix indicatif : 18 000 Euros *
Configuration 2 : Serveur Bi-Xeon 3.0 Ghz + 4 Nœuds Bi-Xeon 3.0 Ghz
Master
2 x Xeon 3.0 cache 512 FSB 533
MB : ASUS PC-DL Deluxe
PC3200 4 x 512 Mo
4 DD serial ATA 200 Go + contrôleur raid 0
Carte ATI entrée de gamme
Ecran 17’’, clavier …
OS : ROCKS / OSCAR / CLIC
Nœuds
2 x Xeon 3.0 cache 512 FSB 533
MB : ASUS PC-DL Deluxe
PC3200 4 x 512 Mo
DD ATA 40 Go
Réseau
SWITCH 3COM 12 ports 24 Gbps Wirespeed
Cartes PCI Gigabit Cuivre Full Duplex, câble …
Prix indicatif : 15 600 Euros *
Configuration 3 : Serveur Bi-Xeon 3.0 Ghz + 8 Nœuds Pentium IV 3.0 Ghz
Master
2 x Xeon 3.0 cache 512 FSB 533
MB : ASUS PC-DL Deluxe
PC3200 4 x 512 Mo
2 DD serial ATA 200 Go + contrôleur raid 0
Carte ATI entrée de gamme
Ecran 17’’, clavier …
OS : ROCKS / OSCAR / CLIC
Nœuds
Pentium IV 3.0 512 FSB 800
MB : ASUS P4P800
PC3200 4 x 512 Mo
DD ATA 40 Go
Réseau
SWITCH 3COM 12 ports 24 Gbps Wirespeed
Cartes PCI Gigabit Cuivre Full Duplex, câble …
Prix indicatif : 15 000 Euros *
A ces coûts s’ajoute le serveur frontal. Ce serveur permet la sauvegarde sécurisée
des données sur disques ‘’mirorés’’ (disques sata 400 Go) et leur
consultation/exploitation, sans pénaliser l’exécution des sessions de calculs. Il est
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
11
doté de deux cartes réseaux gigabit, l’une reliée au réseau du centre, l’autre au
serveur de calcul :
Frontale (commune aux trois configurations proposées)
Frontale
Pentium IV 3.0 512 FSB 800
MB : ASUS P4P800
PC3200 4 x 512 Mo
2 DD SATA 400 Go + contrôleur raid 1
Carte ATI 9600 256 Mo
Ecran 19’’, graveur DVD, clavier …
2 cartes PCI Gigabit
OS : Mandrake
Prix indicatif : 2 100 Euros *
* Les évaluations financières sont établies sur la base des tarifs HT des composants
en France + 30 % (frais de port et taxe)
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
12
B / Résultats des consultations locales
Les deux premières configurations précédentes, cluster composés de bi-processeurs
Xeon ou Opteron, ont été soumises pour évaluation auprès des fournisseurs de la
place. Les configurations matériels objets des consultations sont détaillées en
Annexe 1.
Le résultat du dépouillement des offres commerciales se trouve en Annexe 2. La
synthèse est restituée ci-dessous. En jaune figure la proposition commerciale nous
paraissant offrir le meilleur compromis Coût / Performance.
Fournissseur
Configuration A dual
Xeon + Frontale
Spécificités
Performances
Configuration B dual
Opteron + Frontale
Spécificités
Performances
Commentaire
Fournissseur
Configuration A dual
Xeon + Frontale
Spécificités
Performances
Configuration B dual
Opteron + Frontale
Spécificités
Performances
Commentaire
Barrau Bureau
Barrau Bureau
Bull
48 392,84 €
35 824,51 €
25 140,01 €
Bi-Pro Xeon 3.6 Ghz/800 MHz 1Mo L2
(serveur)
2 X 512 MB PC 3200 ECC (serveur)
IBM ServerRaid SATA Controller (serveur)
2 Disques IBM 160 GB SATA 7200 RPM
(serveur)
Bi-Pro Xeon 3.4 Ghz/800 MHz 1MB L2 (noeud)
2 X 512 MB PC 3200 ECC (noeud)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2
(serveur)
4 x 512 MB PC 2100 ECC (serveur)
Adaptec SATA RAID Controller (serveur)
2 Disques Seagate 200 GB SATA (serveur)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2
(noeud)
4 x 512 MB PC 2100 ECC (noeud)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur)
2 x 1024 MB PC 2100 ECC (serveur)
Carte PCI SATA RAID FastTrack S150SX4 (serveur)
2 Disques 250 GB SATA 7200 rpm (serveur)
Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 (noeud)
2 x 1024 MB PC 2700 ECC (noeud)
+++
++
++
45 306,49 €
37 240,73 €
/
Bi-Pro Opteron 248 2.2 Ghz 1Mo L2 (serveur)
2 X 512 MB PC 3200 ECC (serveur)
IBM ServerRaid SATA Controller (serveur)
2 Disques IBM 160 GB SATA 7200 RPM
(serveur)
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (noeud)
2 X 512 MB PC 3200 ECC (noeud)
++++
Solution IBM IntelliStation Haut
de gamme
Office Plus
19 022,61 €
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2
(serveur)
4 x 512 MB PC 3200 ECC (serveur)
Carte Adaptec SATA RAID 2410 SA Controller
(serveur)
2 Disques 200 GB SATA (serveur)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2
(noeud)
4 x 512 MB PC 3200 ECC (noeud)
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (serveur)
2 x 512 MB PC 3200 ECC (serveur)
Adaptec SATA RAID Controller (serveur)
2 Disques Seagate 200 GB SATA (serveur)
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (noeud)
2 X 512 MB PC 3200 ECC (noeud)
+++
Solution IBM IntelliStation Version Solution BULL Express5800
"économique"
Office Plus
Cyber Media
31 290,93 €
Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2
(serveur)
4 x 512 MB PC 3200 ECC (serveur)
Carte Adaptec SATA RAID 2410 SA Controller
(serveur)
2 Disques 250 GB SATA 7200 rpm (serveur)
Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 (noeud)
4 x 512 MB PC 3200 ECC (noeud)
17 043,18 €
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur)
4 x 512 MB PC 3200 ECC (serveur)
Carte Adaptec SATA RAID 2410 SA Controller
(serveur)
2 Disques 200 GB SATA 7200 rpm (serveur)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (noeud)
4 x 512 MB PC 3200 ECC (noeu
++
+++
++
22 626,01 €
/
/
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (serveur)
4 x 512 MB PC 3200 ECC (serveur)
Carte Adaptec SATA RAID 2410 SA Controller
(serveur)
2 Disques 200 GB SATA (serveur)
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (noeud)
4 X 512 MB PC 3200 ECC (noeud)
+++
Solution assembleur Carte Asus Solution DELL Precision
(Xeon) Carte Tyan (Opteron)
Workstation 670
Solution assembleur Carte Asus
(Xeon)
Ces propositions locales ne comprennent pas le matériel portant sur le réseau
(Switch et connectiques). Les tableaux suivants détaillent les propositions
commerciales pour ce matériel spécifique.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
13
Proposition INMAC (www.inmac.fr)
Switch 3COM 12 ports: capacité de commutation 24 Gbps (Wirespeed performance)
Départ France
3COM SWITCH 12*10/100/1000 4*MINI-GBIC
Rendu Nouméa
1 000,00 €
Fabricant : 3Com
Réduction 10%
1 080,00 €
100,00 €
Câbles pour réseaux gigabit
CORDON RJ45 CAT5+ 3M UTP GRIS
SURMOULE Fabricant : Siecor
Départ France
Nb
Rendu Nouméa
13,00 €
6
93,60 €
Les logiciels (Compilateurs, OS, bibliothèque de fonction…) ne sont pas compris.
Pour idée, le compilateur Fortran ou Portland 64 bit représente un coût de l’ordre de
600 euros.
3.3. Avantages / inconvénients
Commentaires généraux
Ces architectures permettent l’exécution en mode parallélisé des codes ROMS et
MARS 3D, ces derniers comportant déjà les instructions de la bibliothèque de
communication MPI (Message Passing Interface) leur permettant de s’exécuter sur
les architectures proposées. De plus, les codes ont déjà été testés avec succès sur
architecture Cluster Linux.
De manière générale, la configuration matérielle proposée (cluster de PC) est
compatible avec les différents modes de programmation parallèle, fondés sur le
parallélisme des données et des tâches, sous condition que les codes intègrent les
instructions de ‘’message passing’’ (librairie de communication MPICH, PVM, LAM
…). Les codes parallélisés, qualifiés de portable, incorporent systématiquement ces
instructions.
Ces configurations sont également modulables en jouant par exemple sur l’ajout de
nœuds de calcul (mono ou bi-processeur).
La configuration comportant des bi-processeurs offre l’avantage de bénéficier des
vitesses de communication entre les processeurs embarquées sur la même carte. La
configuration comportant des Opterons (AMD) permet en outre de profiter de la
mémoire cache de second niveau élevé (1024 ko) et de la performance de ce
processeur en raison de sa technologie. L’Opteron cadencée 2 ghz offre en effet des
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
14
performances supérieures comparées au Xeon cadencée 3 ghz ou au pentium IV (cf.
Annexe 5). Les derniers Xeons avec mémoire cache 1 Mo et 2 Mo arrivent tout juste
à le concurrencer mais présentent un coût élevé. Par contre, pour gagner en
performance, l’architecture 64 bit (Opteron) nécessite l’achat d’un compilateur fortran
dédié (de l’ordre de 600 euros, solution Portland ou Intel), alors que sur architecture
32 bits, des compilateurs performants sont disponibles gratuitement (solution ifc IA32
d’Intel, libre sous Linux).
Pour des raisons de performance, le nœud de calcul bi-processeur Opteron est
préféré.
Commentaires sur les offres
Les réponses des fournisseurs locaux nous ont permis de constater que du matériel
répondant à nos attentes était disponible localement, à des prix finalement
comparables avec les solutions d’achat direct en France. Ainsi, à configuration égale,
on peut tabler, à partir de l’offre Office Plus, sur un coût matériel de 23 800 euros
(Serveur + Nœuds + Frontal + Réseau) contre 20 100 euros en Métropole (frais de
port et taxes inclus).
Le principal avantage à se fournir localement est de permettre une maintenance et
un retour pour pièces défectueuses plus rapide et sans frais d’expédition.
Les offres basées sur les marques (IBM, DELL, Bull) n’offrent pas davantage de
performances par rapport à des solutions assembleurs, sauf pour le haut de gamme
IBM proposé par Barrau Bureau (mais dont l’offre vaut l’achat de 2 clusters !).
3.3. L’offre OS
Parmi les solutions disponibles, les choix peuvent porter préférentiellement sur les
produits OSCAR, ROCKS et MandrakeClustering. Ce dernier étant payant (2500
euros). ROCKS (noyau RedHat) comporte une version supportant l’Opteron 64 bits.
En plus d’être gratuit, ce dernier comporte des outils Open Source réputés pour une
installation et une administration aisée du cluster. Il intègre également les principales
librairies de communication MPICH, PVM … pour le calcul parallèle.
D’autres librairies et applications dédiées devront être installées en fonction des
besoins. Certains sont payants selon les architectures. Par exemple l’architecture 64
bit nécessitent l’achat d’un compilateur fortran dédié (solution Portland ou Intel) si
l’on souhaite bénéficier des gains de performance liés à cette architecture (10 à 20 %
de gain selon les applications).
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
15
Fig. 3 Aperçu du moniteur de statut et gestion des ressources sous Ganglia
(Outil OpenSource, sous ROCKS)
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
16
3.4. Compétences et demande d’assistance
L’installation d’un cluster ‘‘Beowulf’’ est gérable par les informaticiens du centre IRD
de Nouméa. Nous recherchons ici l’architecture compatible avec les applications
parallèles visées et qui puisse offrir le meilleur compromis Performance/Evolutivité.
Pour cela, nous avons consulté les développeurs des codes concernés (IRD
Brest pour ROMS, IFREMER pour MARS 3D) et les concepteurs des
nouveaux codes dont l’exécution est prévue sur le Centre de Nouméa.
Nous sollicitons également une assistance technique auprès de la DSI sur le
conseil en matière d’architecture / composants / OS, notre proposition pouvant
servir de base. Une consultation interne à la DSI est jugée suffisante. De notre
côté, des démarches de consultation auprès des développeurs des codes et
laboratoires de calculs sont en cours, afin d’affiner nos choix.
Le Service Informatique du Centre de Nouméa pourra installer les matériels et les
systèmes
d’exploitation
et
procéder
aux
premiers
tests.
En 2003, Jérôme Lefèvre (LEGOS) a eu l'opportunité de tester et comparer
l’installation des solutions OSCAR et CLIC 2 sur un cluster ‘‘Beowulf’’ composé de 3
nœuds. Son expérience sera mise à contribution lors de la configuration du système.
Pour la programmation parallèle de ROMS, déjà portable sous LINUX, une
assistance est assurée par l’UR097 (IRD, Patrick Marchesiello et Pierrick Penven).
Pour le code MARS 3D, un travail collaboratif avec Franck DELMAS (IFREMER), qui
développe actuellement la version MPI, pourra être mis en place.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
17
4. Exemple de plateformes de calcul dédiées à la dynamique des
fluides installées dans d’autres organismes de recherche publique
en France
4.1. Tour d’horizon des plateformes de calcul
Le CEA, le CNRS et l'INRIA ont créé une structure de collaboration pour le
développement et la diffusion du calcul parallèle : l’organisation ORAP (ORganisation
Associative du Parallélisme). Outre ses missions visant le renforcement des
collaborations entre partenaires nationaux, européens et internationaux dans le
cadre du calcul parallèle, l’ORAP réalise une veille technologique et un état des lieux
du calcul scientifique en France.
Leur site Web http://maply.univ-lyon1.fr/spip/rubrique.php3?id_rubrique=2 dresse un
recensement des ressources matérielles informatiques en rapport avec le calcul
intensif. Sur ce site, un tour d’horizon permet de s’informer des architectures
employées dans les grands centres technologiques, les Universités, les Laboratoires,
les entreprises….
4.2. Quelques exemples de plateformes utilisées pour des applications
CFD (Computational Flow Dynamic)
IFREMER : Pôle de calcul Intensif pour la mer
Le calculateur ‘’Nymphea‘’ se compose d'un « cluster » de 9 nœuds COMPAQ ES45,
quadri-processeurs, connectés par « switch » Quadrix. Les processeurs sont des
processeurs Alpha EV68 cadencés à 1GHz. Sa mémoire globale est de 92
GigaOctets. L’OS est Tru64 UNIX. Ressource partagée avec le SHOM et l’IRD. Le
code ROMS est régulièrement exécuté desus.
Problématiques : Hydrodynamique, Calcul de structure, Biochimie, Applications
couplées (ex. : hydrodynamique et chimique), développement de code parallélisé
SHOM :
Serveur P655, 64 processeurs (IBM Power4 1.7Ghz), totalisant une puissance
théorique de 435 Gflops.
Problématique : traitement de l’information des missions hydro-océanographiques.
BRGM :
Calculateur basé à Orléans : Grappe PCs Intel, composé de 8 nœuds bi-processeurs
Xeon 3.06 GHz. Puissance théorique : 49 Gflps.
Problématiques : Hydrogéologie, Environnement, Géomécanique.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
18
CEMAGREF :
Calculateur basé à Aubière : Grappe PCs Intel, composé de 24 nœuds biprocesseurs Xeon 2.4 GHz. Puissance théorique : 230 Gflps, réseau gigabit.
Problématiques : Environnement, hydrologie, CFD. Les codes utilisés sont soit des
codes internes écrits en C, C++, Fortran et Java ou des codes propriétaires tels que
FLUENT.
EDF :
Calculateur
Nb CPU
Perf. crête
Réseau
DELL 420 bi-PIII 800MHz 4Go
8 bi-processeurs
15 Gflps
myrinet cuivre 1.2 Gbit/s
Dataswift bi-Xeon 3.06 Ghz
16 bi-processeurs
180 Gflps
Ethernet Gigabit
Dataswift bi-Opteron 1.8 GHz
8 bi-processeurs
60 Gflps
myrinet fibre 2 Gbit/s
IBM Xeon MP 2.8 GHz 8 Go
4+2x2
40Gflps
Ethernet Gigabit
HP X4000 bi-Xeon 2.2 GHz 2Go
10 bi-processeurs
90 Gflp
myrinet cuivre 1.2 Gbit/s
Fujitsu bi Athlon 1800+ 2 Go
16 bi-processeurs
40 Gflps
Scali
DELL 530 bi-Xeon 2.4 GHz 2Go
8 bi-processeurs
64 Gflps
Ethernet 100 Mbit/s
DELL 450 bi-Xeon 2.6 GHz 2Go
32 bi-processeurs
275 Gflps
Ethernet Gigabit
DELL 450 bi-Xeon 2.6 GHz 2Go
32 bi-processeurs
275 Gflps
Ethernet Gigabit
Problématiques : Calcul scientifique et modélisation numérique, Mathématiques
financières, CFD (écoulements multiphases, couplage thermo-chimique)
INRIA (Sophia Antipolis)
Calculateurs :
Cluster bi-Xeon 2 Ghz, 16 bi-processeurs, carte intel Pro/1000 gigabit, réseau
Gigabit-Ethernet, OS Linux 2.4.17/glibc2
Cluster bi-pentium III 933 Mhz, 19 bi-processeurs, réseau Fast-Ethernet Full Duplex
(Summit48), OS Linux 2.4.17/glibc2
Cluster bi-Pentium III 500 Mhz, 14 bi-processeurs, OS Linux 2.4.17/glibc2
Problématiques : Toutes disciplines impliquant du calcul scientifique
Centre Commun de Calcul Intensif (C3I) de Guadeloupe
Calculateur HP-Compaq SMP muni de 12 processeurs EV7 cadencés à 1.15Ghz, 12
Go de mémoire vive et de 400 Gigaoctets de mémoire de masse en disques RAID
Cluster Intel muni de 17 noeuds mono-processeur
Problématiques : Météorologie, Environnement.
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
19
Bibliographie
Littérature consultée
Cluster Computing, Architectures, Operating Systems, Parallel Processing &
Programming Languages, Richard S. Morrison (Document pdf)
Beowulf HOWTO (source : http://www.ixus.net/howto.php)
Beowulf
Tutorial
:
Building
a
Beowulf
http://www.cacr.caltech.edu/beowulf/tutorial/building.html)
System
(source
:
ROMS/TOMS User Manual : http://marine.rutgers.edu/po/documentation/docs.php
ROMS AGRIF
et ROMS TOOLS User Manual
(IRD, Centre de Brest)
http://www.brest.ird.fr/personnel/ppenven/Roms_tools/index.html).
OS dédiés cluster
Site de MandrakeClustering : http://www.mandrakesoft.com/products/clustering)
Site de rocks, dont doc pdf : http://www.rocksclusters.org/rocks-documentation/3.2.0/
Site d’Oscar : http://oscar.openclustergroup.org
Guide d’installation de MandrakeClustering 1.0
The Steps Required to
(htp://oscarsourceforgenet/)
Install
an
OSCAR
Cluster,
Version
1.2.1
Sites
Conception d’un système à
haute performance, CETMEF - Ministère de
l’equipement, des Transports, de l’Aménagement du Territoire, du Tourisme et de la
Mer http://www.cetmef.equipement.gouv.fr/projets/transversaux/cluster/calculs.php
ORganisation Associative du Parallélisme (ORAP) : http://www.irisa.fr/orap
Présentation des ressources en calculs parallèles de l’INRIA à Sophia Antipolis
http://www-sop.inria.fr/parallel/
Descriptif des besoins de calculs scientifiques sur architecture dédiée,
Centre IRD de Nouméa, Septembre 2004
20
ANNEXE 1 Détail des deux configurations matérielles fondées sur des nœuds
bi-processeurs (objet des demandes de proforma)
CONFIG. A: 1 Serveur et 4 Nœuds -- Processeurs
Xeon 3.0 Ghz
Serveur bi-pro
Processeurs: 2 Xeon 3.0Ghz cache 512k FSB 533Mhz
Carte mère: MB ASUS PC-DL Deluxe i875P
Mémoire: 4 PC3200 512 Mo (4 X 512 MO (ECC), DDR
400)
Disques durs: 2 x DD Serial ATA (200 Go minimum)
Grande tour (emplacement et alimentation suffisante
pour quatre disques)
Lecteur CD/DVD
Carte vidéo: ATI 9600 256 Mo ou équivalente
Ecran CRT 17"
Lecteur disquette
Carte réseau 10/100/1000 supplémentaire Intel
(PWLA8391MT GIGABIT RJ45)
Carte Adaptec Serial ATA RAID 2410SA
Clavier, souris
4 nœuds bi-pro
Processeurs: 2 Xeon 3.0Ghz cache 512k FSB 533Mhz
Carte mère: MB ASUS PC-DL Deluxe i875P
Mémoire: 4 PC3200 512 Mo (4 X 512 Mo (ECC), DDR
400)
Disque dur: 1 IDE 60 Go minimum
Lecteur CD-ROM
Carte réseau 10/100/1000 supplémentaire Intel
(PWLA8391MT GIGABIT RJ45)
Carte graphique d'entrée de gamme (ATI 7000 32 Mo
ou équivalente)
CONFIG. B: 1 Serveur et 4 Nœuds -- Processeurs
Opteron 2.0 Ghz
Serveur bi-pro
Processeurs: 2 Opteron 2.0Ghz cache L1 128K, cache
L2 1024K (Model 246)
Carte mère: MB Tyan Thunder K8W (S2885)
Mémoire: 4 PC3200 512 Mo (4 X 512 Mo (ECC), DDR
400)
Disques durs: 2 DD Serial ATA (200 Go minimum)
Grande tour (emplacement et alimentation suffisante
pour quatre disques)
Lecteur CD/DVD
Carte vidéo: ATI 9600 256 Mo ou équivalente
Ecran CRT 17 "
Lecteur disquette
Carte réseau 10/100/1000 supplémentaire Intel
(PWLA8391MT GIGABIT RJ45)
Carte Adaptec Serial ATA RAID 2410SA
Clavier, souris
4 nœuds bi-pro
Processeurs: 2 Opteron 2.0Ghz cache L1 128K, cache
L2 1024K (Model 246)
Carte mère: MB Tyan Thunder K8W (S2885)
Mémoire: 4 PC3200 512 Mo (4 X 512 Mo DDR 400 )
Disque dur: 1 IDE 60 Go minimum
Lecteur CD-ROM
Carte réseau 10/100/1000 supplémentaire Intel
(PWLA8391MT GIGABIT RJ45)
Carte graphique d'entrée de gamme (ATI 7000 32 Mo
ou équivalente)
Frontale (sauvegarde) : 1 PC Pentium IV 3.0Ghz
Serveur
Processeurs: Pentium IV 3.0Ghz
Carte mère ASUS (avec port ethernet 10/100 intégré)
Mémoire: 2 PC3200 512 Mo (2 X 512 Mo (ECC)
Disques durs: 2 DD Serial ATA (400 Go minimum)
Grande tour (emplacement et alimentation suffisante pour quatre
disques)
Graveur DVD
Carte vidéo: ATI 9600 256 Mo ou équivalente
Ecran CRT 19 "
Lecteur disquette
Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT
GIGABIT RJ45)
Carte Adaptec Serial ATA RAID 2410SA
Clavier, souris
ANNEXE 2 Dépouillement des offres commerciales
Nom du fournisseur
BBS - Configuration "haut de gamme"
Configuration A
1 serveur avec 2 Xeon
4 nœuds avec 2 Xeon chacun
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
1
1 276 200 XPF
10 694,56 €
4
3 528 800 XPF
29 571,35 €
4 805 000 XPF
40 265,91 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
Prix unitaire
Nombre
1 276 200 XPF
882 200 XPF
Réduction
éventuelle
Total Configuration A Hors TGI:
Configuration B
1 serveur avec 2 Opteron
4 nœuds avec 2 Opteron chacun
Réduction
éventuelle
Prix unitaire
Nombre
1 316 700 XPF
1
1 316 700 XPF
11 033,95 €
780 000 XPF
4
3 120 000 XPF
26 145,61 €
4 436 700 XPF
37 179,56 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
969 800 XPF
8 126,93 €
Total Configuration B Hors TGI:
Machine de stockage
PC Pentium IV 3.0 Ghz
Délais livraison
Durée de la garantie
Prix unitaire
Nombre
969 800 XPF
1
Réduction
éventuelle
3 à 4 semaines
3 ans
Total configuration A + machine stockage:
48 392,84 €
Total configuration B + machine stockage:
45 306,49 €
Commentaires :
Configuration IBM haut de gamme, établie sur la gamme IBM IntelliStation Z Pro 6223
(Xeon, config A) et IntelliStation A Pro 6224 (Opteron, config B), avec les spécificités
suivantes :
Config A :
Bi-Pro Xeon 3.6 Ghz/800 MHz 1Mo L2 cache (serveur)
2 X 512 MB PC 3200 ECC (serveur)
IBM ServerRaid SATA Controller (serveur)
2 Disques IBM 160 GB SATA 7200 RPM (serveur)
Bi-Pro Xeon 3.4 Ghz/800 MHz 1MB L2 cache (noeud)
2 X 512 MB PC 3200 ECC (noeud)
Config B :
Bi-Pro Opteron 248 2.2 Ghz 1Mo L2 cache (serveur)
2 X 512 MB PC 3200 ECC (serveur)
IBM ServerRaid SATA Controller (serveur)
2 Disques IBM 160 GB SATA 7200 RPM (serveur)
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (noeud)
2 X 512 MB PC 3200 ECC (noeud)
Cette solution propose les dernières technologies en matière de processeurs, RAM et disque
de stockage, offrant des performances élevées (et similaires entre les 2 configurations).
Nom du fournisseur
BBS - Configuration "économique"
Configuration A
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
1
823 000 XPF
6 896,74 €
4
3 024 000 XPF
25 341,13 €
3 847 000 XPF
32 237,87 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
Prix unitaire
Nombre
1 serveur avec 2 Xeon
823 000 XPF
4 nœuds avec 2 Xeon chacun
756 000 XPF
Réduction
éventuelle
Total Configuration A Hors TGI:
Configuration B
Réduction
éventuelle
Prix unitaire
Nombre
1 serveur avec 2 Opteron
896 000 XPF
1
896 000 XPF
7 508,48 €
4 nœuds avec 2 Opteron chacun
780 000 XPF
4
3 120 000 XPF
26 145,61 €
4 016 000 XPF
33 654,09 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
428 000 XPF
3 586,64 €
Total Configuration B Hors TGI:
Machine de stockage
PC Pentium IV 3.0 Ghz
Prix unitaire
Nombre
428 000 XPF
1
Réduction
éventuelle
Délais livraison 3 à 4 semaines
Durée de la garantie
3 ans
Total configuration A + machine stockage:
35 824,51 €
Total configuration B + machine stockage:
37 240,73 €
Commentaires :
Configuration IBM ‘’économique’’, établie sur la gamme IBM IntelliStation Z Pro 6223 (Xeon,
config A) et IntelliStation A Pro 6224 (Opteron, config B), avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur)
4 x 512 MB PC 2100 ECC (serveur)
Adaptec SATA RAID Controller (serveur)
2 Disques Seagate 200 GB SATA (serveur)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (noeud)
4 x 512 MB PC 2100 ECC (noeud)
Config B :
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (serveur)
2 x 512 MB PC 3200 ECC (serveur)
Adaptec SATA RAID Controller (serveur)
2 Disques Seagate 200 GB SATA (serveur)
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (noeud)
2 X 512 MB PC 3200 ECC (noeud)
Cette solution propose des technologies récentes en matière de processeurs, offrant des
performances très honorables. La config B est susceptible d’offrir de meilleures
performances comparée à la A. Coût élevé en raison de la marque, sans gain notable par
rapport à une solution assembleur.
Nom du fournisseur
OFFICE PLUS configuration 1
Configuration A
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
1
485 000 XPF
4 064,30 €
4
1 380 000 XPF
11 564,40 €
1 865 000 XPF
15 628,71 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
Prix unitaire
Nombre
1 serveur avec 2 Xeon
485 000 XPF
4 nœuds avec 2 Xeon chacun
345 000 XPF
Réduction
éventuelle
Total Configuration A Hors TGI:
Configuration B
Réduction
éventuelle
Prix unitaire
Nombre
1 serveur avec 2 Opteron
575 000 XPF
1
575 000 XPF
4 818,50 €
4 nœuds avec 2 Opteron chacun
430 000 XPF
4
1 720 000 XPF
14 413,61 €
2 295 000 XPF
19 232,11 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
405 000 XPF
3 393,90 €
Total Configuration B Hors TGI:
Machine de stockage
PC Pentium IV 3.0 Ghz
Délais livraison
Durée de la garantie
Prix unitaire
Nombre
405 000 XPF
1
Réduction
éventuelle
1 mois 1/2
1 an
Total configuration A + machine stockage:
19 022,61 €
Total configuration B + machine stockage:
22 626,01 €
Commentaires :
Solution assembleur économique constituée de carte mère Asus PC-DL deluxe (Xeon,
config A) et carte mère Tyan Thunder K8W (Opteron, config B), avec les spécificités
suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur)
4 x 512 MB PC 3200 ECC (serveur)
Carte Adaptec SATA RAID 2410 SA Controller (serveur)
2 Disques 200 GB SATA (serveur)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (noeud)
4 x 512 MB PC 3200 ECC (noeud)
Config B :
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (serveur)
4 x 512 MB PC 3200 ECC (serveur)
Carte Adaptec SATA RAID 2410 SA Controller (serveur)
2 Disques 200 GB SATA (serveur)
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (noeud)
4 X 512 MB PC 3200 ECC (noeud)
Cette solution propose des technologies récentes en matière de processeurs, offrant des
performances très honorables. La config B est susceptible d’offrir de meilleures
performances comparée à la A.
Nom du fournisseur
OFFICE PLUS configuration 2
Configuration A
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
1
884 000 XPF
7 407,92 €
4
2 036 000 XPF
17 061,69 €
2 920 000 XPF
24 469,61 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
Prix unitaire
Nombre
1 serveur avec 2 Xeon
884 000 XPF
4 nœuds avec 2 Xeon chacun
509 000 XPF
Réduction
éventuelle
Total Configuration A Hors TGI:
Configuration B
Prix unitaire
Nombre
Réduction
éventuelle
1 serveur avec 2 Opteron
1
0 XPF
0,00 €
4 nœuds avec 2 Opteron chacun
4
0 XPF
0,00 €
0 XPF
0,00 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
814 000 XPF
6 821,32 €
Total Configuration B Hors TGI:
Machine de stockage
PC Pentium IV 3.0 Ghz
Délais livraison
Durée de la garantie
Prix unitaire
Nombre
814 000 XPF
1
Réduction
éventuelle
1 mois 1/2
1 an
Total configuration A + machine stockage:
31 290,93 €
Commentaires :
Configuration DELL établie sur la gamme DELL Precision Workstation 670 (Xeon, config A),
avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 cache (serveur)
4 x 512 MB PC 3200 ECC (serveur)
Carte Adaptec SATA RAID 2410 SA Controller (serveur)
2 Disques 250 GB SATA 7200 rpm (serveur)
Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 cache (noeud)
4 x 512 MB PC 3200 ECC (noeud)
Cette solution propose les dernières technologies en matière de processeur Xeon. Coût
élevé en raison de la marque, sans gain notable par rapport à une solution assembleur.
Nom du fournisseur
CYBERMEDIA - INFOCOM
Prix unitaire
Nombre
Réduction
éventuelle
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
1 serveur avec 2 Xeon
429 780 XPF
1
408 360 XPF
408 360 XPF
3 422,06 €
4 nœuds avec 2 Xeon chacun
349 090 XPF
4
331 706 XPF
1 326 824 XPF
11 118,79 €
1 735 184 XPF
14 540,85 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
Configuration A
Total Configuration A Hors TGI:
Configuration B
Prix unitaire
Nombre
Réduction
éventuelle
1 serveur avec 2 Opteron
1
0 XPF
0,00 €
4 nœuds avec 2 Opteron chacun
4
0 XPF
0,00 €
0 XPF
0,00 €
Total Configuration B Hors TGI:
Machine de stockage
PC Pentium IV 3.0 Ghz
Prix unitaire
Nombre
Réduction
éventuelle
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
314 250 XPF
1
298 608 XPF
298 608 XPF
2 502,34 €
Délais livraison 15j à 3 semaines
Durée de la garantie
1 an
Total configuration A + machine stockage:
17 043,18 €
Solution assembleur économique constituée de carte mère Asus PC-DL deluxe (Xeon,
config A), avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur)
4 x 512 MB PC 3200 ECC (serveur)
Carte Adaptec SATA RAID 2410 SA Controller (serveur)
2 Disques 200 GB SATA 7200 rpm (serveur)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (noeud)
4 x 512 MB PC 3200 ECC (noeud)
Cette solution, la plus économique, propose des technologies récentes en matière de
processeurs, offrant des performances très honorables, mais inférieures à une solution à
base d’Opteron.
Nom du fournisseur
BULL configuration 1
Configuration A
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
1
721 376 XPF
6 045,13 €
4
1 870 284 XPF
15 672,99 €
2 591 660 XPF
21 718,12 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
Prix unitaire
Nombre
1 serveur avec 2 Xeon
721 376 XPF
4 nœuds avec 2 Xeon chacun
467 571 XPF
Réduction
éventuelle
Total Configuration A Hors TGI:
Configuration B
Prix unitaire
Nombre
Réduction
éventuelle
1 serveur avec 2 Opteron
1
0 XPF
0,00 €
4 nœuds avec 2 Opteron chacun
4
0 XPF
0,00 €
0 XPF
0,00 €
Prix Hors TGI
en CFP
Prix Hors TGI
en Euro
408 340 XPF
3 421,89 €
Total Configuration B Hors TGI:
Machine de stockage
PC Pentium IV 3.0 Ghz
Délais livraison
Durée de la garantie
Prix unitaire
Nombre
408 340 XPF
1
Réduction
éventuelle
1 mois 1/2
1 an
Total configuration A + machine stockage:
25 140,01 €
Commentaires :
Configuration BULL établie sur la gamme BULL Express5800/ 120Ef SATA (Xeon, config
A), avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur)
2 x 1024 MB PC 2100 ECC (serveur)
Carte PCI SATA RAID FastTrack S150SX4 (serveur)
2 Disques 250 GB SATA 7200 rpm (serveur)
Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 cache (noeud)
2 x 1024 MB PC 2700 ECC (noeud)
Cette solution propose les dernières technologies en matière de processeur Xeon pour les
nœuds de calcul. La RAM proposée pour les nœuds de calcul ne permet pas de couvrir les
performances du bus processeur. Coût modérément élevé en raison de la marque, sans gain
notable par rapport à une solution assembleur.
ANNEXE 3 Extrait des notes d’évaluation des performances de calcul des
machines disponibles localement en vue de l’implantation du code ROMS au
Centre de Nouméa
1. Objet
L’objet de cette note est de passer en revue les performances de calculs des moyens
informatiques accessibles au département océanographie physique du centre et de
proposer, si besoin est, d’autres alternatives de calcul.
La note se présente de la manière suivante :
Présentation du modèle ROMS et des logiciels dédiés
Méthodologie et caractéristiques du domaine étudié
Performances obtenues
Perspectives
2. Présentation du modèle de circulation ROMs
2.1. Présentation générale
ROMs (= Regional Ocean Modeling System) est développé sous la supervision
d’Herman Arango et Dale Haidvogel, de l’université Rutgers (New-Jersey). Au sein
de l’IRD, Patrick Marchesiello et Pierrick Penven (UR097, IRD Brest) contribuent
également au développement du code.
Deux versions de ROMS sont accessibles :
La version officielle de ROMS (ROMS V 2.0), distribuée par l’Université de Rutgers.
Elle comprend les dernières techniques numériques validées par le groupe de
collaborateurs d’Herman Arango. Le code est parallélisé et comprend également un
module biologique. Par contre, le code n’offre pas d’option permettant de travailler
sur des maillages emboîtés.
La version obtenue auprès de l’IRD Brest, ROMS/AGRIF, est le fruit d’une
collaboration entre l’IRD, l’INRIA et l’UCLA (University of California at Los Angeles).
Cette version est expérimentale, mais reprend les fonctions de ROMS 2.0 en y
ajoutant des fonctions nouvelles, notamment pour le traitement des problèmes de
circulation en zone côtière ou les conditions aux limites. Ainsi, le code diffère de la
version officielle en offrant au moyen de la bibliothèque de fonctions AGRIF des
fonctionnalités d’adaptation de la résolution. AGRIF permet de travailler de manière
dynamique avec une grille emboîtée dans le modèle parent. Un nouveau schéma de
traitement des conditions aux limites y est également incorporé. Ce code est utilisé
avec succès dans de nombreux laboratoires.
La version ROMS/AGRIF est utilisée au centre de Nouméa pour les raisons
suivantes :
Support technique apporté directement par Patrick Marchesiello et Pierrick Penven
Fonctions d’adaptation de grille et nouvelle condition aux limites particulièrement
appropriées et pertinentes eu égard le type d’utilisation du modèle localement
ROMS/AGRIF vient avec une suite d’outils écrits en langage Matlab facilitant les
étapes de pré et post-traitement, adaptables si nécessaires
2.2. Le modèle
Le modèle ROMS est un modèle 3D qui utilise un schéma aux différences finies. Il
est fondé sur la résolution des équations primitives de Navier Stockes qui permettent
le calcul des courants, de la température, de la salinité et de l'élévation de la surface
libre en utilisant les approximations hydrostatiques, de Boussinesq et
d'incompressibilité. Les équations primitives sont appliquées sur un maillage
tridimentionnel orthogonal et curviligne sur la sphère. La discrétisation sur la verticale
utilise les coordonnées sigma, indépendantes de la profondeur (entre 0 et 1), qui
suivent la topographie du fond. L’épaisseur entre chaque niveau est donc variable.
La résolution se fait par séparation de mode. Un modèle 2D de surface est couplé au
modèle 3D selon un système prédiction-correction afin de considérer séparément les
ondes de gravité de surface et les ondes internes. Les ondes externes sont plus
rapides, la résolution des équations intégrées sur la verticale nécessite donc un plus
petit pas de temps pour respecter le critère de stabilité.
La température, la salinité et la concentration d’un traceur quelconque sont calculées
en résolvant l’équation de conservation de la masse, de la chaleur ou de la salinité.
Ces dernières années, les efforts de développement de ROMS ont porté sur
l’incorporation de méthodes numériques plus sophistiquées, permettant un gain de
résolution sans augmenter le coût de calcul. Cette recherche d’optimisation est
fondée sur l’évolution des architectures des ordinateurs, notamment sur le fait que
leur puissance de calculs augmente plus rapidement que la largeur de bande
mémoire.
Ainsi, l’apport des nouveaux schémas numériques pour l’advection, passant par la
résolution numérique d’équations de 3ème ou 4ème ordre, permet par exemple de
mieux rendre compte des structures turbulentes, et donc des mélanges des masses
d’eau, tout en étant moins sensibles aux effets de gradient. Ces schémas permettent
de profiter de la puissance de calcul tout en utilisant les ressources
(processeur/mémoire) d’une manière optimale.
Conditions aux limites
Le type de schéma employé pour tenir compte du traitement de l’information aux
limites ouvertes est déterminant sur la convergence de la solution et la qualité des
résultats retournés. ROMS (V 2.0) comporte différents schémas permettant de
spécifier le type de conditions aux limites. La condition radiative est la plus employée.
Au cours de son séjour à l’Université de Los Angeles (UCLA), Patrick Marchessiello
(IRD, UR097) a développé puis incorporé dans le code ROMS/AGRIF une condition
radiative dite oblique. La condition radiative oblique permet d’estimer la direction du
flux d’information entrant ou sortant aux limites ouvertes, ceci à chaque itération. En
configuration de flux entrant, l’information provenant des données hydrologiques est
restaurée aux limites, moyennant une procédure de relaxation newtonienne avec un
rappel relativement fort (temps de rappel court de l'ordre de quelques jours). En
configuration de flux sortant, les données intérieures sont extrapolées aux limites et
une relaxation avec un temps de rappel faible (de l’ordre de 1 an) est appliquée. Ces
procédures de relaxation permettent l’atténuation des écarts entre les valeurs
intérieures et extérieures qui peuvent se manifester au moment de l’inversion du flux,
propice au développement d’instabilités numériques.
2.3. Aspects informatiques du code
Parallélisation
Déjà parallélisé dès les premières versions pour l’utilisation des plateformes à
mémoire partagée (Sun, SGI, etc), l’algorithme de calcul fait appel à la bibliothèque
d'échanges de messages MPI (Message Passing Interface) pour les architectures à
mémoire distribuée (grappe de PC). Les directives OpenMP peuvent également être
employées sur les plateformes à mémoire partagée.
La technique de parallélisation consiste à partager le domaine de calcul en sous
domaines, de manière explicite. Avant compilation du programme, l’utilisateur
déclare un nombre de sous domaine égal au nombre de processeurs (ou multiple,
pour les plateformes à mémoire partagée). Chaque thread parallèle gère alors de
manière autonome son propre sous domaine et est défini une seule fois pour tout le
reste de l’exécution du programme. Seules les échanges d’information aux nœuds
frontières subsistent.
Sur la plateforme biprocesseur testée, la parallélisation est effectuée au moyen des
directives OpenMP. Le compilateur fortran Intel version 8 utilisé sous Linux pour les
tests supporte l’interprétation des directives OpenMP.
Optimisation d’utilisation de la mémoire cache
De manière avantageuse, le partitionnement du domaine permet également d’obtenir
un gain de temps de calcul en procédant à l’optimisation de l’utilisation du cache du
processeur. Le partitionnement permet en effet d’obtenir un jeu de blocs de données
associés à chaque sous domaine dont la taille correspond à celle de la mémoire
cache. Les performances s’en trouvent améliorées, y compris sur les plateformes
monoprocesseurs.
Stratégie de raffinement et méthodes de zoom
Le logiciel AGRIF (Adaptive Grid Refinement in Fortran) est associé au modèle
ROMS. Moyennant l’utilisation de pointeurs et le renseignement d’un fichier pré-defini
de description du modèle, le logiciel AGRIF permet d’ajouter des fonctionnalités
d’adaptation de la résolution dans le modèle, sous la forme d’une grille emboîtée
dans le domaine parent.
Cette fonctionnalité a été ajoutée sur la base de travaux de Laurent Debreu (INRIA)
et Eric Blayo (Université de Grenoble). Les efforts portent actuellement sur l’ajout de
fonctions de couplage et d’emboîtement de modèles océaniques distincts.
Les fonctions du logiciel AGRIF seront testées ultérieurement.
2.4. Outils pré et post-traitement
Les outils employés pour la préparation du maillage, la construction des séries
temporelles de forçage et d’initialisation du modèle proviennent de la boite d’outils
ROMS_TOOLS, développée par l’IRD (Pierrick Penven et Patrick Marchesiello).
Les outils développés sous Matlab permettent également la visualisation et l’analyse
des sorties du modèle, moyennent l’interface graphique de Matlab et des routines
dédiées. Le format des données (entrée et sortie) répond au format netCDF.
3. Méthodologie et caractéristiques du domaine étudié
3.1. Méthode
Après une étape de familiarisation avec le code (compilation, préparation, test de
convergence, etc.), des tests portant sur la vitesse de calcul ont été exécutés de
manière à vérifier dans quelles mesures le parc informatique du centre peut répondre
à l’exploitation du code.
Pour effectuer les comparaisons entre les différents PC, une grille comprenant
543 780 points portant sur un domaine centré sur la Nouvelle-Calédonie a été
soumise aux machines. La résolution du domaine atteint 1/10 °, soit une échelle
horizontale d’environ 10 km.
Bathymétrie du domaine régional centrée sur la Nouvelle-Calédonie (Bathymétrie = Etopo2)
Grille horizontale : 159 X 171
Profondeur maximale : 7500 m
Niveaux sigma : 20
Profondeur minimale : 10 m
Pas de temps - Mode barocline : 520 s (8.6 minutes)
Pas de temps - Mode barotrope : 13 s
Le code est compilé avec le compilateur fortran 90 d’Intel pour Linux. Les mêmes
options de compilation ont été conservées sur les différentes machines.
Les caractéristiques des machines testées sont :
Tiki Pentium III Biprocesseur
PC biprocesseur, Intel Pentium 3, 1002 Mhz, cache 256 ko, SSE oui, SSE2 non, ht non
Mémoire : SDR 133 Mhz 1,5 GO
Boris Pentium IV Monoprocesseur
PC monoprocesseur, Intel Pentium 4, 1615 Mhz, cache 512 ko, SSE oui, SSE2 oui, ht non
Mémoire : DDR 266 Mhz 512 MO
AMD XP Monoprocesseur
PC monoprocesseur, AMD Athlon XP, 2029 Mhz, cache 256 ko, SSE oui, SSE2 non, ht non
Mémoire : Dual DDR 300 Mhz 1024 MO
Pentium IV P4P8X 2.9 ghz
PC monoprocesseur, Intel Pentium 4, 2940 Mhz, cache 512 ko, SSE oui, SSE2 oui, ht oui
Mémoire : DDR 333 Mhz 512 MO
3.2. Comparaison des performances
Pour apprécier les temps de calcul, les comparaisons de performances sont établies
sur la base de l’unité itération, du mois et de l’année.
Configuration
CPU
1 itération
1 mois
1 année
36,5 s
50,5 heures
606 heures
Tiki
Pentium
Monoprocesseur
III
1002 Mhz
Tiki
Pentium
Biprocesseur
III
2 x 1002 MHZ
13 s
18,0 heures
216 heures
Boris
Pentium
Monoprocesseur
IV
1615 Mhz
7s
9,7 heures
116.4 heures
AMD XP 2400 +
2029 Mhz
7,6 s
10,5 heures
126 heures
Pentium IV P4P8X
2940 Mhz
4,7 s
6,5 heures
78 heures
Le code tire le meilleur partie de la technologie pentium IV avec un cache à 512 ko.
On notera que le processeur AMD XP Athlon cadencé 2.0 Ghz n’apporte pas d’aussi
bonnes performances qu’un Pentium 4 cadencé à 1,6 Ghz, ce dernier bénéficiant
d’un cache supérieur.
Il apparaît également que la fonction de partitionnement du domaine apporte un gain
de performance appréciable, que ce soit pour une machine biprocesseur ou
monoprocesseur. Ces gains sont illustrés ci-après, en jouant sur différentes
combinaisons de partition du domaine :
Machine monoprocessseur
Dépassement
de pile
10
8
6
4
2
Partition du dom aine en Latitude et Longitude
24
1
X
22
X
1
1
X
20
18
1
X
14
X
1
1
X
10
1
X
2
X
12
0
1
seconde/itération
Effet du partitionnement
Boris, pentium IV (monoprocesseur)
Machine biprocesseur
X
20
20
X
20
30
20
10
X
10
10
X
X
8
X
6
X
2
8
6
30
25
20
15
10
5
0
2
seconde/itération
Effet du partitionnement
Tiki, pentium III (biprocesseur)
Partition du dom aine en Latitude et Longitude
Dans cet exemple, un gain de facteur 2 et 1.3 est obtenu respectivement sur les
machines pentium biprocesseur et monoprocesseur testées.
4. Perspectives
Malgré le manque de recul sur les aspects informatiques du code, il apparaît que les
dernières machines du Centre équipées de processeur pentium IV sont suffisantes
pour son exécution sur des domaines à moyenne échelle, dans le cas d’une
résolution inférieure à 1/10 ° et des périodes de 1 à quelques mois. Par exemple, 6
mois de simulation sur une machine cadencée 1.6 Ghz nécessiterait 2,5 jours. Sur
une plateforme cadencée à 3 ghz (testée les jours à venir), il est probable que le
résultat soit obtenu en moins de 36 heures.
Au-delà, dans le cadre de l’étude affinée de processus côtiers nécessitant l’emploi de
maillage imbriqué avec une résolution plus fine (2 à 3 km) et pour des périodes
d’intégration plus longue (recherche d’un état d’équilibre, nécessitant plusieurs
années d’intégration, par exemple), les temps de calculs deviennent difficilement
gérables.
Les solutions envisageables sont alors celles pour lesquelles le code est prévu,
multiprocesseur ou grappe de PC (cluster), cette dernière solution permettant de
bénéficier de processeurs plus rapides que ceux disponibles sur les plateformes
multiprocesseurs.
ANNEXE 4 Le modèle hydrodynamique Mars 3D
Il s'agit d'un algorithme de calcul des courants marins, des hauteurs d'eau, et des
concentrations en éléments solubles (ou en suspension temporaire) transportés par les
courants. Mars est composé de :
-
un noyau de calcul opérationnel en version 2D et 3D qui, dans un souci de meilleure
précision, de minimisation des temps de calcul et de facilité d'emploi, adopte une
méthode en différences finies sur un maillage régulier.
-
un pré-processeur nommé IMars dont les fonctions essentielles sont la gestion et
l'intégration aisées des paramètres et données d’entrée qui servent à l'activation du code
de calcul. IMars permet également un contrôle en temps réel de l’évolution de variables
hydrodynamiques modélisées.
-
un post-processeur, ou programme d'exploitation graphique des résultats de Mars
nommé VisuMars mis à la disposition des utilisateurs du logiciel de modélisation
hydrodynamique côtière qui ne possèdent pas d'interface avec le SIG Arc View. Il
permet de présenter les résultats de calculs déjà réalisés (ou en cours de calcul) sous
forme de courbes et de cartes. Il permet aussi des calculs spécifiques d'interprétation
(trajectoires, etc…)
Mars effectue le calcul des courants, des hauteurs d'eau et des concentrations en substances
dissoutes, dans un écoulement liquide plan, quasi-horizontal. La forme des fonds peut être
absolument quelconque et comporter un nombre quelconque de chenaux, îles, hauts fonds,
bancs découvrants et estrans.
MARS permet de modéliser sous forme de calculs instantanés ou de synthèses (valeurs
moyennes, maxi, mini…) les grandeurs suivantes :
- le courant (composantes U et V) et les résiduelles eulériennes,
- la hauteur du plan d'eau, les niveaux moyens et les composantes harmoniques de
marée,
- la salinité,
- des constituants provenant de rejets (par exemple les coliformes fécaux),
- le transport sédimentaire et les dépôts.
Il produit pour chaque zone étudiée une base de données dont les résultats sont stockés
sous la forme d'une série temporelle de vecteurs et de scalaires en coordonnées
géographiques. On se limitera dans ce qui suit à la description puis aux applications de la
version 2D du modèle.
On démontre que les calculs réalisés par le modèle nécessitent l’utilisation de trois types
d'information :
- La topographie du domaine (fournie ici par une matrice des profondeurs).
- Les conditions aux limites sur les frontières ouvertes du domaine. Pour la partie
hydraulique, on utilisera des conditions aux limites fortes de dénivellation et des
conditions faibles de vitesse des courants.
- Les flux d'eau et de matière dissoute (ou en suspension) à l'intérieur du domaine
(rivières, émissaires ...)
Les hypothèses du calcul valables en 2D sont les suivantes :
-
-
La composante horizontale du courant ne varie pas beaucoup depuis la surface jusqu'à
proximité du fond (courant de masse). Le modèle dans sa version 2D calcule la moyenne
des courants sur la verticale et cette valeur moyenne a une forte signification physique.
Les vitesses verticales sont faibles.
Sous ces hypothèses, les lois qui décrivent le comportement physique du système, à savoir le
second principe de Newton et la loi de conservation de la masse se traduisent par le système
d'équations dit de Saint-Venant :
 ∂ 2u ∂ 2u 
∂u
∂u
∂u
u u 2 + v 2 ∂Pa τ x
∂ζ
+u
+v
+g
− fv − ε  2 + 2  + g
+
+
=0
∂t
∂x
∂y
∂x
∂y 
k 2H 4/3
∂x
ρH
 ∂x
 ∂ 2v ∂ 2v 
∂v
∂v
∂v
∂ζ
v u 2 + v 2 ∂Pa τ y
+u +v +g
− fu − ε  2 + 2  + g 2 4 / 3 +
+
=0
∂t
∂x
∂y
∂y
∂y 
k H
∂y
ρH
 ∂x
∂ζ ∂ ( Hu ) ∂ ( Hv )
+
+
=0
∂t
∂x
∂y
U
V
ζ
f
kr
H
composante de la vitesse selon Ox
composante de la vitesse selon Oy
cote de la surface libre
facteur de Coriolis
coefficient de frottement de fond, de Strikler
hauteur de la colonne d'eau
Ce système est complété par l'équation de transport-diffusion-décroissance d'un élément
chimique (ou assimilé) transporté en suspension :

∂C 
∂C 


∂  HKx
 ∂  HKy
∂y 
∂ ( HC ) ∂ ( HUC ) ∂ ( HVC )
∂x 


+
−
−
+ lHC + S = 0
∂t
∂x
∂y
∂x
∂y
C
K
L
S
Concentration en une substance dissoute
Coefficient de diffusion horizontale
Coefficient de décroissance propre
Source
Mars intègre ces équations différentielles de manière totalement automatique, quelle que soit
la forme du domaine, qui peut d'ailleurs évoluer dans le temps (zones découvrantes, murs
immergés, etc…).
Un modèle mathématique doit offrir une représentation de la réalité d'autant plus fine et précise
que l'on se situe sur la zone d'intérêt. A cette fin le modèle Mars utilise une technique
d'emboîtement de modèles sous forme gigogne. Par cette technique un modèle de grande
emprise et de grande maille contient lui même un ou plusieurs sous modèles (loupes). Ces
derniers reçoivent des modèles qui les précèdent, les conditions aux limites sur leur périmètre.
Au plan spatial les modèles intermédiaires possèdent une maille environ 4 fois plus petite que
celle du modèle précédent. Le modèle de grande emprise s'étend jusqu'au plateau continental
et trouve ses conditions aux limites dans la valeur des ondes générant la marée au large. Un
forcing météorologique peut être pris en compte sur toute la surface du modèle et ses
éventuelles loupes successives. La figure ci-après présente l'emboîtement de quatre niveaux
de modèles construits dans le cas de l'étude de deux zones d'intérêt : régions du nord de La
Rochele et de La Tremblade - Marennes Oléron au sud.
Roch 2
Roch1
Roch 3
Roch
4
Roch
4
Principe de l'emboîtement de modèles : cas des zones La Rochelle (Roch 4 Nord) et La
Tremblade - Marennes Oléron (Roch 4 Sud).
ANNEXE 5 A propos du processeur AMD Opteron
Premier processeur 32 bits et 64 bits au monde à être compatible avec l'architecture
x86, le processeur AMD Opteron s'appuie sur la technologie AMD64 et Direct
Connect Architecture. L'architecture Direct Connect permet de supprimer les goulots
d'étranglement inhérents à l'existence d'un bus système en connectant directement
les processeurs, le contrôleur mémoire et les E/S au processeur central, afin
d’améliorer les performances et l'efficacité globale du système. AMD a également été
le premier constructeur à annoncer la réalisation d’une conception de processeur x86
double cœur destiné à l’informatique 64 bits.

Documents pareils