Parallélisme et bioinformatique

Transcription

Parallélisme et bioinformatique
Parallélisme et bioinformatique
[email protected]
Master EGOIST - Rouen
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Plan
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Plan
1
Généralités
Pour qui ? Pour quoi ?
Historique
2
Bioinformatique
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Généralités
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
La science informatique n’est pas plus la science des
ordinateurs que l’astronomie n’est celle des télescopes
(ou la biologie celle des séquenceurs)
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
informatique : science des modèles “computables”
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Pourquoi le parallélisme ?
Principe
effectuer à plusieurs ce qu’un seul aurait du mal à
faire
⇒ comprendre et analyser le travail à effectuer,
⇒ connaître et analyser les ressources disponibles,
⇒ diviser le travail en tâches,
⇒ répartir ces tâches entre les ressources de
manière adéquate.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Pourquoi le parallélisme ?
Objectif : calculer, traiter les données...
plus vite, plus gros et différemment
Calculs numériques.
Vérification/validation de modèles.
Simulations.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Qui utilise le parallélisme ?
milieux de la recherche académique et industrielle
milieux économiques et industriels
société civile, services publics
→ vous !
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Milieux de la recherche et du développement
Infrastructure à plusieurs niveaux :
internationale : Globus, BOINC (Berkeley Open
Infrastructure for Network Computing), etc.
nationale : centre de calcul CINES, IDRIS, CEA, etc.
régionale : CALMIP, CICG, CRIHAN, etc.
locale : laboratoires, réseaux de stations, grappes de PCs
(ID-IMAG).
Applications :
physique nucléaire, mécanique céleste,
biologie moléculaire, chimie de synthèse,
mathématiques, informatique, télécommunications,
histoire, géographie, sociologie...
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Physique des particules
Large Hadron Collider
principe : générer des collisions entre particules
(événements)
→ enregistrer puis traiter ces informations,
volumes extraordinaires : ∼ 15 Petaoctets par an,
utilisation de 10000 machines réparties dans la monde
entier
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Milieux économiques et industriels
industrie pharmaceutique,
industrie automobile,
bâtiment et habitat,
transport et logistique,
banque et marchés financiers, assurance,
aéronautique,
secteur agroalimentaire,
secteur médical,
cinéma,
etc.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Industrie aéronautique et spatiale
vérification des procédures de fonctionnement (Ariane)
étude des turbulences, calculs de profils d’ailes.
Onera : image des interactions entre les tourbillons en bout
d’aile et les turbulences résultant de la propulsion. Calcul
réalisé sur NEC SX5 et NEC-SX6 :
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Industrie automobile
crash-tests virtuels chez un constructeur automobile :
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Industrie automobile
Principe :
→ définition des caractéristiques mécaniques du véhicule
→ modélisation en 3D (maillage)
→ modélisation mathématique/mécanique des processus
de déformation
→ simulation de la dynamique de déformation des
éléments
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Industrie automobile
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Industrie pétrolière
conception d’outils de forage pour l’industrie pétrolière et
minière :
→ l’outil (trépan carottier) doit répondre au mieux aux
exigences des compagnies pétrolières.
code de simulation hydraulique parallèle réduit la durée de
simulation de 20 à 7 jours et augmente la vitesse
d’avancement des outils étudiés (d’environ 40 %).
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Secteur du bâtiment, de l’habitat
vente par internet : conception/aménagement en ligne et
visualisation de décors 3D
principe : le calcul est déporté sur un environnement
parallèle et le résultat sous forme d’image est renvoyé au
client
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Industrie du jeu et secteur des loisirs
Production d’images de synthèse pour films et jeux vidéos.
1993 : premières images de synthèse intégrées dans des
vues réelles (Jurassic Park)
1995 : Toy Story premier film entièrement en images de
synthèse.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Industrie du jeu et secteur des loisirs
District 9
Imagine Engine Design Inc. de Vancouver, Canada, a géré les
effets spéciaux de District 9, qui intègre une course
d’extraterrestres dans un documentaire naturaliste qui se
déroule à Johannesbourg, en Afrique du Sud. La société a
déployé près de 100 cartes graphiques professionnelles
NVIDIA Quadro dans ses stations Linux pour produire chaque
plan d’extraterrestre du film. [www.nvidia.com]
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Services publics : énergies
gestion et production d’énergie :
EDF : gestion du réseau, fonctionnement de certains
éléments des centrales nucléaires...
prévisions météorologiques :
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Services publics : Météo France
Modèle opérationnel Arpège (1998),
nombre de variables à traiter est Nv = 2,3.107
quatre variables à trois dimensions x 31 niveaux x 600 x
300 points sur l’horizontale et une variable à deux
dimensions x 600 x 300 points sur l’horizontale,
le nombre de calculs à effectuer pour une variable est Nc =
7.103
le nombre de pas de temps pour réaliser une prévision à
24 heures d’échéance est Nt = 96 (pas de temps de 15
minutes).
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Météo France
Les calculs étant effectués sur l’ordinateur Fujitsu VPP700
crédité d’une vitesse de calcul R atteignant 20 gigaflops
(20 milliards d’opérations flottantes par seconde)
⇒ le temps T nécessaire pour obtenir une prévision à 24
heures d’échéance est un peu inférieur à un quart d’heure.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Qui utilise le parallélisme ?
Météo France
Météo-France a acheté en 2008 un NEC SX-8R qui délivre
une puissance crête de 35.2 Tflops.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Qui utilise le parallélisme ?
Calculer plus vite : en théorie, le même calcul : ∼ 1
seconde
Calculer plus gros : nouveau modèle Arome passage
d’une maille de 10km à une maille de 2.5 km
Calculer différemment : possibilité de calculer des
événements plus localisés et ponctuels :
pluies torrentielles,
orages violents,
brouillard, etc.
[http ://www.generation-nt.com/supercalculateur-meteo-france-actualite-41587.html]
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Société civile : aménagement du territoire
simulation pour réaménagement d’un centre ville,
construction d’une ligne de tramway
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Vous ?
Au coeur de vos ordinateurs :
→ pour le calcule : utilisation de processeurs dits
multi-coeurs : multicore (x10)
→ pour la visuation : en plus du CPU, les ordinateurs sont
équipés de GPU Graphics Processing Unit : manycores
(x100), de véritables machines parallèles sur un circuit
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Historique
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Historique
1950 → 1970 : les pionniers
1970 → 1990 : explosion des architectures
1990 → 2000 : extinction massive
2000 → 2010 : l’ère des géants
2010 → : les hybrides
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les pionniers (1950s-70s)
Difficulté première, la mise en oeuvre du matériel.
Challenge : augmenter le ratio
fonctionnement/maintenance. ILLIAC IV : quelques heures
de calcul/quelques semaines de maintenance.
Les premiers grands noms du parallélisme apparaissent et
avec eux, les premiers grands principes : vectorisation,
techniques de pipeline, temps partagé,
multiprogrammation...
Amdahl : IBM 701, 704, 709.
Seymour Cray : Control Data Corporation.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les machines
CDC6600 (1964) : unités de calcul en parallèle, 10MHz, 2Mo, 9 MFlops
CDC7600 (1969) : équivalent à 10 CDC6600 : 40 MFlops
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Ces années-là
transistor sur base de silicium (Texas Instrument - 1955)
premier disque dur (1957)
premier compilateur fortran (1957)
algol (1958 - 60 - 68). Algorithmic language - récursivité.
Voici un langage très en avance de son temps, il n’a pas
seulement été une amélioration de ses prédécesseurs
mais aussi une amélioration de presque tous ses
successeurs.
Bull : Gamma 60. Première machine multiprocesseurs
française.
interface RS-232 (1966)
technologie CMOS (Texas Instrument - 1967)
ARPANET (ancêtre d’Internet - 1969)
Unix (1970)
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Le temps de l’exubérance (1970s-80s)
Premiers succès commerciaux.
Apparition de multiples constructeurs :
Thinking Machine Corporation (†), Sequent (†),
Telmat (†), Archipel (†), Parsytec (†),
Kendall Square Research (†), Meiko (†), BBN (†),
Digital (†), IBM, Intel, CRAY (†), MasPar (†),
Silicon Graphics (†), Sun, Fujitsu, Nec.
Offre importante et exotique : Connection Machine 1 :
hypercube de 65535 processeurs.
Problèmes majeurs : l’offre logicielle et le prix.
étape suivante : machines abordables et utilisables.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les machines
Cray-1 (1975), Cray X-MP (1982) : 2 à 4 processeurs,
Cray-2 (1983) : 8 processeurs, Cray Y-MP (1989).
Hitachi S-810/820.
Fujitsu VP200/VP400.
Convex C-1.
Nec SX-1/2.
Connection Machine 1. 65536 processeurs. Topologie :
hypercube.
Intel iPSC/1 128 processeurs. Topologie : grille.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les machines
Illiac IV (Burrough - 1973
CRAY-1. 1975.
80 MHz, 8 Mo, 160 MFlops
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les machines
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Ces années-là
Langage pascal (Wirth - 1972)
Ray-Tomlinson : premier email (1972)
10000 composants sur 1 cm2 (1975).
premier réseau local : Datapoint système ARC (1976).
fibre optique (1977).
Support d’Ethernet par les principaux constructeurs
(1979).
Paterson - Hennessy : concept des processeurs RISC
(1980)
Tim Berners-Lee : projet World Wide Web au CERN
(1989).
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Environnements (1990s)
Difficultés bien identifiées : routage, ordonnancement...
→ parallélisme automatique très limité
⇒ conception d’outils d’aide à la parallélisation : Hypertool,
Pyrros, ParaRex, Adam, Apache...
Autre problème : ratio prix/durée de vie d’une machine
parallèle extrêmement élevé.
⇒ solution apportée par PVM : utiliser des réseaux locaux de
stations de travail pour faire du calcul parallèle.
Constructeurs machines parallèles → réseaux de stations
de travail intégrés.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les machines
Nec SX-3 (1991).
Fujitsu VP-2600 (1991).
CM-5 (1992). Topologie : fat-tree.
Cray T3D (1993). Jusqu’à 512 processeurs. Topologie :
tore 3D.
ASCI Red, et Blue (1997-1999).
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les machines
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Ces années-là
Microsoft Windows 3.0 (1990), Windows 95, Windows 98
PVM (1991).
premier site web au CERN (1991)
Altavista (premier moteur de recherche) 15 millions de
pages web (1995)
création de Linux par Linus Torvald
création de Yahoo ! (1995)
annonce officielle de java (1995)
Netscape à partir de NCSA Mosaic (1994).
IBM Deep Blue bat Gary Kasparov (1997)
mise en ligne du moteur google (1997)
premier GPU (Nvidia GeForce 256) (1999)
passage à l’euro
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
L’ère des Géants : les Grilles
Depuis les milieu des années 90.
Constat : les matériels sont la plupart du temps peu et
sous-utilisés.
Idée : utiliser ces matériels dont le nombre est énorme,
Principe : des milliards de calculs indépendants effectués
sur les PCs de “volontaires”.
Précurseur : le projet Seti@Home
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
L’ère des Géants : les Grilles
⇒ meta-computing.
⇒ Grilles de calcul.
Principe de base : offrir un service tel qu’il est offert par les
producteurs d’énergie :
Electric Power Grid ↔ Computational Grid
Objectif : brancher le cable réseau du PC pour utiliser de la
puissance de calcul comme on branche une prise de
courant pour utiliser de l’électricité.
Grille de calcul = capacités de calcul + capacités de
stockage + disponibilité + interactions
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
L’ère des Géants : les Grilles
Eléments fondamentaux :
partage de ressources (calcul + stockage)
existence d’un réseau d’interconnexion mondial (Internet)
calcul distribué/parallèle
Contraintes :
confidentialité : accès sécurisé
gestion : partage de ressources
performance : équilibrage de charge
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
L’ère des Géants : les Grilles
Grille
Ressources de calcul et de stockage
Réseaux
Applications
Intergiciel : coordination de l’ensemble : authentification et
confidentialité, stockage, répartition de charge,
maintenance, etc.
Cloud Computing
évolution du grid computing
portail unique
→ Google, Amazon, IBM Blue Cloud, Intel+HP+Yahoo, etc.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
L’ère des Géants : les Grappes
Depuis les milieu des années 90.
Idée des grilles de calcul intéressante mais...
Constat : les communications pénalisent une bonne
utilisation.
Remède : construire des réseaux locaux de grandes
dimensions.
Grappes de machines (clusters of machines).
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
L’ère des Géants : les machines
1
BlueGene/L. IBM. US. 280 TFlops. 131072 processeurs.
2
Red Storm. Cray Inc. US. 101 TFlops. 26544 processeurs.
3
Blue Gene. IBM. US. 91 TFlops. 40960 processeurs.
4
ASC Purple. IBM. US. 91 TFlops. 75 TFlops. 12208
processeurs.
5
BladeCenter. IBM. Espagne. 62 TFlops. 10240
processeurs.
6
Thunderbird. Dell. US. 53 TFlops. 9024 processeurs.
7
Tera-10. Bull SA. CEA France. 52 TFlops. 9952
processeurs.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
L’ère des Géants : les machines
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les hybrides
Depuis le milieu des années 2000.
Constat : le parallélisme a été bien maîtrisé, passons à
l’intégration à grande échelle
Idée : intégré le parallélisme au sein des unités de calcul
(processeurs multicores) et graphiques (GPU et GPGPU)
Extension : construisons des environnements parallèles
qui utilisent ces technologies
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les machines
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Puissance 2007
1
BlueGene/L. IBM. US. 280 TFlops. 131072 processeurs.
2
Red Storm. Cray Inc. US. 101 TFlops. 26544 processeurs.
3
Blue Gene. IBM. US. 91 TFlops. 40960 processeurs.
4
ASC Purple. IBM. US. 91 TFlops. 75 TFlops. 12208
processeurs.
5
BladeCenter. IBM. Espagne. 62 TFlops. 10240
processeurs.
6
Thunderbird. Dell. US. 53 TFlops. 9024 processeurs.
7
Tera-10. Bull SA. CEA France. 52 TFlops. 9952
processeurs.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Puissance 2008
1
Roadrunner IBM. Los Alamos DOE US. 1105 TFlops.
129600 processeurs. Nucléaire, armement, sécurité.
2
Jaguar Cray Inc. DOE US. 1059 TFlops. 150152
processeurs.
3
Pléïades SGI. NASA US. 487 TFlops. 51200 processeurs.
4
BlueGene/L. IBM. US. 478 TFlops. 212992 processeurs.
5
(9) Red Storm. Cray Inc. US. 204 TFlops. 38208
processeurs.
6
(14) Jade SGI CINES FRANCE 128 TFlops. 12288
processeurs.
7
(54) Tera-10. Bull SA. CEA France. 52 TFlops. 9952
processeurs.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Puissance 2012
1
K Computer Fujitsu (Japon). 10.5 PFlops. Sparc64.
705024 cores. Linux
2
Tianhe 1A NUDT (Chine). 2.5 PFlops. Xeon+NVidia.
186368 cores. Linux
3
Jaguar CRAY XT5 (USA). 1.75 PFlops. AMD Opteron.
224161 cores. Linux
4
Nebulae Dawning TC3600 (Chine). 1.27 PFlops.
Xeon+NVidia. 120640 cores. Linux
5
Tsubame (NEC/HP). 1.2 PFlops. Xeon+NVidia. 73278
cores. Linux
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Les systèmes
Système
Linux
Unix
Mixed
BSD Based
Mac OS
Windows
% (2007)
75
15
6.40
3
0.60
0
[email protected]
% (2011)
91.4
6
2.2
0.2
0
0.2
Parallélisme et bioinformatique
Généralités
Bioinformatique
Pour qui ? Pour quoi ?
Historique
Bilan ?
Toujours plus
l’augmentation de puissance ne connait pas de répit
machines parallèles → processeurs et GPU → machines
parallèles
nombre de coeurs explose
mobilité augmente : le terminal devient une interface
mais...
consommation électrique de plus en plus importante
confidentialité/données personnelles : enjeu critique
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Le parallélisme dans le domaine de la biologie
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Bioinformatique et parallélisme
Motivations
bioinformatique : collecte, stockage, classification,
traitement et analyse des données biologiques
→ biologie génère des volumes énormes de données
→ problèmes modélisés sont difficiles (solutions
approchées)
→ approches gourmandes en calcul (simulations)
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Sciences de la vie : applications
domaine médical et pharmaceutique
distinguer les processus entre états (santé/maladie)
dépister/comprendre les maladies génétiques (SNPs)
découvrir/conception et développer de nouveaux
médicaments
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Sciences de la vie : applications
Prédiction de structures de protéines à partir de séquences
ou de séquences à partir de données structurelles.
Interactions protéine-protéine, protéine-ADN, etc.
Site d’interaction entre
la protéase et son inhibiteur
[email protected]
Carte des potentiels.
En bleu le minimum
Parallélisme et bioinformatique
Généralités
Bioinformatique
Bioinformatique : quelques problèmes
Assemblage, annotation du génome.
Imagerie médicales.
Simulations cellulaires.
Analyses transcriptomes.
Simulation de réseaux d’interactions.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Apport essentiel du HPC
seuils de réalisme en deça desquels les résultats de
simulation perdent de leur pertinence
détails permettent de capturer la dynamique des systèmes
étudiés et simulés
Simulations peuvent reproduire des phénomènes
inexpliqués et prédire des résultats à confirmer par des
expérimentations
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Apport essentiel du HPC
Protein Folding
Brooks et al. ont découvert une faible portion de structures
hélicoïdales (en dessous des limites de détection
expérimentale) qui apparaîtraient dans la dynamique des
protéines non encore repliées, mais qui serviraient de
germe de départ pour le repliement.
http ://www.psc.edu/science/Brooks96/brooks96.html
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Quelles entreprises ?
Celera Genomics
A propos d’un partenariat avec Compaq en 2001 :
“Celera’ s current resource is a massively parallel Compaq
Alpha processor farm of approximatly 1000 processors that was
heavily used for assembling the human genome. However,
annotating these genomes is expected to require even greater
resources, and the post-genomic problem of proteomics is
anticipated to be up to 1000-fold more computationally
demanding.”
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Quelles entreprises ?
GeneBio
éditeur de logiciels de bioinformatique (Genève)). A propos
de la conception de son outil Phenyx en 2006 :
"Phenyx was designed for industrial use and massive scalability,
and thus can accommodate both small and large cluster
environments.”
Incyte Genomics
Toronto, 2002. “Incyte Genomics will use Platform LSF and
Platform Analyzer to manage its 1200 CPU Linux and Unix
compute farm.”
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Quelles entreprises ?
Hopitaux
Cedars-Sinai Medical Center, one of the largest academic
medical centres in the Western United States, has been
recognized for having one of the 500 most powerful computers in
the world. Cedars-Sinai’s supercomputer is designed to analyse
blood proteins from cancer cells and provide information that will
allow researchers to more accurately predict how cancer
patients will respond to specific treatments.
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Quels futurs ?
Simulation. Challenges
Comprendre le fonctionnement des réseaux d’interactions.
Modéliser puis simuler le fonctionnement de la cellule.
Quotidiennement
utilisation industrielle de l’outil HPC pour les besoins
quotidiens de biologistes :
Analyse d’images (électrophorèse 2D)
Alignement multiple (clustalW)
Blast, fasta...
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Grilles et biologie
GenoGrid : grille expérimentale pour la génomique.
Rugbi : Réalisation et Utilisation d’une Grille pour la
Bio-Informatique. Grille d’exploitation pour les sociétés de
bio-technologies.
EGEE : enabling grids for e-science. 10000 CPU et 10 Po
d’espace de stockage. Volet applications médicales
(essentiellement docking et images).
BioGrid (volet bioinfo du projet EuroGrid).
HealthGrid. http ://www.healthgrid.org
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Grilles et biologie
TeraGrid : plusieurs passerelles (gateways) ont un rapport
direct avec la biologie. Parmi les projets traités Molecular
phylogeny and microbial genome annotation.
SHARCNET - Shared Hierarchical Academic Research
Computing Network consisting of 14 academic institutions
in South Central Ontario. Total CPU performance of 5423
gflops.
European DataGrid - Funded by European Union. At its
largest was comprised of 25 sites in Europe, Russia and
Taiwan with over 1000 processors. Concluded March 2004.
Grid’5000
[email protected]
Parallélisme et bioinformatique
Généralités
Bioinformatique
Références
le livre de Ian Foster en ligne
www.top500.org
quelques ouvrages de bioinformatique parallèle
[email protected]
Parallélisme et bioinformatique

Documents pareils

Parallélisme et bioinformatique

Parallélisme et bioinformatique Ces années-là Langage pascal (Wirth - 1972) Ray-Tomlinson : premier email (1972) 10000 composants sur 1 cm2 (1975). premier réseau local : Datapoint système ARC (1976). fibre optique (1977). Suppo...

Plus en détail