ePIMS : un LIMS pour la gestion des données de

Transcription

ePIMS : un LIMS pour la gestion des données de
TECHNOLOGIE APPLIQUÉE
Véronique DUPIERRIS1, Damien BARTHE2, Christophe BRULEY2
ePIMS : un LIMS pour la gestion des données
de spectrométrie de masse
RÉSUMÉ
La protéomique constitue aujourd’hui un outil de choix pour l’étude de systèmes biologiques
complexes. Les laboratoires spécialisés dans ce domaine doivent disposer d’outils informatiques
permettant de gérer des quantités et des flux de données conséquents et d’organiser leur activité.
Nous décrivons dans cet article un LIMS spécifiquement dédié à la protéomique développé par le
groupe informatique du Laboratoire d’Etude de la Dynamique des Protéomes (EDyP). Ce système
constitue un outil modulaire susceptible d’organiser, de tracer et de gérer efficacement les données
électroniques liées aux analyses protéomiques par spectrométrie de masse.
MOTS- CLÉS
Protéomique, spectrométrie de masse, LIMS
Informatique
iqu
qu
ePIMS : a LIMS dedicated to mass spectrometry data management
SUMMARY
Proteomics is nowadays a usefull method to study complex biological systems. Laboratories specialized in
this field need informatic tools able to organize their activities and to manage big amount and large flows
of data. We describe in this article a LIMS dedicated to proteomics. This modular software was developed
by the information technology team of the « Laboratoire d’Etude de la Dynamique des Protéomes
(EDyP) » (CEA Grenoble, France). This tool can organize, trace and manage efficiently electronic data
associated with mass spectrometr y-based proteomic analysis.
KEYWORDS
Proteomics, mass spectrometry, LIMS
I - Introduction
Avec la multiplication des données générées dans
le domaine de la protéomique et plus particulièrement dans l’analyse protéomique par spectrométrie de masse, les besoins en logiciel permettant,
d’une part, de gérer cette volumétrie et, d’autre
part, de suivre les expérimentations réalisées en
amont de la génération de ces données se sont
faits de plus en plus pressants. De tels outils, des
progiciels dédiés à la gestion des laboratoires ou
LIMS (Laboratory Information Management System (1)) sont déjà très répandus dans d’autres
domaines (recherche et développement pharmaceutique, agro-alimentaire...). Ils permettent non
seulement une gestion plus efficace de l’activité
des laboratoires mais constituent également un
gage de qualité grâce à la traçabilité qu’ils procurent. Néanmoins, les LIMS existants, notamment
pour la protéomique, ne gèrent pas les données
électroniques associées aux analyses et sont le plus
souvent « fermés », interdisant alors tout ajout
de nouvelles fonctionnalités. Ce double constat
a amené le groupe informatique du Laboratoire
1
d’Etude de la Dynamique des Protéomes (EDyP)
du CEA Grenoble à développer un LIMS, ePIMS™
(experiment Proteomic Information Management
System), spécifiquement conçu et développé pour
la protéomique.
L’analyse protéomique par spectrométrie de masse
permet notamment l’identification et la quantification, des protéines contenues dans un échantillon
biologique d’intérêt. Le « workflow » classique des
analyses par spectrométrie de masse, qui va du
traitement chimique de l’échantillon à l’identification des protéines présentes est schématiquement
représenté dans la Figure 1 (voir page suivante). Le
temps nécessaire à l’analyse peut varier d’un échantillon à l’autre en fonction des techniques utilisées
et il est donc important de savoir, à tout moment,
quels sont les échantillons en cours d’analyse et les
traitements qu’ils ont subis. Dans notre cas, le laboratoire est constitué d’une trentaine de personnes qui gèrent près de 200 études (figure 1A) en
s’appuyant sur un parc instrumental de cinq spectromètres de masse. Environ 400 acquisitions sont
réalisées par mois, ce qui représente approximativement 200 Go de données. L’utilité d’un LIMS dans
Fondation Rhône-Alpes Futur – 89 rue Bellecombe – 69003 Lyon
Laboratoire d’Etude de la Dynamique des Protéomes (EDyP) – Inserm U-880 – Institut de Recherches en Technologies et Sciences pour le Vivant (iRTSV)
CEA-Grenoble – 17, rue des Martyrs – 38054 Grenoble Cedex 9
2
36
SPECTRA ANALYSE n° 269 • Septembre - Octobre 2009
Technologie appliquée
ePIMS : un LIMS pour la gestion des données de spectrométrie de masse
Figure 1
Workflow classique d’analyse protéomique par spectrométrie de masse. Après une phase de préparation et éventuellement
de décomplexification des échantillons (b), ceux-ci sont digérés afin d’obtenir un mélange peptidique qui est analysé par
spectrométrie de masse en tandem (MS/MS). Ces acquisitions produisent des spectres de fragmentation qui sont réduits
en liste de pics (« peak list ») (c) et soumis à des moteurs d’identification, comme Mascot® par exemple (d). Les spectres
expérimentaux sont confrontés aux spectres théoriques générés à partir de banques contenant des séquences de protéines
afin de lister l’ensemble des peptides, et donc des protéines, potentiellement présents dans l’échantillon de départ. Un travail
d’expertise est alors nécessaire afin de correctement valider cette liste et d’en extraire un ensemble plus juste de protéines
identifiées (e).
un tel contexte semble évidente, d’une part pour
organiser l’activité du laboratoire mais également
pour gérer la quantité importante et le flux de
données générées par les spectromètres de masse.
Nous développons ePIMS™ dans le but d’organiser,
de tracer et de gérer efficacement les données électroniques liées aux analyses mais également avec
pour objectif d’automatiser certains processus qui
ne nécessitent pas un travail d’expertise ou qui
peuvent être configurées à priori. En effet, dans le
cadre d’un projet haut-débit les mêmes paramètres d’identification de protéines ou de validation
des résultats peuvent être utilisés.
II - Organisation et traçabilité
de l’activité
1. Organisation
La mise en place d’ePIMS™ nécessite que les différents projets soient répertoriés et identifiés afin
que chacun, groupe ou personne, puisse organiser
et retrouver rapidement les projets dans lesquels
ils sont impliqués. C’est pourquoi nous avons
opté pour une hiérarchisation à trois niveaux : les
programmes de recherche, programmes à grande
échelle dont les frontières peuvent être hors laboratoire ; les projets scientifiques, rattachés ou non
à des programmes de recherche et qui représentent des thématiques sur lesquelles des personnes
du laboratoire travaillent et, enfin, les études qui
permettent de regrouper des échantillons à analyser. Cette gestion de l’activité est réalisée grâce
à un module Web du système, le module eP-Web
(figure 2a, voir page suivante). Pour chacun de ces
niveaux hiérarchiques (ou « entités ») on identifie un responsable et des membres du laboratoire
impliqués et seules ces personnes disposent des
droits de création et de modification sur les entités
qui s’y rattachent. Dans un souci de confidentialité,
la visibilité, ou non, de ces informations aux yeux
des autres personnes ayant accès au LIMS sont à la
discrétion des responsables.
Afin de faciliter la navigation et l’accès aux informations, différentes vues et outils sont proposés :
vue globale, hiérarchique des programmes, projets
et études définis au sein du laboratoire ; vue uniquement des entités dans lesquelles l’utilisateur
authentifié est impliqué ; recherche d’une entité
ou acquisition en fonction de multiples critères.
Dans le cas particulier des études, il est également
possible de visualiser les informations et données
associés aux échantillons. Le module eP-Web permet donc d’avoir une description complète des
différents niveaux de l’activité du laboratoire.
2. Traçabilité
En plus de cette vision descriptive, il est indispensable de tracer les expérimentations (figure 1B)
que ce soit pour des simples questions de qualité
des résultats rendus ou pour suivre les recommandations faites par les éditeurs des journaux
scientifiques. Cette traçabilité passe par l’organisation de l’activité comme décrite ci-dessus mais
aussi par le suivi des expérimentations faites sur
les échantillons biologiques. Pour ce dernier point,
le module eP-POLE (Préparation, Organisation et
Lignée des Echantillons) permet de visualiser et
modifier l’ensemble des échantillons et des traiSPECTRA ANALYSE n° 269 • Septembre - Octobre 2009
37
TECHNOLOGIE APPLIQUÉE
Figure 2
Intégration
d’ePIMS™ dans le
workflow d’analyse
protéomique. Le
LIMS permet la
gestion de l’activité
(a), des échantillons
(b) et des données
électroniques
(c) mais offre
également
la possibilité
d’automatiser
(d) une ou plusieurs
des étapes suivantes :
récupération des
données, génération
de « peak lists »,
identification des
protéines, validation
des résultats
Mascot® (avec IRMa
(2)) et export des
résultats dans une
base de données
d’identifications
(MSIdb, avec IRMa).
tements qu’ils ont subis pour une étude donnée
(figure 2b). Actuellement, la préparation par un robot (Tecan), l’analyse par spectrométrie de masse,
l’aliquotage ainsi que le pool d’échantillons sont
pris en charge.
Une visualisation par étape, c’est-à-dire en fonction du dernier traitement subi par l’échantillon
ou par lignée est proposée à l’utilisateur. Cette
seconde vue correspond à une représentation en
arbre permettant d’identifier les échantillons issus
de l’aliquotage d’un même échantillon père par
exemple.
3. Planification
Afin de planifier l’occupation des instruments, ePPOLE autorise les utilisateurs à déposer des demandes de préparation automatique sur le robot
Tecan ou d’analyse par spectrométrie de masse
pour leurs échantillons. Cette étape de demande
est indispensable pour les responsables des instruments. En effet, c’est à partir de ces listes d’échantillons en attente que les plans de plaques pour le
robot de préparation sont générés, avec le module
eP-Plate, ou que l’ordre de passage sur les spectromètres est établi. Une fois les demandes satisfaites,
les échantillons changent automatiquement d’état
soit à la validation du « run robot » par le responsable du robot soit lors du transfert des acquisitions
en spectrométrie de masse. Ce changement d’état
est visible dans eP-POLE, les échantillons passant
de l’étape « attente de … » à l’étape « passage sur le
robot effectué » ou « analysé en masse ».
III - Données électroniques
Les acquisitions en spectrométrie de masse sur les
différents instruments génèrent une grande quantité de données électroniques (figure 1c) : les fichiers de données bruts contenant les spectres et
les conditions d’acquisitions et, parfois, les « peak
lists » représentant les spectres réduits. Ces sont
38
SPECTRA ANALYSE n° 269 • Septembre - Octobre 2009
ces données qui sont ensuite traitées pour l’analyse,
l’identification et/ou la quantification, des échantillons. L’accès à ces données doit donc être rapide
et facile tout au long du cycle de vie de l’étude
mais il doit également être possible d’y revenir à
postériori, lors d’une publication ou lors de nouvelles analyses sur des échantillons comparables.
En plus de ces acquisitions, le LIMS gère aussi les
fichiers associés aux études tels que les demandes
d’analyses qui ont été soumises à la plateforme, les
fiches d’échantillons ou les scans de gels. Pour cela,
le repository du LIMS qui contient les données qui
lui sont transférées constitue une partie intégrante
du système.
1. Repository
Le repository est un espace de stockage centralisé
et structuré en fonction des entités de l’organisation auxquelles les données sont rattachées. Ainsi,
pour chaque étude, le LIMS créé un répertoire qui
est alors directement accessible depuis le module
eP-Web. Les données sont donc téléchargeables
depuis tout ordinateur pouvant se connecter au
LIMS. Néanmoins, la mise en place d’un repository pour le stockage des données ne nous abstient
pas de l’archivage sur bande. En effet, lorsque l’espace disque du repository est entièrement utilisé,
il est nécessaire de déplacer certaines données
sur bandes. Dans le LIMS, cet archivage est réalisé grâce à un module d’administration système :
eP-Admin. eP-Admin est un module Web à partir
duquel l’administrateur sélectionne les études et/ou
acquisitions de contrôles des instruments qu’il
souhaite archiver et le système va non seulement
déplacer ces données dans un espace dédié mais
aussi enregistrer l’opération au niveau de la base
de données.
2. Gestion des acquisitions
Un autre module, eP-Back, permet le transfert des
acquisitions depuis les spectromètres vers le repo-
Technologie appliquée
ePIMS : un LIMS pour la gestion des données de spectrométrie de masse
Figure 3
Architecture du
système. Le système
ePIMS™ est structuré
en modules
s’appuyant sur des
Web services, un
module central
d’accès aux données,
une base de données
et un espace de
stockage. Un serveur
FTP tiers ainsi que
les services JMS du
serveur d’application
sont également
nécessaires au bon
fonctionnement de
ce LIMS.
sitory du LIMS (figure 2c). En fonction du modèle
de l’instrument sélectionné, ce module liste l’ensemble des acquisitions qu’il a trouvé et affiche
pour chacune d’elles un certain nombre d’informations qu’il a extrait de ces données. Actuellement,
eP-Back peut lire les acquisitions générées sur des
spectromètres de masse des constructeurs Thermo Fisher Scientific, Applied Biosystems, Waters
et Bruker. La plupart des informations propres à
l’analyse sont enregistrées par le spectromètre de
masse, mais il est nécessaire que les responsables
instruments saisissent l’identifiant de l’échantillon
analysé de manière à ce qu’eP-Back puisse faire le
lien entre le résultat de l’analyse (l’acquisition) et
l’échantillon ePIMS™. Ainsi, lors du transfert, les
données seront non seulement copiées sur le repository mais des informations sur l’acquisition
proprement dite seront également enregistrées
dans la base de données du LIMS.
eP-Back permet également aux résponsables des
instruments de sauvegarder des acquisitions dites
« qualités » dans le système, c’est-à-dire les résultats des analyses réalisées dans le cadre des contrôles de la calibration des spectromètres. Enfin,
ce module permet de supprimer de manière sécurisée, sur les ordinateurs pilotant les spectromètres, les données qui ont déjà été transférées évitant ainsi les suppressions manuelles et donc les
risques de perte de données.
3. Automatisation
La récupération des données via eP-Web peut être
relativement longue et fastidieuse, notamment
dans un contexte d’analyses à haut débit. Si le LIMS
ne gère pas les traitements post-acquisition, il s’intègre dans l’automatisation des tâches qui sont à
exécuter, comme décrit dans la Figure 2d. Cette
intégration n’est cependant pas obligatoire puisqu’il
ne faut pas omettre le fait qu’il existe toujours des
projets pour lesquels l’automatisation n’est pas
souhaitable. Un « pipeline » de traitement automatique, depuis le transfert des données dans le
LIMS jusqu’à la création des bases de données
d’identifications (MSI dB) a donc été mis en place.
Le module de transfert automatique de données,
eP-TAF, est le point de départ de ce « pipeline ». En
effet, sur chacun des postes sur lequel il est installé, eP-TAF est notifié de la création d’une nouvelle
acquisition dans le LIMS et un transfert des données associées est fait si cette acquisition répond à
des critères prédéterminés. Les données ainsi récupérées sont ventilées en fonction des informations relatives aux acquisitions et aux échantillons
analysés. Ceci permet par exemple à des outils tels
que Mascot Daemon®, le logiciel client du moteur
de recherche Mascot®, de lancer dynamiquement
des processus de traitement spécifiques à une
étude. Dans le cas du « pipeline » mis en place au
laboratoire EDyP, nous avons profité des capacités
de Mascot Daemon pour enchaîner aux processus
de réduction des spectres et à l’identification de
protéines, la validation automatique des résultats
Mascot via un logiciel, IRMa (2), également développé au sein du laboratoire EDyP.
IV - Architecture et diffusion
La structuration modulaire du système décrit dans
ces pages permet de le rendre plus flexible et donc
de l’adapter à moindre coût à de nouveaux environnements. Les différents modules utilisent des
technologies différentes, application Web ou client
lourd, mais compatibles entre elles et s’appuyant
sur les spécifications J2EE (figure 3). En effet, la
SPECTRA ANALYSE n° 269 • Septembre - Octobre 2009
39
TECHNOLOGIE APPLIQUÉE
communication entre modules et l’accès aux informations se font par l’intermédiaire des services
fournis par le serveur d’application, messages
JMS (Java Message Service) et Web services.
Le choix a été fait d’utiliser des outils et librairies Open Source et donc de proposer ePIMS™
sous ce même type de licence, soit une licence
CeCILL (élaborée conjointement par le CEA,
le CNRS et l’INRIA (3)). Ce type de diffusion
permet non seulement à toute plateforme ayant
les compétences en interne d’installer et d’utiliser ce LIMS mais également de mettre en place
des projets de co-développement. Plusieurs
collaborations de développement ont déjà été
réalisées, notamment avec la Plateforme Protéomique Bourgogne - Franche Comté CLIPP
(Clinical and Innovation Proteomic Platform,
Dijon) (4) et la société ASA (Castelnau-le-Lez,
France (5)) pour la définition de deux nouveaux
modules, un module clinique et un module de
statistique. Les collaborations sont facilitées
par la mise en place d’un gestionnaire de projet
accessible par internet, sur authentification, et
d’une documentation en ligne accessible à tous
(6). De plus, un site Web devrait voir le jour
dans les mois à venir (7).
V - Conclusion
Après plusieurs années de développement, l’architecture actuelle du système décrit dans ces pages est suffisamment flexible pour permettre une
installation sur des plateformes de taille et d’équipements variés. De plus, la modularité permet à
toute plateforme d’ajouter de nouveaux modules
spécifiques à leur activité, s’appuyant sur les bases du système, eP-Core et eP-WebService. Néanmoins, ce LIMS étant une infrastructure complète,
l’ajout de fonctionnalités voire même l’installation
nécessite des compétences dans le domaine des
serveurs d’applications Web. Le laboratoire EDyP
n’ayant pas pour vocation l’installation et la formation du système ePIMS™, les audits destinés à
évaluer l’adéquation entre le système et l’activité
d’une plateforme ainsi que l’installation et la maintenance du système sont réalisés par la société
tierce ASA.
Le LIMS ePIMS™ a atteint une certaine maturité
et sa robustesse a été mise à l’épreuve puisqu’il est
installé au laboratoire EDyP depuis fin 2004. Le
système évolue régulièrement et nous envisageons
par exemple d’améliorer encore la description des
différentes opérations de séparation des échantillons, de mettre en place des protocoles associés
aux traitements ou encore d’étendre la gestion
électronique des documents à chaque niveau de
l’organisation de l’activité.
BIBLIOGRAPHIE
(1) Claude GOLDSZMIDT, Progiciels de gestion de laboratoire
(LIMS), 2006, les techniques de l’ingénieur, P218.
(2) DUPIERRIS V., MASSELON C., COURT M., KIEFFERJAQUINOD
S. & BRULEY C., A toolbox for Validation of mass spectrometry
peptides identification and Generation of database: Irma; Bioinformatics, 2009, 25, 15, 1980-1981.
(3) Voir en ligne www.cecill.info
40
SPECTRA ANALYSE n° 269 • Septembre - Octobre 2009
(4) NAUBOURG P., SAVONNET M., TERRASSE MN, Réalisation d’un
LIMS protéomique – Modélisation des informations cliniques
– 2nd International Conference : EMedical System, Tunisie October 2-31, 2008
(5) www.advancedsolutionsaccelerator.com
(6) http://biodev.extra.cea.fr/docs/epims.
(7) Cette ressource sera consultable à l’URL :
www.epims-community.org