X!TandemPipeline

Transcription

X!TandemPipeline
X!TandemPipeline
X!Tandem: identification des peptides
Pour tout peptide de la base de donnée dont la masse correspond à celle du
précurseur :
observé
●
●
Comparaison entre spectre observé et
spectre théorique déduit d'une séquence
Calcul d'un score
théorique
 n

HyperScore =  ∑ Ii * Pi ÷* Nb !* Ny !
 i =0

HyperScore = (somme des intensités des pics appariés) * Nb! * Ny!
(d'après Proteome Software)
X!Tandem: identification des peptides
Détermination d'une valeur probabilistique
Basée sur l'idée que pour un spectre observé donné, la majorité des peptides
sélectionnés en fonction de la masse du précurseur dans la base de données ne
correspondent pas au peptide réellement présent.
Nbre de peptides théoriques
60
50
40
30
20
10
0
0
20
40
Hyperscore
Beaucoup de mauvais
(d'après Proteome Software)
60
80
100
Peu de bons
X!Tandem: identification des peptides
Nbre de peptides théoriques
Détermination d'une valeur probabilistique
60
50
La distribution des hyperscores pour les
mauvais peptides suit une loi
hypergéométrique, correspondant à une
distribution au hasard.
40
30
20
10
0
0
20
40
60
80
100
4
Log(nbre pept theo)
3.5
En sélectionnant la partie droite de cette
distribution et en passant aux logs on
obtient une droite
3
2.5
2
1.5
1
0.5
0
20
25
30
35
40
Hyperscore
(d'après Proteome Software)
45
50
X!Tandem: identification des peptides
4
Log(nbre pept theo)
3.5
3
Après avoir déterminé les paramètres de
cette droite (y=ax+b) , on s'en sert pour
estimer le « y » pour le meilleurs
hyperscore observé.
2.5
2
1.5
1
0.5
0
20
25
30
35
40
45
50
6
Ce « y » est le Log du nombre de
peptides attendus au hasard :
C'est le Log de l'Expected value (Evalue)
4
Log(E-value)
2
0
-2
-4
-6
E-value=e-8.2
-8
-10
0
20
40
60
Hyperscore
(d'après Proteome Software)
80
100
X!Tandem: identification des protéines
Les E-values des peptides sont donc calculées pour chaque peptides en prenant
en compte l'ensemble des peptides dans la même fenêtre de m/z : c'est un calcul
individuel,différent pour chaque spectre.
La E-value pour une protéine est calculée à partir des E-values des peptides qui
lui ont été assignés
Problème : la E-value de la protéine repose sur des peptides éventuellement
partagés.
L'inférence des protéines
●
●
●
Ce sont les peptides qui sont identifiés : les protéines sont « reconstruites » en
fonction des peptides identifiés
Des peptides sont partagés par plusieurs protéines : redondance dans les
banques, familles multigéniques, épissage alternatif, formes alléliques
Toutes les protéines contenant les peptides sont identifiées et listées par les
moteurs de recherche.
Comment définir la liste de protéines la plus proche de la réalité de
l'échantillon ?
Inférence des protéines
Comment définir la liste de protéines la plus proche de la réalité de
l'échantillon ?
●
●
●
Principe de parcimonie : liste minimale de protéines pour expliquer la présence
de tous les peptides identifiés
Modèles statistiques : ex ProteinProphet : calcule itérativement les probabilité
des protéines en fonction des peptides, puis ré-estime la probabilité des peptides
d'appartenir aux différentes protéines
Utilisation de données supplémentaires
➢
➢
➢
➢
données brutes MS/MS (récupérer des données non sélectionnées au départ en
fonction des identifications d'une première passe)
données quantitatives (les peptides appartenant à une même protéine doivent
être corrélés)
données d'expression : s'appuyer sur des données de transcriptomique
interactions protéine-protéine : s'appuyer sur des relations connues (complexes
de protéines, ...)
Huang et al. Brief Bioinform (2012) 13: 586-614
Inférence des protéines
Tenir compte des peptides partagés pour obtenir une liste minimale de
protéines identifiées
Produire une liste de protéines classée de façon cohérente
Même problématique pour les phosphosites
De plus
● visualiser les spectres et les valider
● prendre en compte simultanément plusieurs échantillons pour l'identification
● lancer l'identification en batch
X!TandemPipeline
Regroupement des protéines
X!TandemPipeline
Principe de parcimonie : ne pas considérer une protéine si son existence dans le
mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides
Deux niveaux de regroupement :
●
sous-groupes : protéines identifiées avec le même set de peptides. Impossible de
déterminer laquelle (lesquelles) est présente.
Les protéines ne contenant qu'un sous-ensemble sont éliminées.
●
groupes : sous-groupes qui contiennent au moins un peptide en commun
Regroupement des protéines
X!TandemPipeline
Principe de parcimonie : ne pas considérer une protéine si son existence dans le
mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides
Deux niveaux de regroupement :
●
sous-groupes : protéines identifiées avec le même set de peptides. Impossible de
déterminer laquelle (lesquelles) est présente.
Les protéines ne contenant qu'un sous-ensemble sont éliminées.
●
groupes : sous-groupes qui contiennent au moins un peptide en commun
Protéine A
Protéine B
Sous-groupe 1
Protéine C
Regroupement des protéines
X!TandemPipeline
Principe de parcimonie : ne pas considérer une protéine si son existence dans le
mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides
Deux niveaux de regroupement :
●
sous-groupes : protéines identifiées avec le même set de peptides. Impossible de
déterminer laquelle (lesquelles) est présente.
Les protéines ne contenant qu'un sous-ensemble sont éliminées.
●
groupes : sous-groupes qui contiennent au moins un peptide en commun
Protéine A
Protéine B
Sous-groupe 1
Protéine C
Regroupement des protéines
X!TandemPipeline
Principe de parcimonie : ne pas considérer une protéine si son existence dans le
mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides
Deux niveaux de regroupement :
●
sous-groupes : protéines identifiées avec le même set de peptides. Impossible de
déterminer laquelle (lesquelles) est présente.
Les protéines ne contenant qu'un sous-ensemble sont éliminées.
●
groupes : sous-groupes qui contiennent au moins un peptide en commun
Protéine A
Protéine B
Sous-groupe 1
Protéine C
Protéine D
Protéine E
Sous-groupe 2
Regroupement des protéines
X!TandemPipeline
Principe de parcimonie : ne pas considérer une protéine si son existence dans le
mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides
Deux niveaux de regroupement :
●
sous-groupes : protéines identifiées avec le même set de peptides. Impossible de
déterminer laquelle (lesquelles) est présente.
Les protéines ne contenant qu'un sous-ensemble sont éliminées.
●
groupes : sous-groupes qui contiennent au moins un peptide en commun
Protéine A
Protéine B
Sous-groupe 1
Protéine C
Protéine D
Protéine E
Sous-groupe 2
groupe 1
Protéine F
Sous-groupe 3
Regroupement des protéines
X!TandemPipeline
Principe de parcimonie : ne pas considérer une protéine si son existence dans le
mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides
Deux niveaux de regroupement :
●
sous-groupes : protéines identifiées avec le même set de peptides. Impossible de
déterminer laquelle (lesquelles) est (sont) présente(s).
Les protéines ne contenant qu'un sous-ensemble sont éliminées.
●
groupes : sous-groupes qui contiennent au moins un peptide en commun
Protéine A
Protéine B
Sous-groupe 1
Protéine C
Protéine D
Protéine E
Sous-groupe 2
groupe 1
Protéine F
Sous-groupe 3
Validité biologique du niveau « groupe »
Analyse in silico de 26535 protéines de plantes, de numéro EC connu
(PlantCyc database)
●
●
Trypsinolyse in silico
Détermination des groupes de protéines ayant au moins un peptide en commun
600000
500000
12000
2371
79722
805
81288
10000
Frequency
400000
177
3140
3300
8000
300000
200000
337
450791
450791
shared, different EC
shared, same EC
non shared
6000
4000
100000
2000
0
0
EC
3 first numbers of EC
2.89% des peptides partagés appartiennent à des
protéines de différents E.C.
0,98% des peptides partagés appartiennent à des
protéines différentes pour les trois premiers numeros
E.C.
7717
7717
EC
3 first numbers of EC
Group of >1 proteins, different EC
Group of >1 proteins,
same EC
Group of 1 protein
90% des groupes contenant plus d'une protéine
contiennent des protéines de même EC number;
95% contiennent des protéines ayant les mêmes trois
premiers numéros E.C.
Tous groupes compris, 97 et 98% contiennent des
protéines de même E.C. ou de même 3 premiers
numéros d'E.C.
Statistiques sur les regroupements et éliminations
Exemple : Un échantillon de protéines de feuilles de maïs, Analyse Shotgun, Q-Exactive
Identification par X!Tandem :
●
14381 peptides uniques (p < 0,01)
●
Au moins 2 peptides identifiés : 2373 protéines, 4170 peptides.
600
600
500
500
400
400
Frequency
Frequency
1505 protéines
réparties en 654 groupes et 808 sous-groupes.
300
200
300
200
100
100
0
0
1
2
3
4
5
6
7
Number of sub-groups per group
8
9
10
1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
Number of proteins per sub-group
X!TandemPipeline
Exemple : ATP-dependent Clp protease
AIDLIDEAGSR
HIEKDPALER
HAQLPDEAK
TAIAEGLAQR
YTDDALIAAAQLSYQYISDR
YRGEFEER
GELQCIGATTLDEYRK
IDMSEYMEK
LIGSPPGYVGYTEGGQLTEAVR
NNPCLIGEPGVGK
NNPVLIGEPGVGK
NTLLIMTSNVGSSVIEK
QYFRPEFLNR
RPYTVVLFDEIEK
RRPYTVVLFDEIEK
VPEPTVDETIQILR
VVDEGYNPSYGAR
AKDINLQVTEK
EGDSAIVDVDSDGK
IVQGDVPQALTNR
LAEEGKLDPVVGR
LGHNFVGTEQILLGLIGEGTGIAAK
MEETLHTR
QLGHNYIGSEHLLLGLLR
VIVLNGGSGVAEPLEPALST
VNVEIQQAER
YGSLNALQR
EGDSAIVDVDSEGK
EIADIMLQEVFDR
FQPVKVPEPTVDETIEILR
HQIVETEHMMK
ISNGDVPETIEGK
ISTGDVPETIEGK
ISTGDVPETIEGKK
LQHAQVPEEAR
MIGETTEAVGAGVGGGSSGNK
NPNRPIASFIFAGPTGVGK
VIGQDEAVVAISR
VLESLGADPNNIR
VLESLGADPSNIR
VPEPTVDETIEILR
YTDEALIAAAK
# peptides per protein
GRMZM2 GRMZM2 GRMZM2 GRMZM2 AC211513. GRMZM2 GRMZM2 GRMZM2 GRMZM2 GRMZM2 GRMZM5 GRMZM5 GRMZM5
G009443_ G123922_ G162968_ G333795_ 3_FGP003 G001084_ G060561_ G113552_ G130121_ G360681_ G896496_ G896496_ G896496_
P01-13.01 P01-13.02 P01-13.03 P01-13.04 -NA
P01-NA
P02-NA
P01-NA
P01-NA
P01-NA
P04-NA
P05-NA
P06-NA
1
1
0
0
1
1
0
0
0
0
1
1
1
1
1
0
0
1
1
0
0
0
0
1
1
1
0
1
0
0
1
1
0
0
0
0
1
1
1
1
1
1
1
0
0
1
1
0
0
0
0
0
0
1
0
0
1
1
0
0
0
0
1
1
1
1
1
0
0
0
1
0
0
0
1
0
0
0
1
1
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
1
0
0
0
0
1
1
0
0
0
1
0
0
0
0
0
0
0
1
1
0
0
0
0
0
1
0
0
0
0
0
0
0
1
1
0
0
0
0
0
1
0
0
0
1
1
0
0
0
1
0
0
0
0
0
0
0
1
1
0
0
0
1
0
0
0
0
0
0
0
1
1
0
0
0
1
0
0
0
0
0
0
0
1
1
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
1
1
0
0
0
0
0
0
0
1
1
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
28
23
6
4
5
17
2
2
3
2
4
4
4
# protein
per peptide
7
7
6
6
6
4
3
3
3
3
3
3
3
3
3
3
3
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
X!TandemPipeline : les phosphopeptides
Identification de sites de phosphorylation : problèmes analogues
●
●
●
le phosphopeptide peut être partagé par plusieurs protéines
plusieurs phosphopeptides peuvent partager le même site de phosphorylation
(miscleavage)
plusieurs positions du site de phosphorylation peuvent être trouvées pour un
même peptide selon le scan.
Au final il faut
●
●
regrouper les peptides correspondant à la même région dans une même
protéine
résumer l'information de position du site de phosphorylation
Notion de phospho-island
X!TandemPipeline : les phosphopeptides
Protéines
Phosphopeptides
Intégration X!Tandem - X!TandemPipeline
X!tandemPipeline permet de lancer le moteur de recherche X!Tandem
On peut :
● modifier tous les paramètres de recherche de X!Tandem
● lancer simultanément l'analyse sur plusieurs fichiers
● Interroger simultanément plusieurs databases
● utiliser une database de contaminants, qui seront systématiquement
soustraits aux résultats
X!TandemPipeline peut aussi être utilisé à partir des résultats d'autres
moteurs de recherche.
X!TandemPipeline – options de traitement
Options à choisir dès le chargement des données d'identification
●
●
●
Option « Individual »
Traitement de l'ensemble des fichiers soumis indépendamment les uns des
autres.
Utilisation type : analyse de spots de gels 2D.
Option « Combine »
Prise en compte des identifications dans l'ensemble des fichiers soumis
simultanément pour faire les regroupements.
Permet une quantification par comptage de spectres
Permet (ou non) la prise en compte de l'ensemble des échantillons dans la
phase d'identification des protéines
Option « Phosphopeptides »
Prise en compte des phosphopeptides uniquement, regroupements en
phospho-islands
Combiner les résultats obtenus sur un même échantillon
X!TandemPipeline considère comme provenant d'un même échantillon tous les
fichiers d'identification qui portent le même nom.
Cas de figure 1
A partir d'un même fichier de spectres on a interrogé successivement différentes
banques de séquences (ex : une banque de la nr et une banque d'EST). On veut
construire une liste unique à partir des deux résultats, en éliminant la redondance.
Il suffit de donner le même nom (et des suffixes différents) aux deux fichiers :
echantillon.EST et echantillon.nr, et de les soumettre ensemble à X!TandemPipeline
Cas de figure 2
Au contraire, on veut comparer les résultats de plusieurs interrogations sur un même
échantillon (banques différentes, paramètres d'interrogation différentes, moteurs de
recherche différents)
Il faut leur donner des noms différents (echantillon_tandem.dat,
echantillon_mascot.dat) et utiliser l'option combine. Les résultats seront comparés
comme s'ils provenaient d'échantillons différents.
X!TandemPipeline: workflow
Chargement
des données
Fichiers résultats des moteurs de recherche
Filtrage et
regroupements
automatiques
Filtrage par e-value des peptides et protéines
Filtrage par regroupements (protein inference)
Interventions
manuelles
Visualisation des données,
filtrage en fonction de la qualité des spectres,
modification des seuils
Actualisation
automatique
Actualisation des regroupements
Export
Fichiers tabulés
Fichiers xml pour MassChroQ,
Fichiers xml pour PROTICdb
X!TandemPipeline
Entrée :
●
fichiers ouverts (mzXML, mzML,...) pour analyse par X!Tandem
●
fichiers résultats de X!Tandem ou de Mascot
X!TandemPipeline
Entrée :
●
fichiers ouverts (mzXML, mzML,...) pour analyse par X!Tandem
●
fichiers résultats de X!Tandem ou de Mascot
X!TandemPipeline
Entrée :
●
fichiers ouverts (mzXML, mzML,...) pour analyse par X!Tandem
●
fichiers résultats de X!Tandem ou de Mascot
Sortie :
●
●
●
●
●
Liste de protéines filtrées, rangées par groupes et
sous-groupes, peptides spécifiques identifiés,
probabilités et FDR recalculés
Comptage de spectres par protéines (emPAI)
Fichiers tabulés
Export pour base de données PROTICdb
Export pour quantification par MassChroQ

Documents pareils