X!TandemPipeline
Transcription
X!TandemPipeline
X!TandemPipeline X!Tandem: identification des peptides Pour tout peptide de la base de donnée dont la masse correspond à celle du précurseur : observé ● ● Comparaison entre spectre observé et spectre théorique déduit d'une séquence Calcul d'un score théorique n HyperScore = ∑ Ii * Pi ÷* Nb !* Ny ! i =0 HyperScore = (somme des intensités des pics appariés) * Nb! * Ny! (d'après Proteome Software) X!Tandem: identification des peptides Détermination d'une valeur probabilistique Basée sur l'idée que pour un spectre observé donné, la majorité des peptides sélectionnés en fonction de la masse du précurseur dans la base de données ne correspondent pas au peptide réellement présent. Nbre de peptides théoriques 60 50 40 30 20 10 0 0 20 40 Hyperscore Beaucoup de mauvais (d'après Proteome Software) 60 80 100 Peu de bons X!Tandem: identification des peptides Nbre de peptides théoriques Détermination d'une valeur probabilistique 60 50 La distribution des hyperscores pour les mauvais peptides suit une loi hypergéométrique, correspondant à une distribution au hasard. 40 30 20 10 0 0 20 40 60 80 100 4 Log(nbre pept theo) 3.5 En sélectionnant la partie droite de cette distribution et en passant aux logs on obtient une droite 3 2.5 2 1.5 1 0.5 0 20 25 30 35 40 Hyperscore (d'après Proteome Software) 45 50 X!Tandem: identification des peptides 4 Log(nbre pept theo) 3.5 3 Après avoir déterminé les paramètres de cette droite (y=ax+b) , on s'en sert pour estimer le « y » pour le meilleurs hyperscore observé. 2.5 2 1.5 1 0.5 0 20 25 30 35 40 45 50 6 Ce « y » est le Log du nombre de peptides attendus au hasard : C'est le Log de l'Expected value (Evalue) 4 Log(E-value) 2 0 -2 -4 -6 E-value=e-8.2 -8 -10 0 20 40 60 Hyperscore (d'après Proteome Software) 80 100 X!Tandem: identification des protéines Les E-values des peptides sont donc calculées pour chaque peptides en prenant en compte l'ensemble des peptides dans la même fenêtre de m/z : c'est un calcul individuel,différent pour chaque spectre. La E-value pour une protéine est calculée à partir des E-values des peptides qui lui ont été assignés Problème : la E-value de la protéine repose sur des peptides éventuellement partagés. L'inférence des protéines ● ● ● Ce sont les peptides qui sont identifiés : les protéines sont « reconstruites » en fonction des peptides identifiés Des peptides sont partagés par plusieurs protéines : redondance dans les banques, familles multigéniques, épissage alternatif, formes alléliques Toutes les protéines contenant les peptides sont identifiées et listées par les moteurs de recherche. Comment définir la liste de protéines la plus proche de la réalité de l'échantillon ? Inférence des protéines Comment définir la liste de protéines la plus proche de la réalité de l'échantillon ? ● ● ● Principe de parcimonie : liste minimale de protéines pour expliquer la présence de tous les peptides identifiés Modèles statistiques : ex ProteinProphet : calcule itérativement les probabilité des protéines en fonction des peptides, puis ré-estime la probabilité des peptides d'appartenir aux différentes protéines Utilisation de données supplémentaires ➢ ➢ ➢ ➢ données brutes MS/MS (récupérer des données non sélectionnées au départ en fonction des identifications d'une première passe) données quantitatives (les peptides appartenant à une même protéine doivent être corrélés) données d'expression : s'appuyer sur des données de transcriptomique interactions protéine-protéine : s'appuyer sur des relations connues (complexes de protéines, ...) Huang et al. Brief Bioinform (2012) 13: 586-614 Inférence des protéines Tenir compte des peptides partagés pour obtenir une liste minimale de protéines identifiées Produire une liste de protéines classée de façon cohérente Même problématique pour les phosphosites De plus ● visualiser les spectres et les valider ● prendre en compte simultanément plusieurs échantillons pour l'identification ● lancer l'identification en batch X!TandemPipeline Regroupement des protéines X!TandemPipeline Principe de parcimonie : ne pas considérer une protéine si son existence dans le mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides Deux niveaux de regroupement : ● sous-groupes : protéines identifiées avec le même set de peptides. Impossible de déterminer laquelle (lesquelles) est présente. Les protéines ne contenant qu'un sous-ensemble sont éliminées. ● groupes : sous-groupes qui contiennent au moins un peptide en commun Regroupement des protéines X!TandemPipeline Principe de parcimonie : ne pas considérer une protéine si son existence dans le mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides Deux niveaux de regroupement : ● sous-groupes : protéines identifiées avec le même set de peptides. Impossible de déterminer laquelle (lesquelles) est présente. Les protéines ne contenant qu'un sous-ensemble sont éliminées. ● groupes : sous-groupes qui contiennent au moins un peptide en commun Protéine A Protéine B Sous-groupe 1 Protéine C Regroupement des protéines X!TandemPipeline Principe de parcimonie : ne pas considérer une protéine si son existence dans le mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides Deux niveaux de regroupement : ● sous-groupes : protéines identifiées avec le même set de peptides. Impossible de déterminer laquelle (lesquelles) est présente. Les protéines ne contenant qu'un sous-ensemble sont éliminées. ● groupes : sous-groupes qui contiennent au moins un peptide en commun Protéine A Protéine B Sous-groupe 1 Protéine C Regroupement des protéines X!TandemPipeline Principe de parcimonie : ne pas considérer une protéine si son existence dans le mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides Deux niveaux de regroupement : ● sous-groupes : protéines identifiées avec le même set de peptides. Impossible de déterminer laquelle (lesquelles) est présente. Les protéines ne contenant qu'un sous-ensemble sont éliminées. ● groupes : sous-groupes qui contiennent au moins un peptide en commun Protéine A Protéine B Sous-groupe 1 Protéine C Protéine D Protéine E Sous-groupe 2 Regroupement des protéines X!TandemPipeline Principe de parcimonie : ne pas considérer une protéine si son existence dans le mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides Deux niveaux de regroupement : ● sous-groupes : protéines identifiées avec le même set de peptides. Impossible de déterminer laquelle (lesquelles) est présente. Les protéines ne contenant qu'un sous-ensemble sont éliminées. ● groupes : sous-groupes qui contiennent au moins un peptide en commun Protéine A Protéine B Sous-groupe 1 Protéine C Protéine D Protéine E Sous-groupe 2 groupe 1 Protéine F Sous-groupe 3 Regroupement des protéines X!TandemPipeline Principe de parcimonie : ne pas considérer une protéine si son existence dans le mélange ne permet pas d'expliquer la présence d'un plus grand nombre de peptides Deux niveaux de regroupement : ● sous-groupes : protéines identifiées avec le même set de peptides. Impossible de déterminer laquelle (lesquelles) est (sont) présente(s). Les protéines ne contenant qu'un sous-ensemble sont éliminées. ● groupes : sous-groupes qui contiennent au moins un peptide en commun Protéine A Protéine B Sous-groupe 1 Protéine C Protéine D Protéine E Sous-groupe 2 groupe 1 Protéine F Sous-groupe 3 Validité biologique du niveau « groupe » Analyse in silico de 26535 protéines de plantes, de numéro EC connu (PlantCyc database) ● ● Trypsinolyse in silico Détermination des groupes de protéines ayant au moins un peptide en commun 600000 500000 12000 2371 79722 805 81288 10000 Frequency 400000 177 3140 3300 8000 300000 200000 337 450791 450791 shared, different EC shared, same EC non shared 6000 4000 100000 2000 0 0 EC 3 first numbers of EC 2.89% des peptides partagés appartiennent à des protéines de différents E.C. 0,98% des peptides partagés appartiennent à des protéines différentes pour les trois premiers numeros E.C. 7717 7717 EC 3 first numbers of EC Group of >1 proteins, different EC Group of >1 proteins, same EC Group of 1 protein 90% des groupes contenant plus d'une protéine contiennent des protéines de même EC number; 95% contiennent des protéines ayant les mêmes trois premiers numéros E.C. Tous groupes compris, 97 et 98% contiennent des protéines de même E.C. ou de même 3 premiers numéros d'E.C. Statistiques sur les regroupements et éliminations Exemple : Un échantillon de protéines de feuilles de maïs, Analyse Shotgun, Q-Exactive Identification par X!Tandem : ● 14381 peptides uniques (p < 0,01) ● Au moins 2 peptides identifiés : 2373 protéines, 4170 peptides. 600 600 500 500 400 400 Frequency Frequency 1505 protéines réparties en 654 groupes et 808 sous-groupes. 300 200 300 200 100 100 0 0 1 2 3 4 5 6 7 Number of sub-groups per group 8 9 10 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930 Number of proteins per sub-group X!TandemPipeline Exemple : ATP-dependent Clp protease AIDLIDEAGSR HIEKDPALER HAQLPDEAK TAIAEGLAQR YTDDALIAAAQLSYQYISDR YRGEFEER GELQCIGATTLDEYRK IDMSEYMEK LIGSPPGYVGYTEGGQLTEAVR NNPCLIGEPGVGK NNPVLIGEPGVGK NTLLIMTSNVGSSVIEK QYFRPEFLNR RPYTVVLFDEIEK RRPYTVVLFDEIEK VPEPTVDETIQILR VVDEGYNPSYGAR AKDINLQVTEK EGDSAIVDVDSDGK IVQGDVPQALTNR LAEEGKLDPVVGR LGHNFVGTEQILLGLIGEGTGIAAK MEETLHTR QLGHNYIGSEHLLLGLLR VIVLNGGSGVAEPLEPALST VNVEIQQAER YGSLNALQR EGDSAIVDVDSEGK EIADIMLQEVFDR FQPVKVPEPTVDETIEILR HQIVETEHMMK ISNGDVPETIEGK ISTGDVPETIEGK ISTGDVPETIEGKK LQHAQVPEEAR MIGETTEAVGAGVGGGSSGNK NPNRPIASFIFAGPTGVGK VIGQDEAVVAISR VLESLGADPNNIR VLESLGADPSNIR VPEPTVDETIEILR YTDEALIAAAK # peptides per protein GRMZM2 GRMZM2 GRMZM2 GRMZM2 AC211513. GRMZM2 GRMZM2 GRMZM2 GRMZM2 GRMZM2 GRMZM5 GRMZM5 GRMZM5 G009443_ G123922_ G162968_ G333795_ 3_FGP003 G001084_ G060561_ G113552_ G130121_ G360681_ G896496_ G896496_ G896496_ P01-13.01 P01-13.02 P01-13.03 P01-13.04 -NA P01-NA P02-NA P01-NA P01-NA P01-NA P04-NA P05-NA P06-NA 1 1 0 0 1 1 0 0 0 0 1 1 1 1 1 0 0 1 1 0 0 0 0 1 1 1 0 1 0 0 1 1 0 0 0 0 1 1 1 1 1 1 1 0 0 1 1 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 1 1 1 1 1 0 0 0 1 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 28 23 6 4 5 17 2 2 3 2 4 4 4 # protein per peptide 7 7 6 6 6 4 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 X!TandemPipeline : les phosphopeptides Identification de sites de phosphorylation : problèmes analogues ● ● ● le phosphopeptide peut être partagé par plusieurs protéines plusieurs phosphopeptides peuvent partager le même site de phosphorylation (miscleavage) plusieurs positions du site de phosphorylation peuvent être trouvées pour un même peptide selon le scan. Au final il faut ● ● regrouper les peptides correspondant à la même région dans une même protéine résumer l'information de position du site de phosphorylation Notion de phospho-island X!TandemPipeline : les phosphopeptides Protéines Phosphopeptides Intégration X!Tandem - X!TandemPipeline X!tandemPipeline permet de lancer le moteur de recherche X!Tandem On peut : ● modifier tous les paramètres de recherche de X!Tandem ● lancer simultanément l'analyse sur plusieurs fichiers ● Interroger simultanément plusieurs databases ● utiliser une database de contaminants, qui seront systématiquement soustraits aux résultats X!TandemPipeline peut aussi être utilisé à partir des résultats d'autres moteurs de recherche. X!TandemPipeline – options de traitement Options à choisir dès le chargement des données d'identification ● ● ● Option « Individual » Traitement de l'ensemble des fichiers soumis indépendamment les uns des autres. Utilisation type : analyse de spots de gels 2D. Option « Combine » Prise en compte des identifications dans l'ensemble des fichiers soumis simultanément pour faire les regroupements. Permet une quantification par comptage de spectres Permet (ou non) la prise en compte de l'ensemble des échantillons dans la phase d'identification des protéines Option « Phosphopeptides » Prise en compte des phosphopeptides uniquement, regroupements en phospho-islands Combiner les résultats obtenus sur un même échantillon X!TandemPipeline considère comme provenant d'un même échantillon tous les fichiers d'identification qui portent le même nom. Cas de figure 1 A partir d'un même fichier de spectres on a interrogé successivement différentes banques de séquences (ex : une banque de la nr et une banque d'EST). On veut construire une liste unique à partir des deux résultats, en éliminant la redondance. Il suffit de donner le même nom (et des suffixes différents) aux deux fichiers : echantillon.EST et echantillon.nr, et de les soumettre ensemble à X!TandemPipeline Cas de figure 2 Au contraire, on veut comparer les résultats de plusieurs interrogations sur un même échantillon (banques différentes, paramètres d'interrogation différentes, moteurs de recherche différents) Il faut leur donner des noms différents (echantillon_tandem.dat, echantillon_mascot.dat) et utiliser l'option combine. Les résultats seront comparés comme s'ils provenaient d'échantillons différents. X!TandemPipeline: workflow Chargement des données Fichiers résultats des moteurs de recherche Filtrage et regroupements automatiques Filtrage par e-value des peptides et protéines Filtrage par regroupements (protein inference) Interventions manuelles Visualisation des données, filtrage en fonction de la qualité des spectres, modification des seuils Actualisation automatique Actualisation des regroupements Export Fichiers tabulés Fichiers xml pour MassChroQ, Fichiers xml pour PROTICdb X!TandemPipeline Entrée : ● fichiers ouverts (mzXML, mzML,...) pour analyse par X!Tandem ● fichiers résultats de X!Tandem ou de Mascot X!TandemPipeline Entrée : ● fichiers ouverts (mzXML, mzML,...) pour analyse par X!Tandem ● fichiers résultats de X!Tandem ou de Mascot X!TandemPipeline Entrée : ● fichiers ouverts (mzXML, mzML,...) pour analyse par X!Tandem ● fichiers résultats de X!Tandem ou de Mascot Sortie : ● ● ● ● ● Liste de protéines filtrées, rangées par groupes et sous-groupes, peptides spécifiques identifiés, probabilités et FDR recalculés Comptage de spectres par protéines (emPAI) Fichiers tabulés Export pour base de données PROTICdb Export pour quantification par MassChroQ