M2 Sciences de la Mati`ere STAGE 2007
Transcription
M2 Sciences de la Mati`ere STAGE 2007
M2 Sciences de la Matière École Normale Supérieure de Lyon STAGE 2007 JOST Daniel M2 Option Physique Dénaturation de l’ADN : au-delà de l’approximation à deux états Résumé : Une compréhension quantitative de l’association des bases de l’ADN ou de l’ARN est nécessaire pour l’étude de nombreux processus biologiques (transcription, réplication, repliement et interférence de l’ARN) ainsi que pour le développement d’applications nanobiotechnologiques (puces ADN, auto-assemblage d’ADN). Depuis plus de quarante ans, deux modèles tentent d’expliquer ce phénomène (le modèle plus proche voisin pour les oligomères courts et le modèle Poland-Scheraga pour les polymères). Cependant des expériences récentes sur la dénaturation d’oligomères longs ont jeté un doute sur l’applicabilité des descriptions standards dans les cas où la double-hélice s’ouvre partiellement. Ici, nous présentons un modèle de type Poland-Scheraga adapté d’un modèle sur réseau récemment développé qui unifient toutes les échelles de longueur. Afin de prendre en compte les effets électrostatiques dûs à la présence de sel dans les solutions d’ADN, nous introduisons une nouvelle correction en sel semi-phénoménologique dépendante de la nature et de l’environnement local de chaque paire de bases. Nous montrons que le pouvoir de prédiction de notre modèle est bon et permet l’étude de la nucléation des bulles dans les oligomères. Enfin, nous discutons l’influence des erreurs et de la paramétrisation sur nos résultats. Le modèle proposé assure ainsi un traitement unifié des oligo- et polymères dans toute la gamme de longueur et de concentration en brins et en sel. Laboratoire de Physique de l’ENS Lyon, UMR 5672 CNRS 46, Allée d’Italie 69007 LYON, FRANCE http ://www.ens-lyon.fr/PHYSIQUE/ Maı̂tre de stage : Prof. Ralf Everaers - 04-72-72-88-52 - [email protected] Du 01-04-2007 au 31-07-2007 Table des matières Introduction 3 1 État de l’art 1.1 Équilibre d’association - Définitions . 1.2 Modèle plus proches voisins . . . . . 1.3 Modèle de Poland-Scheraga . . . . . 1.4 Modèle sur réseau . . . . . . . . . . . . . . 5 5 6 6 8 2 Modèle utilisé et Méthodes 2.1 Modèle de Poland-Scheraga modifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Correction dûe au sel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Prise en compte des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 11 12 3 Résultats 3.1 Correction en sel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Pouvoir de prédiction, comparaison avec l’expérience . . . . . . . . . . . . . . . . . . . . . . . 3.3 Structure interne, nucléation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 14 15 4 Discussion 4.1 Dépendance en sel 4.2 Rôle des erreurs . . 4.3 Nucléation . . . . . 4.4 Paramétrisation du 19 19 20 20 21 . . . . . . . . . . . . . . . modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion 23 Annexes 24 A Algorithme de Fixman-Freire A.1 Simplification . . . . . . . . . . . . A.2 Approximation de Fixman-Freire . A.3 Conditions initiales des récurrences A.4 Observables . . . . . . . . . . . . . A.5 Algorithme . . . . . . . . . . . . . . . . . . 24 24 24 25 26 26 B Paramétrisation du modèle NN B.1 Décomposition en valeur singulière . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2 Méthode Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.3 Variables indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 27 27 27 C Modélisation de la nucléation C.1 Étude des T ∞ en fonction de m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.2 Étude de nmin en fonction de m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 29 D F -test 29 Références 30 Remarques 31 Remerciements 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fig. 2 – Structure secondaire (en bas à gauche) et structure tertiaire (en haut à droite) d’un brin d’ARN [18] Fig. 1 – Composition du double-brin d’ADN [2] Introduction L’étude de l’ADN (acide désoxyribonucléique) et la compréhension de son important rôle en biologie est un des sujets majeurs de recherche en biophysique. Chaque simple brin d’ADN est une chaı̂ne de polymère composée d’un squelette sucre-phosphate auquel sont attachées diverses bases azotées (adénine A, guanine G, thymine T ou cytosine C) ayant la possibilité de former des liaisons hydrigènes entre bases complémentaires. Les deux simples brins peuvent alors formés un complexe en double-hélice. Chaque base d’un simple brin forme, avec la base conjuguée de l’autre brin, une paire de Watson et Crick [1] (A − T ou G − C) assurant ainsi la stabilité du complexe (Fig.1). Des processus biologiques clés tels que la transcription ou la réplication de l’information génétique requièrent l’ouverture de la double-hélice d’ADN [3]. Ainsi une modélisation performante de ce phénomème permettrait une compréhension approfondie de son implication en biologie. La dénaturation thermique, qui consiste à chauffer une solution d’ADN pour forcer les deux brins à se séparer, est un des moyens existant pour étudier cette ouverture. L’échelle à laquelle la molécule est considérée permet de sonder les différentes propriétés de la dénaturation : que ce soit au niveau microscopique avec des modèles quantiques tout-atome par exemple, ou que ce soit au niveau mésoscopique avec des modèles de type coarse-grained(Peyrard-Bishop [4], Poland-Scheraga [5], NN [8] etc.). Parmis ces différents modèles, nous nous intéresserons uniquement aux modélisations mésoscopiques considérant des intéractions de type Ising. Dans ce cadre là, depuis plus de 40 ans, deux descriptions standard de la dénaturation thermique de l’ADN existent : le modèle plus proches voisins (NN) qui décrit quantitativement la fusion des oligonucléotides courts (10-20 paires de bases (bp)) [6, 7, 8, 9] ayant une transition à deux états entre un complexe en double-hélice totalement fermé et deux simples brins séparés ; le modèle de Poland-Scheraga (PS) qui s’intéresse aux polynucléotides (∼ 1000 bp) [5, 10] au niveau de leur structure secondaire (Fig.2) comme une alternance de boucles et de parties en double-hélice. Au fur et à mesure des avancées technologiques et des améliorations expérimentales, de nombreux efforts ont été consentis pour paramétrer ces deux modèles [11, 12, 13, 14, 15, 16, 17] (en particulier les paramètres communs de gain d’énergie libre par paire de bases voisines) afin qu’ils puissent fournir des résultats quantitatifs sur la fusion d’ADN. Il y a une dizaine d’année, SantaLucia dans Ref.[8] concluait à propos du modèle NN :”Un jeu 3 de paramètres NN unifié est maintenant valable afin de faire des prévisions précises sur la thermodynamique des ADN poly- et oligonucléiques”. Néammoins, dernièrement, des nouvelles techniques expérimentales de trempes [19, 20] permettent de mesurer le degré d’association Θass en plus de la traditionnel mesure en UV de la fraction de paires de bases fermées Θ. Pour des longs oligomères, Zeng et Zocchi [19, 20] montrent que le modèle NN n’est plus valide, mais comme les courbes de fusion dépendent toujours de la concentration totale en brin, l’approche standard PS (qui suppose Θass = 1) ne permet une bonne description de ces séquences. En plus, cette zone de longueur où les formalismes habituels échouent dans la compréhension des phénomèmes est d’une importance cruciale dans le développement de nombreuses bionanotechonogies telles que les puces ADN [21] ou l’autoassemblage d’ADN [22] ainsi que dans l’étude d’applications biologiques comme l’interférence ARN [23, 24]. C’est ainsi que récemment [25], ces modèles standards ont été complétés par un modèle sur réseau qui réinterprète les termes de bords dans le modèle PS et conduit à un traitement unifié de la dénaturation des oligo et polynucléotides. En sus, il donne accès à la structure tri-dimentionelle (tertiaire, Fig.2). Le prix à payer est une augmentation énorme du temps de calcul des simulations. Ainsi, afin de réduire ce temps, nous avons adapté le modèle PS au modèle sur réseau (modèle MPS). Notre modèle intègre donc toutes les échelles de longueur de séquences et les effets associatifs dûs á la concentration finie en ADN dans les solutions. Pour parfaire ce modèle nous avons en plus incorporer dans notre description une correction en sel unifiée semi-phénoménologique tenant compte de la nature et de l’environnement local de la paire de bases dans le but de remplacer la correction standard empirique de SantaLucia [8] qui est indépendante de la paire de base et qui fait une distinction entre les deux échelles de longueurs que sont les oligomères et les polymères. Ainsi, reproduire des données expérimentales sur différentes gammes de longueurs (en particulier les séquences de tailles intermédiaires) et de concentration en ADN et en sel est un test crucial pour la validation de l’approche unifiée que nous proposons. Néammoins, comme Dimitrov et Zuker [26] le remarquent, il est possible que les paramètres standards soient mal estimés. Il est donc intéressant de se pencher sur la paramétrisation de notre modèle (correction en sel, facteurs entropiques et enthalpiques, etc.) à partir des données expérimentales et des erreurs statistiques qui en découlent pour estimer l’impact de la paramétrisation sur les résultats issus des simulations. D’où, après avoir fait, dans une première section, un bref rappel sur les définitions utilisées et les modèles existants, nous décrirons dans la section 2 le modèle MPS et nous introduirons une nouvelle correction en sel. Dans la troisième section, nous présenterons les résultats obtenus par les simulations de MPS en comparaison avec les données expérimentales (influence de la concentration en sel, courbes de fusion) et nous étudierons en détail la nucléation de bulles dans les oligomères. Enfin, ces résultats seront discutés dans la section 4 avec notamment une réflexion sur la paramétrisation de notre modèle. 4 1 1.1 État de l’art Équilibre d’association - Définitions On étudie la dissociation d’un brin d’ADN considéré comme un complexe AB en équilibre avec deux simples brins A et B. Chaque brin est constitué de N bases (A,G,T ou C). Les observables expérimentales examinées ici ([8, 27, 19]) sont la fraction totale de paires de bases fermées Θ(T ) et le degré d’association Θass (T ) pour l’équilibre chimique entre l’état ouvert (les 2 brins séparés) et l’état fermé (au moins une paire de bases fermées) AB ⇀ ↽A+B (1) Ainsi si on introduit la fraction interne de paires fermées Θint (T ), on peut relier ces observables ensemble 1 1 Θ(T ) = Θint,AB (T )Θass (T ) + Θint,A (1 − Θass ) + Θint,B (1 − Θass ) (2) 2 2 Dans la suite, on négligera l’association interne des simples brins et on supposera que Θint,A = Θint,B = 0. On définit également les concentrations respectives cAB (T ), cA (T ) et cB (T ) en AB, A et B et la concentration totale constante cT = 2 cAB (T ) + cA (T ) + cB (T ), cA (T ) = (1 − Θass (T ))cT cA (T ) = (1 − Θass (T ))cT c (T ) = Θ (T ) c /2 AB ass T (3) La loi d’action de masse de l’équilibre chimique donne ∆G0 cA cB = exp cAB c0 kB T (4) où c0 est une concentration de référence (en général 1 M) et ∆G0 est la différence d’énergie libre entre le complexe et les simples brins à la concentration de référence. Eq.(3),(4) permettent de déduire Θass (x) = 1 + x − q x (2 + x) (5) 0 avec x = ccT0 exp ∆G kB T . Par exemple pour des brins très longs, ∆G0 → −∞ et donc Θass = 1, ainsi Θ = Θint , les effets associatifs ne jouent alors aucun rôle lors de la transition. Au contraire, pour des concentrations très faibles, x → +∞ et Θass tend rapidement vers 0, la transition est purement à deux états et Θ = Θass . L’énergie libre ∆G0 est égale à la différence FAB − FA − FB des énergies libres internes du double ou des simples brins ajoutée à l’énergie libre de mélange Fmix = −T Smix avec le solvant. Pour estimer cette entropie de mélange [25], on part de l’expression donnée par Rubinstein et Colby [28] pour le mélange de 2 espèces E1 et E2 Fmix /V = kB T 1−Φ Φ log Φ + log(1 − Φ) vE1 vE2 (6) où Φ est la fraction volumique en espèce E1 et vEi le volume molaire de l’espèce i. Dans la limite de forte dilution (Φ << 1) et en supposant que les volumes molaires des espèces présentes s’ajoutent, ie, vAB = vA + vB , on en deduit, Fmix = −kB T log (e c0 vAB /4) ≈ −kB T log (0.4371(N − 1)) 5 (7) Fig. 3 – Exemple de calcul de l’énergie libre dans le modèle NN (tiré de [8]) Fig. 4 – Illustration du modèle sur réseau issue de [25] On introduit également la notion de température de fusion Tm définie par Θass (Tm ) = 1/2 ou Θ(Tm ) = 1/2 (définitions équivalentes pour des transitions à deux états). Par exemple dans le cas où ∆G0 peut se décomposer sous la forme ∆G0 = ∆H0 − T ∆S0 avec ∆H0 et ∆S0 indépendants de la température, on a directement à partir de Eq.(5) Tm = ∆H0 ∆S0 + kB log(cT /(α c0 )) (8) avec α = 1 pour des brins autosimilaires (A = B) et α = 4 sinon. La détermination de FAB , FA et FB , ainsi que de Θint nécessite une description et une modélisation du complexe et des simples brins. Décrivons les principaux modèles existants. 1.2 Modèle plus proches voisins Dans le modèle des plus proches voisins (NN) [8], la formation du duplexe est la conséquence d’un gain d’énergie libre ∆h0N N − T ∆s0N N par paire de bases dépendant de la séquence et d’une énergie libre d’initiation ∆h0ini − T ∆s0ini (voir Fig.3). Ce modèle néglige toutes fluctuations et considère donc une transition à deux etats, entre le double brin et les simples brins. Ainsi Θint,AB = 1, donc Θ = Θass et ∆G0 = ∆H0 − T ∆S0 . Ce modèle s’applique très bien aux oligomères courts et permet de remonter, à partir des températures de fusion à différentes concentrations, aux paramètres ∆h0N N et ∆s0N N (voir Tab.1). 1.3 Modèle de Poland-Scheraga Le principal défaut du modèle précédent est la non prise en compte des fluctuations qui commencent à être importantes pour des oligomères longs ( ∼ 100 bp) ou des polymères courts. Le modèle de Poland-Scheraga (PS) [5, 10] décrit la dénaturation de l’ADN comme l’enchaı̂nement des fusions coopératives de divers domaines de la séquence. La stabilité de ces domaines est déterminée par leurs compositions mais aussi par leurs emplacements le long du brin (voir Fig.5) : bulles ou boucles internes (cas 1 et 3), fins libres (cas 2) ou mélange des deux (cas 4). Ainsi, le processus de dénaturation est hautement coopératif, ie, l’état de conformation de chaque paire de bases dépend fortement de l’état de ses voisins. De plus, ce modèle suppose que toutes les différentes transitions sont à l’équilibre et réversibles. 6 Sequence AA/TT AT/TA TA/AT CA/GT GT/CA CT/GA GA/CT CG/GC GC/CG GG/CC ini avec G/C ini avec A/T γS (cal/mol/K) ωE (cal/mol/K) Ks1 (K−1 ) Ks2 (K−1 ) Ks3 (K−1 ) ∆h0N N (kcal/mol)a −7.93 ± 0.31 −7.15 ± 0.78 −7.23 ± 0.82 −8.44 ± 0.77 −8.47 ± 0.66 −7.73 ± 0.66 −8.29 ± 0.61 −10.54 ± 0.82 −9.81 ± 0.73 −8.02 ± 0.68 0.08 ± 0.99 2.22 ± 1.02 −9.84 ± 1 −2.14 ± 0.2 (4.29 ± 0.29).10−5 (−3.95 ± 0.16).10−5 (9.4 ± 0.29).10−6 ∆s0N N (cal/mol/K)a −22.4 ± 1.0 −20.2 ± 2.6 −21.6 ± 2.7 −22.9 ± 2.5 −22.9 ± 2.2 −20.9 ± 2.2 −22.6 ± 2.0 −27.1 ± 2.7 −24.6 ± 2.4 −19.6 ± 2.3 −2.2 ± 3.4 4.3 ± 3.3 Tab. 1 – Paramètres standard des modèles NN et MPS et leurs déviations standard.a pour une concentration en sel de 1 M. Cas 1 N Cas 2 Cas 3 N N Cas 4 M Fig. 5 – Exemples de conformations pour le modèle PS. 7 N M Afin de calculer les observables standard (voir Sec.1.1), les propriétés thermodynamiques de chaque conformations doivent être explicitées. En prenant comme état de référence le double-brin totalement fermé, les différents cas possibles sont caractérisés par leur fonction de partition propre Zi qui est le reflet du nombre de micro-états représentant chaque conformation. Ainsi, pour une bulle interne (cas 1) de taille N Z1 (N ) = σN −c exp (β∆G) (9) où σ (la coopérativité) et N −c (c ∼ 1.76) reflètent l’effet entropique des intéractions coopératives ; ∆G représente la perte enthalpique causée par l’ouverture de la boucle, elle est calculée à partir des données NN (voir Sec.1.2). De même pour une fin libre (cas 2) de taille N , on a √ ′ (10) Z2 (N ) = σN c exp (β∆G) avec c′ = 0.16. Les autres conformations possibles sont construites à partir des deux cas précédents, donc par exemple, on obtient Z3 (N, M ) = Z1 (N ) × Z1 (M ) ou Z4 (N, M ) = Z1 (N ) × Z2 (M ). Le modèle PS sera décrit plus en détail dans la section 2.1. 1.4 Modèle sur réseau Le modèle sur réseau [25] est une variante du modèle proposé par Causo et al. [29]. Le brin d’ADN est modélisé par une marche aléatoire auto et mutuellement évitante sur un réseau cubique simple. Les positions des bases sont associées aux nœuds du réseau. Deux marches sont autorisées à se chevaucher sur un nœud si et seulement si elles peuvent former une paire de Watson et Crick (orientation antiparallèle, bases complementaires) (voir Fig.4). On définit alors une énergie libre d’appariement dépendante de la nature des bases ǫ(T ) = ǫH − T ǫS et une énergie libre de fin ω(T ) = ωH −T ωS . Afin de prendre en compte de l’ouverture de la double hélice, on assigne également une énergie libre interfaciale γ(T ) = γH − T γS . Enfin, pour tenir compte de la rigidité de la double hélice, on inclut une énergie libre de pénalité κ(T ) = κH − T κS . Ainsi, – pour un double-brin composé d’une seule base et totalement fermé Zds = 6 × exp (−β(N ǫ + 2ω)) (11) – pour un simple libre Zss = 6 × 0.2µN N c ′ (12) avec µ = 4.68 pour un réseau cubique [30] et c′ = 0.16 (le nombre de chemins auto-évitants ′ (SAW) de taille N a pour forme asymptotique µN N c ). – pour une fin libre de taille N ′ ′ Zf e = 4 × 1.2 (2N )c µ2N exp(−βγ) exp(βN ǫ) = Kf N c µ2N exp(−βγ) exp(βN ǫ) (13) – pour un double brin infiniment long avec une bulle de taille N Zl = 16 × 0.16µ2N N −c exp(−2βγ) exp(βN ǫ) = Kl µ2N N −c exp(−2βγ) exp(βN ǫ) (14) Cette expression vient du nombre de polygones pour une marche auto-évitante de taille 2N . Pour paramétrer le modèle, il faut comparer ces cas limites avec ceux obtenus pour les modèles NN et PS. D’où, pour le double-brin fermé ∆G0 = FAB − FA − FB + Fmix = N (ǫH − T ǫS ) + 2(ωH − T ωS ) − kB T log(6) N +2kB T log(1.2µ N 8 ζ−1 ) − kB T log(0.4371N ) (15) (16) (17) or dans le cadre du modèle NN ∆G0 = N (∆h0N N − T ∆s0N N ) + 2(∆h0ini − T ∆s0ini ) (18) En égalisant, on obtient ǫH = ∆h0N N ǫS = ωH = ωS = (19) ∆s0N N + 2kB ∆h0ini ∆s0ini + ωE log µ = ∆s0N N + 3.0kB (20) (21) (22) avec ωE = −1.08 kB la correction entropique de mélange, calculée pour des oligomères de taille typique 10 bp utilisés dans les expériences de paramétrisation. En ce qui concerne γ, en égalisant Eq.(14) avec Z1 du cas 1 dans Sec.1.3, on obtient σ = Kl exp(−2βγ) (23) −4 γ(T ) = 4.96 kB T pour σ = 1.26.10 (24) L’énergie libre de rigidité κ peut être relié à la longueur de persistence de l’ADN [25], ainsi par exemple pour une longueur de persistence de 300 bp, on a κ = 1900 kB K. 2 Modèle utilisé et Méthodes Le modèle sur réseau, en plus d’unifier les modèles NN et PS, rend compte de la forme tridimensionelle du brin d’ADN. Le prix à payer est une augmentation importante du temps de calcul. Afin de réduire le temps de simulation, nous avons adapté le modèle PS au modèle sur réseau, appelé modèle MPS. 2.1 Modèle de Poland-Scheraga modifié Originellement, le modèle PS s’interesse à des relations de récurrence sur des probabilités thermodynamiques conditionelles. Récemment [26, 31, 32], des relations de récurrence sur les fonctions de partition ont été développées pour étudier la dénaturation de l’ADN. Suivant la procédure défini par Garel et Orland [31], on peut définir des nouvelles relations de récurrence adaptées au modèle sur réseau. Ces relations sont un peu plus compliquées que celles dans [31] car nous considérons que la longueur minimale d’une section hélicoidale est de 2 bp au lieu de 1 bp dans [31]. On modélise un simple brin comme une chaı̂ne de N bases A,T ,C ou G, numérotés de 1 à N : 5′ − 1 − 2 − 3 − ... − N − 3′ . On suppose que les deux simples brins sont complémentaires (pas de mismatches), on ne tient pas compte d’éventuelles formations d’épingles ou de renflements. La base i du brin A ne peut s’apparier qu’avec la base N − i + 1 du brin B. On considère l’état double brin totalement fermé comme état de référence. Tout d’abord, on regarde la fonction de partition en sens direct Zf (α + 1) comptant le nombre d’états de la partie du brin compris entre les bases 1 et α + 1, les bases α et α + 1 étant fermées. Il y a trois moyens d’avoir ces deux bases fermées : soit la paire (α − 1,α) est appariée, soit il y a une boucle commencant de la base α′ et se finissant en α, soit le complexe est complètement ouvert de la base 1 à la base α (voir Fig.6) Zf (α + 1) = Zf (α) + Kl e−2βγ −βγ +Kf e α−2 X α′ =2 c′ βg(1,α−1) (α − 1) e 9 ′ (α − α′ )−c eβg(α ,α−1) Zf (α′ ) (25) α′ α+1 α+1 = + 1 1 α+1 + 1 α α+1 1 Fig. 6 – Représentation graphique de la relation de récurrence pour Zf (α + 1) (Eq.(25)) + .....+ + Z = N 1 N-1 1 1 2 Fig. 7 – Représentation graphique de la fonction de partition thermodynamique Z avec g(α′ , α) = αi=α′ Gi,i+1 , Gi,i+1 l’énergie libre d’appariement de la paire (i, i + 1), Kl = 2.56 et Kf = 5.36 des facteurs géométriques, c et c′ tiennent compte des intéractions stériques des boucles ou des bouts libres. La valeur de c est encore en discussion [10, 33, 34, 35, 36], et est égale à 2.15 pour des boucles intéragissant entre elles et à 1.764 pour des boucles isolées. La valeur de c′ est issue de la théorie des polymères [37] et vaut 0.16. De manière analogue à Zf , on introduit la fonction de partition en sens inverse Zb (α) estimant le nombre d’états de la partie comprise entre les bases α et N , la base α étant fermée. Ainsi, P N −1 X Zb (α) = Zb (α + 1) + Kl e−2βγ ′ α′ =α+2 c′ (α′ − α)−c eβg(α,α −1) Zb (α′ + 1) +Kf e−βγ (N − α) eβg(α,N −1) (26) Enfin, on considère Zsf (α) la seconde fonction de partition en sens direct, débutant à la base 1 et se finissant à la base α, la base α étant fermée et la base α − 1 étant ouverte. D’où Zsf (α) = Kl e−2βγ α−2 X ′ (α − α′ )−c eβg(α ,α−1) Zf (α′ ) α′ =2 −βγ +Kf e ′ (α − 1)c eβg(1,α−1) (27) Avec ces trois fonctions de partition, on peut exprimer la probabilité p(α) pour que la base α soit fermée Zsf (α)Zb (α + 1) + Zf (α)Zb (α) + 5 e−β(ω1 +ωN ) (28) p(α) = Z avec Z la fonction de partition totale (Fig.7). −βωN Z=e −βγ Zf (N ) + Kf e N −1 X α=2 ζ−1 (N − α) " exp β N −1 X i=α # Gi Zf (α) + 5 e−β(ω1 +ωN ) (29) Le terme 5 e−β(ω1 +ωN ) tient compte du facteur géometrique 6 dans fonction de partition de l’état fermé (voir Eq.(11)). Ainsi on peut exprimer Θint comme la moyenne des p(α) Θint = N 1 X p(α) N α=1 Et FAB = −kB T log Z. 10 (30) Pour décrire les simples brins, on les considère comme des pelottes sans intéraction, ie FA + FB = − N −1 X i=1 ′ Gi − kB T log (1.2)2 (N − 1)2c ) (31) Ainsi, les observables Θass et Θint s’obtiennent en résolvant les relations de récurrence Eq.(25),(26) et (27). Afin d’accélérer la résolution numérique de ce problème, on se doit de simplifier ces relations et d’utiliser une méthode algorithmique efficace : l’algorithme de Fixman-Freire [38, 31] (voir Annexe A) 2.2 Correction dûe au sel Les paramètres du modèle NN sont déterminés expérimentalement à une concentration en sel (N aCl) donnée (1 M pour ceux de Tab.1). Pour tenir compte des effets de la présence ou non de sel dans la solution, il est nécessaire d’inclure une correction des paramètres standard, fonction de la concentration en N a+ . La correction la plus utilisée dans les programmes bioinformatiques de résolution du modèle PS (DINAmelt [32], MELTSIM [39]) est celle donnée par SantaLucia dans Ref.[8] ∆s0N N ([N a+ ]) = ∆s0N N (1M ) + 0.1853 × log[N a+ ] (32) Le principal inconvénient de cette formule est son indépendance vis-à-vis de la paire de base, ie, par exemple la correction en entropie pour la bipaire AT /T A sera la même que la bipaire GC/CG alors qu’elles sont formées de bases azotées différentes. Pour palier à ce manquement, à partir d’une étude plus récente sur les effets du sel faite par Owczarzy et al dans Ref.[27], on a introduit une nouvelle correction en sel. Owczarzy montre que pour des séquences qui ont un comportement à deux états d d(log[N a+ ]) 1 Tm = (Ks1 f (GC) + Ks2 ) + 2 Ks3 log[N a+ ] (33) où Ks1 , Ks2 et Ks3 sont des constantes phénoménologiques (voir Tab.1) et f (GC) est la fraction en GC dans la séquence (par exemple pour AT CGT CT GGA, f (GC) = 5/10 = 0.5). Ainsi, si on suppose que l’enthalpie est indépendente de la concentration en sel [40, 41, 42], comme pour une séquence à deux états 1/Tm = (∆S0 + kB log(cT /(α c0 )))/∆H0 , on a d (∆S0 ) = ∆H0 × (Ks1 f (GC) + Ks2 ) + 2 Ks3 log[N a+ ] + d(log[N a ]) (34) Comme le modèle MPS décrit localement le brin, on applique cette formule non pas à toute la séquence mais à chaque paire de bases. Ainsi, on définit une fraction locale fl (GC) pour chaque paire et, en intégrant par rapport à log[N a+ ], on obtient ∆s0N N ([N a+ ]) = ∆s0N N (1M) + ∆h0N N ((Ks1 fl (GC) + Ks2 ) log[N a+ ] + Ks3 log2 [N a+ ]) (35) Cette équation révèle, comme Eq.(32), l’effet stabilisateur sur l’énergie libre de la hausse [N a+ ], dû à l’élévation de l’écrantage des contre-ions [27, 40]. De plus, comme souhaitée, cette correction tient compte de la nature même de la paire de base et de son environnement local. Le nombre de voisins pris en compte pour le calcul de fl (GC) ne semble pas influer sur les résultats des simulations pour des nombres inférieurs à 5 qui correspond typiquement à la longueur p de Debye dans le solution (λD = ǫ kB T /ρe ≈ 10Ȧ) . Dans nos simulations nous avons fixé ce nombre à 0, ie, pour la bipaire de bases −GT − dans la séquence AT CGTCT GGA, fl (GC) = 0.5. 11 2.3 Prise en compte des erreurs Les paramètres énergétiques et de correction en sel sont déterminés avec une certaine déviation standard. En effet, la dispersion des données expérimentales autour des valeurs moyennes entraı̂ne l’apparition d’une erreur statistique. La prise en compte de ces erreurs nous permettra en plus d’estimer des barres d’erreur pour les résultats issus de nos simulations. La relation entre les dévations standard des paramètres et celles des observables calculées (Θ, Tm , etc.) n’étant pas, a priori, triviale, pour évaluer les barres d’erreurs, on autorise les paramètres à fluctuer de manière gaussienne autour de leurs valeurs moyennes. En ce qui concerne, les paramètres NN, Allawi et SantaLucia [14] donnent les déviations standard pour ∆h0i,j et ∆s0i,j (i, j ∈ {A, T, G, C}). Les corrélations entre les différents paramètres (par exemple la corrélation entre ∆h0i,j et ∆s0i,j pour une même paire est supérieure à 99%) ne permettent pas d’effectuer des tirages aléatoires indépendants sur chacune des variables. Néammoins, la donnée de la matrice de covariance permettrait de définir des variables indépendantes, fonctions des ∆h0i,j et ∆s0i,j . Malheureusement, Allawi ne la donne pas. Ainsi, c’est pour avoir accès à cette matrice que nous avons refait la minimisation effectuée par Allawi pour obtenir les paramètres NN avec les mêmes séquences et les mêmes techniques de minimisation (décomposition en valeurs singulières, voir Annexe B.1) et d’évaluation des erreurs (méthode Bootstrap, voir Annexe B.2). Les paramètres trouvés sont proches de ceux donnés par Allawi, mais par contre les déviations standard calculées sont supérieures à celles trouvées par Allawi. Cet écart vient de la sous-évaluation des erreurs dûe à un trop faible nombre d’essais dans la méthode Bootstrap (dans Ref.[14], seulement 30 essais ont été effectués alors que notre étude montre que la convergence de la matrice de covariance vers sa valeur finale nécessite plus de 50 000 essais). Cette parametrisation donne accès à la matrice de covariance qui va nous permettre de trouver des variables indépendantes, fonctions linéaires des ∆h0i,j et ∆s0i,j (voir Annexe B.3). Concernant σ (ou γS ≡ −γ/T ), sa valeur ne semble pas bien évaluée [35, 36] ; idem pour ωE . Ainsi, on va supposer pour ces paramètres une déviation standard de 30%. 3 3.1 Résultats Correction en sel La figure 8 compare les températures de fusion expérimentales et calculées avec le modèle MPS des 92 oligomères courts (10 à 30 bp) utilisés par Owczarzy et al dans Ref.[27] pour déterminer Eq.(33). Ces brins d’ADN ont une transition à deux états. Sur le graphique figure aussi les barres d’erreurs théoriques obtenues grâce à l’analyse des erreurs faite dans la section 2.3. On observe que quelque soit la concentration en sel, les points sont regroupés autour de la bissectrice : il n’y a pas de concentration privilégiée pour laquelle la correction en sel serait meilleure. Afin de quantifier les écarts avec les expériences et de pouvoir comparer avec la correction de SantaLucia (Eq.(32), on évalue l’écart entre simulations et expériences en calculant la différence absolue moyenne < ∆Tm > définie par 1 X exp sim |Tm − Tm | (36) < ∆Tm >= N i Avec cette correction en sel, on trouve < ∆Tm >= 1.6K alors qu’avec la correction de SantaLucia on obtient < ∆Tm >= 2.5K. Le calcul de < ∆Tm > pour chaque concentration donne des valeurs proches de la moyenne générale et toujours plus faibles qu’avec SantaLucia. Ce résultat garantit l’avantage de la correction de Owczarzy pour les oligomères courts et sa bonne qualité de prédiction. Néammoins, ceci n’est pas très surprenant vu que la paramétrisation 12 370 370 368 360 366 350 364 340 Tm Tsim m 362 330 320 360 358 310 356 300 354 290 352 280 280 290 300 310 320 330 340 350 360 350 0.35 370 exp Tm 0.4 0.45 0.5 f(GC) 0.55 0.6 0.65 Fig. 9 – Températures de fusion calculées pour 5 hétéropolymères (10000 bp) de fraction f (GC) différentes, avec [N a+ ] = 74.5 mM (noir) et [N a+ ] = 220 mM (bleu), avec comme correction en sel Eq.(32) (carrés) ou Eq.(35) (points). Les lignes pointillées représentent la relation empirique donnée par Frank-Kamenetskii et al [43, 44] pour les AT + f (GC)(T GC − longs polymères : Tm = Tm m AT ) avec T AT = (355.55 + 7.9 log[N a+ ]) K Tm m GC = (391.55 + 4.89 log[N a+ ]) K. et Tm Fig. 8 – Températures de fusion calculées sim en fonction de celles expérimentales Tm exp pour 92 séquences (c −6 Tm T = 2.10 M) à 5 concentrations différentes en sel : 69 mM (orange), 119 mM (bleu foncé), 220 mM (cyan), 621 mM (noir) et 1.02 M (violet). Les points verts sont représentatifs des barres d’erreurs théoriques. 13 1.2 1 1 0.8 0.8 ass 1.2 1−Θ 1−Θ,1−Θ 0.6 0.4 0.6 0.4 0.2 0.2 0 0 −0.2 280 290 300 310 320 330 340 −0.2 300 350 310 320 330 340 350 T(K) T(K) Fig. 11 – Courbes de fusion 1 − Θ et 1 − Θass pour L19AS2 (noir) et L60B36 (rouge) dans une solution saline ([N a+ ] = 50mM) à cT = 2.10−6 M. Les profils expérimentaux 1 − Θ (cercle) et 1 − Θass (point) sont très éloignés des profils simulés (lignes pointillées et solides). Les courbes expérimentales ont été transformées suivant la procédure définie par Eq.(1) dans Ref.[45]. Fig. 10 – Courbes de dénaturation pour des duplexes courts (cT = 2.10−6 ) dans une solution de 69 mM en N a+ :10-mer, ATCGTCTGGA (bleu) ; 20-mer, TACTTCCAGTGCTCAGCGTA (rouge) ; 30-mer, TCGGAGAAATCACTGAGCTGCCTGAGAAGA (noir). Les points représentent les données expérimentales et les lignes sont issues des simulations. de Ks1 , Ks2 et Ks3 a été obtenue à partir d’un large échantillon d’oligomères courts. Les effets de la localisation de la correction en sel sont plus visibles pour des séquences n’ayant pas de transition à deux états. La figure 9 montre que l’on arrive à reproduire de manière quantitative les équations de Frank-Kamenetskii [43, 44]. Ceci confirme les observations faites sur les ADNs courts et assure sa validité sur toute la gamme de longueur de brin. Par contre, la correction de SantaLucia montre ici ses limites pour les polymères avec une pente d’évolution de Tm plus faible et un écart aux droites de Frank-Kamenetskii plus important. Ainsi à partir de paramètres phénoménologiques (les {Ksi }) complétés d’un modèle de physique statistique, on arrive à décrire les effets du sel indépendamment de la longueur de l’ADN. 3.2 Pouvoir de prédiction, comparaison avec l’expérience La section précédente semble indiquer que le modèle MPS a un bon pouvoir de prédiction pour les oligomères courts (confirmée par Fig.10) et les polymères longs. Qu’en ait-il des longueurs intermédiaires où il n’y a pas de transition à deux états ? La figure 11 compare les courbes de dénaturation 1 − Θ et 1 − Θass obtenues expérimentalement et numériquement pour deux séquences étudiées par Zeng et Zocchi [19] (L19AS2 et L60B36). Ces deux brins contiennent chacun une grande région riche en AT : à la fin pour L19AS2 et au milieu pour L60B36 [46]. L’erreur réalisée avec les paramètres standard est ici assez conséquente : alors que numériquement, la dénaturation de ces séquences est quasi à deux états, expérimentalement ce n’est pas du tout le cas (1 − Θ et 1 − Θass sont significativement décalées). D’autres programmes de résolution du modèle PS tels que DINAmelt [32] ou MELTSIM [39] donnent des résultats similaires pour ces séquences courtes avec bulles d’AT . Pourquoi un tel comportement pour ces types d’ADN ? Quel est l’influence des erreurs statistiques sur les courbes de dénaturation ? 14 0.8 0.8 0.7 0.7 0.6 0.6 ass 1 0.9 0.5 Θ Θ 1 0.9 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 280 290 300 310 320 0 280 330 T(K) 290 300 310 320 330 T(K) Fig. 12 – Différentes courbes de dénaturation pour le 10-mer AT CGT CT GGA dans une solution à 69 mM en sel (cT = 2.10−6 ). Les points verts représentent les données expérimentales, les lignes donnent les résultats des simulations pour les paramètres standard (pointillés noirs) ou pour d’autres jeux de paramètres (bleues, rouge et violette). Les courbes rouge et violette soulignent des paramètres qui permettent d’avoir une bulle pour L60B36 (voir Fig.13). La figure 12 montre l’influence des paramètres sur les courbes de fusion. On remarque que la transition est toujours à deux états pour les oligomères courts et qu’un comportement similaire est observé pour les polymères longs (Fig.16). Par contre pour des séquences avec bulles, que ce soit des oligomères longs (Fig. 13, 14) ou des polymères courts (Fig. 15), un large évantail de cas est observé, reflètant la grande sensibilité de ces courbes aux paramètres pour ces séquences. On observe que pour tous (excepté L48AS) il existe des jeux de paramètres situés dans les erreurs statistiques des paramètres standard qui permettent de retrouver leur comportement expérimental. De plus, la concentration en sel influence beaucoup le comportement de ces graphiques. En effet, Eq.35 soulignant l’effet stabilisateur du sel, l’apparition de bulles est encouragée par une faible concentration en sel. Ainsi, en changeant les paramètres, la probabilité d’obtenir des états intermédiaires avec des bulles stables est augmentée en réduisant [N a+ ] (Fig.17). Cet effet est accentué par la non-uniformité de la correction en sel (ie, sa dépendence en la nature de la base) : une paire de base AT est plus destabilisée par une baisse de [N a+ ] que GC (∆Ssel (AT ) ≈ −0.74kB et ∆Ssel (GC) ≈ −0.38kB pour [N a+ ] = 50 mM). Ainsi, l’ouverture d’une bulle riche en AT est de plus en plus envisageable au fur et à mesure que la concentration en sel diminue. 3.3 Structure interne, nucléation Pour comprendre si la sensibilité des oligomères longs et des polymères courts à la variation des paramètres reflète (ou non) une profonde modification de la structure interne de la séquence, on étudie la probabilité individuelle p(α) × Θass qu’a une certaine base d’être fermée. Les différentes cartes de probabilité (Fig.13,14,15) soulignent le fait que la structure interne n’est pas modifiée : ce sont les mêmes ensembles de paires voisines qui s’ouvrent simultanément. Néammoins, le fait de modifier les paramètres autour des valeurs standard modifie les températures de fusion de chaque ensemble de voisins et leur largeur de transition. Ainsi par exemple, pour observer une bulle stable pour L60B36, la température de fusion des bords doit être significativement plus haute que celle de la bulle centrale. Ce problème de stabilité des bulles internes souligne l’existence d’un phénomène de nucléation 15 1 1 0.8 0.8 0.6 0.6 0.6 0.6 Θ 0.4 0.2 0.2 0.2 0 0 310 320 330 T(K) 340 350 310 320 330 340 T(K) 350 60 60 50 0.8 40 40 0.6 30 30 0.4 20 20 0.2 10 310 320 330 340 T(K) 350 10 310 320 330 340 T(K) 0.2 320 330 340 T(K) 350 0 310 360 320 330 340 T(K) 350 40 position in bp 50 position in bp position in bp 0 310 0.4 360 40 0.8 30 30 0.6 20 350 20 0.4 10 10 0.2 320 330 340 T(K) 350 360 320 330 340 T(K) 350 position in bp Θ 0.4 0.4 Θass 1 0.8 Θass 1 0.8 360 Fig. 13 – (Haut) Courbes de dénaturation pour L60B36 (à gauche) et pour L42B18 (à droite) dans une solution à 50 mM en sel (cT = 2.10−6 ). Les points verts représentent les données expérimentales, les lignes donnent les résultats des simulations pour les paramètres standard (pointillés noirs) ou pour d’autres jeux de paramètres (bleues, rouge et violette). Les courbes rouge et violette soulignent des paramètres qui permettent de bien reproduire les données expérimentales de L60B36. (Bas) Cartes de probabilité p(α) × Θass pour les paramètres standards (encadré noir) et pour les paramètres de la courbe violette (encadré violet). 1 1 0.8 0.8 0.6 0.6 0.6 0.6 320 330 340 350 T(K) 360 Θ 0.2 0.2 0 320 330 340 350 T(K) 0 300 360 40 0.8 40 30 0.6 30 20 0.4 20 10 0.2 10 320 330 340 350 T(K) 360 320 330 340 350 T(K) 360 0.4 0.2 310 320 330 T(K) 340 350 0 300 310 320 330 T(K) 340 0.8 15 350 15 0.6 10 10 0.4 5 5 0.2 310 320 330 T(K) 340 350 310 320 330 T(K) 340 position in bp position in bp 0 0.4 position in bp 0.2 0.4 position in bp Θ 0.4 Θass 1 0.8 Θass 1 0.8 350 Fig. 14 – (Haut) Courbes de dénaturation pour L48AS (à gauche) et pour L19AS2 (à droite) dans une solution à 50 mM en sel (cT = 2.10−6 ). Les points verts représentent les données expérimentales, les lignes donnent les résultats des simulations pour les paramètres standard (pointillés noirs) ou pour d’autres jeux de paramètres (bleues, rouge et violette). Les courbes rouge et violette soulignent des paramètres qui permettent de bien reproduire les données expérimentales de L60B36. (Bas) Cartes de probabilité p(α) × Θass pour les paramètres standards (encadré noir) et pour les paramètres de la courbe violette (encadré violet). 16 −dΘint/dT 0.4 0.2 350 360 0.9 0.2 0.8 0.1 0.7 0 340 370 350 position in kbp T(K) 360 4 3 3 0.6 2 0.4 2 0.2 1 1 350 360 370 350 T(K) 360 0.6 0.6 1−Θ 0 340 0.4 0.2 0 340 350 T(K) 360 0.6 0.4 0.2 0 365 390 300 320 340 360 (B2) 0.8 1−Θass 1−Θass 0.8 1 (A ) 2 360 400 (B1) T(K) 1 355 0.4 0 370 350 Fig. 16 – Θ (à gauche) et −dΘ/dT (à droite) pour un brin de 78433 bp (un dixième du génome de Saccharomyces) dans une solution saline à 74.5 mM en [N a+ ]. La ligne pointillée noire représente les paramètres standard, les lignes bleues sont issues de plusieurs jeux de paramètres aléatoires. 0.2 330 345 T(K) <Tbulle >, <Tbord >(K) m m 1−Θ 0.8 360 0.1 370 1 (A1) 350 T(K) 0.5 0.2 Fig. 15 – (Haut) Θint (à gauche) et −dΘint /dT (à droite) pour PN/MCS-13 [47] dans une solution saline à 74.5 mM en [N a+ ] [39, 17]. Les points verts sont les données expérimentales, les lignes donnent les résultats des simulations pour les paramètres standard (pointillés noirs) ou pour d’autres jeux de paramètres (bleues, rouge).(Bas)Cartes de probabilité p(α)×Θass pour les paramètres standard (encadré noir) et pour les paramètres de la courbe rouge (encadré rouge). 1 0 340 0.3 T(K) 0.8 0.1 0.05 0.4 4 0.8 0.2 0.15 0.6 370 T(K) Θ 0 340 1 0.3 position in kpb Θint 0.6 0.4 −dΘ/dT 1 0.8 380 370 360 0.6 0.4 350 0.2 330 340 350 T(K) 360 370 0 300 320 340 340 360 T(K) 0 20 40 60 80 100 n bulle > (lignes pleines) et Fig. 18 – < Tm bord < Tm > (lignes pointillées) pour plusieurs valeurs de m : 20 (rouge), 25 (noir), 30 (vert) et 50 (bleu).([N a+ ] = 0.1 M) Fig. 17 – 1 − Θ et 1 − Θass pour L60B36 (gauche) et L19AS2 (droite) pour différentes concentrations en sel : 0.05 M (rouge), 0.2 M (noir) et 1 M (vert) (cT = 2.10−6 ) ; et pour différents jeux de paramètres : standard (ligne pleine), observation d’une bulle (pointillée). 17 position in bp 30 20 40 30 10 40 10 1 320 340 360 T(K) 80 70 60 50 40 1 320 340 360 T(K) 320 340 360 T(K) 320 340 360 T(K) 1 320 340 360 T(K) Fig. 19 – Probabilité individuelle interne p(α) en fonction de T pour m = 20 et pour plusieurs n (de la gauche vers la droite) : 10, 15, 20, 25, 30. ([N a+ ] = 0.1 M) 420 250 410 200 400 390 nmin T∞ bulle 150 380 370 100 360 350 50 340 330 1 2 10 10 0 3 10 1 2 10 m 10 3 10 m ∞ (m) Fig. 20 – Tbulle obtenue avec MPS (rouge) ou équation modèle (41) (bleu).([N a+ ] = 0.1 M) Fig. 21 – Diagramme de nucléation pour les séquences Gn Am Gn obtenue avec MPS (rouge) ou avec l’équation nmin = 26.86 τn (bleu). La bulle interne est stable dans la partie supérieure et instable dans la partie inférieure. plus ou moins favorisé par les paramètres. Il semble en effet qu’à taille de bulle fixée, il faille une certaine longueur pour les bords afin que l’état intermédiaire avec bulle soit stable. Ainsi, intéressons nous à la série de séquences modèles Gn Am Gn (n, m entiers positifs). Pour estimer la longueur de bord minimum nécessaire, on peut évaluer séparément la température de fusion interne moyenne de la bulle > et des bords < T bord > à partir des probabilités internes individuelles p(α) (Fig.19) bulle < Tm m (attention, dans un premier temps, on s’intéresse uniquement à Θint et p(α), les effets associatifs et bulle > et < T bord > l’influence de cT ne sont pas étudiés). La figure 18 représente l’évolution de < Tm m bulle en fonction de n pour plusieurs m. On remarque que < Tm > converge rapidement vers une ∞ dépendante de m (Fig.20) alors que < T bord > semble converger également vers valeur limite Tbulle m ∞ ∼ 400 K mais de manière beaucoup plus lente et cette température est une valeur limite Tbord bulle > correspond à la stabilisation de la bulle, la taille des indépendante de m. Le plateau de < Tm ∞ est atteinte bords ne jouant plus sur l’ouverture de la région Am . La valeur de n pour laquelle, Tbulle à 99.9% près, est donc la taille minimum des bords nmin (m) pour avoir un état intermédiaire avec bulle stable. La figure 21 montre l’évolution de nmin en fonction de m pour différentes concentration en sel et différentes valeurs de γS . On observe que la diminution de [N a+ ] (ou l’augmentation de γS ) diminue les valeurs de nmin . 18 2 1.9 1.8 1.7 1.5 τ AT/GC 1.6 1.4 1.3 1.2 1.1 1 −3 10 −2 −1 10 10 0 10 + [Na ] Fig. 22 – τAT /GC en fonction de la concentration en sel [N a+ ] (voir Eq.(38)). Le fait de rajouter les effets associatifs (ie de s’intéresser à p(α) × Θass au lieu de p(α)) ne changent pas l’allure des courbes, ni l’influence des divers paramètres. La principale modification est d’augmenter nmin par rapport à précédemment : les effets associatifs ont tendance à séparer le double brin pour des températures inférieures aux températures internes de fusion des différents domaines. 4 4.1 Discussion Dépendance en sel Le principal intérêt de la correction en sel introduit dans la section 2.2 est de dépendre de la nature et de l’environnement local de la paire de bases. Elle permet ainsi de rendre compte quantitativement des effets du sel sur une importante gamme de longueurs de brins. De plus le fait que les bases de type AT soient plus affectées (pertes plus importantes d’entropie) que celles de type GC par une baisse de la concentration en sel, rend les régions riche en AT encore plus instable à des concentrations physiologiques ([N a+ ] ≈ 154 mM). En effet la probabilité d’ouverture Popen (XY ) de 0 la bipaire XY est proportionnelle à exp β∆GN N (XY ) . Donc, par exemple, Popen (AT ) Popen (AT ) ([N a+ ], T ) = (1 M, T ) × τAT /GC ([N a+ ]) Popen (GC) Popen (GC) (37) avec n τAT /GC ([N a+ ]) = exp (0.34∆h0N N (GC) + 3.95∆h0N N (AT ))10−5 log([N a+ ]) o +9.4(∆h0N N (GC) − ∆h0N N (AT ))10−6 log2 ([N a+ ]) (38) Sur la figure 22, on remarque que par rapport à 1 M, la probabilité d’ouverture de AT devient de plus en plus grande par rapport à celle de GC lorsque l’on diminue [N a+ ]. Ainsi, cela favorise l’ouverture des boı̂tes T AT A (promoteurs des gênes dans les cellules eukaryotes et initiateurs transcriptionnels [48]) qui est une étape importante des phases de transcription. De même, cette différence de comportement entre AT et GC peut avoir des applications dans l’étude 19 n+m n Z1 m n Z2 Z3 Fig. 23 – Séquences prises en compte pour simplifier le problème de la nucléation. des cartes de gênes (qui s’appuie sur l’ouverture de domaines riches en AT ) [49] et de la longueur de persistence de l’ADN avec effet bulle [50, 51] en fonction de la concentration en sel. 4.2 Rôle des erreurs La sensibilité des courbes de fusion pour certains types de brins illustrent la difficulté à prédire les comportements des observables pour des oligomères longs ou des polymères courts. Cette difficulté vient essentiellement des erreurs statistiques sur les différents paramètres. Néammoins, l’analyse de p(α) × Θass souligne la robustesse des cartes de probabilité vis à vis des paramètres. Ainsi, comme le remarque Yeramian et Jones [49], de telles considérations de sensibilité ne doivent pas être prises en compte si l’on s’intéresse uniquement au lien entre les cartes de probabilité et les descripteurs structuraux des séquences. Mais cela ne s’applique pas aux courbes de fusion et aux propriétés de la transition double-hélice/simples brins car la température de fusion et la largeur de transition de chaque domaine influencent le comportement général du brin. Ceci est d’autant plus vrai que la taille des régions riches en AT est importante devant celle de la séquence (oligomères longs et polymères courts). 4.3 Nucléation Le phénomène de nucléation réside principalement dans la stabilisation de la bulle par une taille des bords suffisamment importante. En effet, si les bords sont trop petits, l’ouverture de la bulle et des bords vont se faire simultanément et l’on observera une transition entre le double brin totalement fermé et le double brin où seul un bord est clos. Si les bords sont assez grands pour stabiliser la bulle, on aura deux transitions consécutives :tout fermé/bulle ouverte, bulle ouverte/bulle+bord ouverts. Pour étudier la nucléation, on peut donc simplifier le modèle MPS en ne s’intéressant qu’aux séquences de la figure 23. La probabilité pour que la bulle soit fermée est pbulle = Z1 Z1 + Z2 + 2Z3 (39) En supposant que les bords des bulles aient des effets négligeables,on a donc bulle pbulle (< Tm >) = 1/2 (40) On peut alors en déduire une limite pour n → +∞ (voir Annexe C.1) ∞ Tbulle = m HAA m SAA − 2γS + kB log 6 Kl mc avec HAA et SAA , l’enthalpie et l’entropie de la paire de base AA. 20 (41) Sur la figure 20, on remarque que l’équation (41) rend bien compte des résultats issus du modèle MPS pour les grandes valeurs de m. Quand m diminue, les effets de bords des bulles deviennent de ∞ plus en plus importants et l’équation ci-dessus n’est plus valable. On remarque également que Tbulle AA = 335.9 K quand m tend vers l’infini. tend vers la température de fusion par paire de base Tm ∞ Avec le même modèle simplifié, on peut montrer que Tbord est bien indépendant de m et est égale à GG = 400.6 K. Tm Seule Z3 dépend de n (voir Annexe C), c’est donc cette fonction de partition qui va guider bulle > et la convergence vers T ∞ . On peut montrer (voir Annexe C.2) qu’apl’évolution de < Tm bulle paraı̂t dans Z3 une taille caractéristique τn de décroissance τn = −kB mHAA m(HGG SAA − SGG HAA ) − 2HGG γS + kB HGG log 6 Kl mc (42) qui est proportionnelle à nmin . La figure 21 confirme ce lien de proportionnalité pour les grandes valeurs de m, en effet, comme précédemment, pour les petites valeurs de m les effets de bords ne sont plus négligeables et le modèle simplifié est trop élémentaire. Néammoins l’évolution de la courbe reste la bonne. 4.4 Paramétrisation du modèle Générallement, les paramètres énergétiques (∆h0N N ,∆s0N N ) ont été paramétrés grâce à des oligomères courts ayant une transition à deux états. Par rapport au modèle NN, MPS introduit deux nouveaux paramètres ωE et γS . Le manque de données sur des séquences où ces paramètres deviennent importants (oligomères longs type L60B36 ou L48AS et polymères courts) ne permet pas d’estimer de manière précise leur valeur (on a supposé une déviation standard de 30%). Pourtant, pour espérer bien décrire une large gamme de longueurs de brins d’ADN, il faudrait incorporer un maximum de ces séquences dans une paramétrisation plus générale. La sensibilité du comportement de ces séquences est même un avantage pour paramétrer le modèle afin de réduire les erreurs (voir Annexe D). De plus, lors de l’ancienne paramétrisation de la coopérativité σ [17, 36], les valeurs de σ et de c étaient intimement liées (σ = 1.26.10−4 pour c = 2.15, σ = 1.26.10−5 pour c = 1.76). Or, il est clair avec la description faite par Everaers dans [25], que σ et c sont découplés. En effet, la coopérativité est un facteur énergétique de bord alors que c est un exposant universel venant de la théorie des polymères. Ainsi, même si c peut dépendre de la taille et de la composition du doublebrin, σ (ou γS ) doit être indépendant de l’échelle de longueur considérée. Donc, la complexité de la structure secondaire pour certains polymères ne permet pas une bonne estimation de c et donc de σ. D’où l’utilité de se servir de séquences avec une ou deux bulles possibles (pour lesquelles l’exposant c = 1.76 est une approximation correcte) afin de paramétrer σ. D’ailleurs une étude plus approfondie utilisant le modèle sur réseau permettrait de s’affranchir de c et de pouvoir évaluer directement γ. Pour évaluer les paramètres NN, utiliser des séquences ayant une transition purement à deux états est une bonne méthode puisque les autres paramètres (ωE et γS ) n’interviendront pas. De même, on peut imaginer des expériences où ce sont essentiellement γS ou ωE qui influeront sur la modélisation afin de s’affranchir des éventuelles erreurs d’autres paramètres. Il faut également choisir des observables qui seront sensibles aux différents paramètres à évaluer. Par exemple pour paramétrer γS , on propose d’étudier les deux types de séquences Sloop = GP AN GP (1 bulle) et S2loop = G2P/3 AN/2 G2P/3 AN/2 G2P/3 (2 bulles) avec P assez grand pour pouvoir négliger les effets loop pour S de bord (P = 100). On calcule les températures de fusion pour les bulles des 2 brins (Tm loop 2loop pour S et Tm 2loop ) et on étudie la différence entre ces températures pour plusieurs N . La figure 2loop − T loop en fonction de 1/N pour plusieurs valeurs de γ ainsi que les 24 montre l’évolution de Tm S m 21 50 24 45 15 m 22 T2loop − Tloop 20 10 40 m 20 5 35 0 0.01 16 0.02 1/N 0.03 Tloop − Tend m m T2loop − Tloop m m 18 14 30 25 12 20 10 15 8 10 6 0.02 0.025 0.03 0.035 0.04 5 0.045 1/N 2loop − T loop en fonction de 1/N Fig. 24 – Tm m pour plusieurs valeurs de γS : -5.96 (noir), -4.96 (rouge) et -3.96 (vert). 0.02 0.04 0.06 1/N 0.08 0.1 loop − T end en fonction de 1/N Fig. 25 – Tm m pour plusieurs valeurs de ωE : -1.58 (noir), -1.08 (rouge) et -0.58 (vert). barres d’erreurs théoriques dûes aux erreurs sur les paramètres NN. L’écart augmentant avec 1/N , on a intérêt à faire des expériences pour des petites valeurs de N (N doit être suffisamment grand pour observer l’état intermédiaire avec bulle(s)). De plus, on remarque que les erreurs théoriques limitent la précision sur γS de l’ordre de 10%. Néammoins, les erreurs expérimentales étant de l’ordre de 0.3 K, une détermination de γS avec des séquences dans la zone N = 20..40 est tout à fait envisageable. De même, pour paramétrer ωE on peut imaginer s’intéresser aux séquences Sloop et Send = loop − T end en fonction de AN/2 G2P AN/2 avec également P grand. La figure 25 donne l’évolution de Tm m 1/N . On observe que même si, pour des petits N , la courbe semble sensible à ωE , les barres d’erreurs importantes empêchent une détermination trés précise de ωE . Cette différence avec le cas précédent vient ici du rôle important joué par les bords. En effet, les paramètres de bord NN ont une déviation standard assez importante qui se reflète automatiquement sur les barres d’erreurs théoriques. Sans une amélioration des erreurs sur les paramètres NN (et surtout sur ceux d’initiation), il y a peu d’espoir d’arriver à évaluer ωE de manière précise avec cette méthode. 22 Conclusion Pour conclure, nous avons présenté un modèle de type Poland-Scheraga basé sur un modèle sur réseau afin d’étudier la dénaturation thermique de l’ADN. Nous avons également introduit une nouvelle correction en sel agissant sur l’entropie des paramètres énergétiques. Cette correction tient compte de la nature et de l’environnement local des paires de bases. Elle semble adaptée à une large gamme d’ADN allant des oligomères courts aux polymères longs. Notre approche a également permis de prendre en compte les erreurs statistiques nous accordant ainsi d’évaluer des barres d’erreur théoriques données par le modèle. La comparaison avec les expériences montre que, en général, les courbes de fusion sont assez bien reproduites par la simulation grâce notamment à l’étude des erreurs. Le pouvoir de prédiction de notre modèle semble donc bon. Afin de l’exploiter, nous nous sommes intéressés au problème de nucléation des bulles internes dans les oligomères longs. Nous avons ainsi étudié l’influence de la taille des bords sur l’ouverture de la bulle et le rôle de la taille de la bulle sur sa température de fusion. De plus, l’évaluation des erreurs a permis de souligner la grande sensibilité des observables par rapport aux paramètres pour certains types de séquences. Ces brins sont des chaı̂nes assez courtes (oligomères longs, polymères courts) contenant des grandes régions riches en AT . Cette propriété peut alors être utilisée à profit afin d’affiner la paramétrisation du modèle. Par la suite, une fois de nombreuses expériences réalisées sur ce type de séquences permettant d’avoir une bonne statistique, il sera possible de paramétrer de manière plus précise notre modèle. Avec ces nouveaux paramètres, une étude générale plus détaillée des oligo et polynucléotides sera imaginable et un accès aux structures tertiaires (via le modèle sur réseau) sera possible pour un large échantillon d’ADN. 23 Annexes A Algorithme de Fixman-Freire A.1 Simplification Simplifions tout d’abord les relations de récurrence. En posant, Zf∗ (α) Zb∗ (α) ∗ Zsf (α) α−1 X ! (43) ! (44) ! (45) (α − α′ )−c Zf∗ (α′ ) + σ1 (α) (46) = exp −β = exp −β = exp −β Gi Zf (α) i=1 N −1 X i=α α−1 X Gi Zb (α) Gi Zn (α) i=1 On obtient, Zf∗ (α −βGα + 1) = e Zf∗ (α) + σ0 (α) α−2 X α′ =2 Zb∗ (α) = e−βGα Zb∗ (α + 1) + σ0 (α − 1)eβGα−1 ∗ Zsf (α) = Kl e−2βγ (α′ − α − 1)−c e−βGα′ −1 Zb∗ (α′ ) α′ =3 +σ2 (α)eβGα−1 α−2 X N X (47) (α − α′ )−c Zf∗ (α′ ) + Kf e−βγ (α − 1)ζ−1 (48) α′ =2 ′ ′ avec σ0 (α) = Kl e−2βγ e−βGα , σ1 (α) = Kf e−βγ e−βGα (α − 1)c et σ2 (α) = Kf e−βγ e−βGα−1 (N − α)c . A.2 Approximation de Fixman-Freire L’approximation de Fixman-Freire [38] consiste à approcher x−c par une somme finie de termes exponentiels x−c ≈ I X ak e−bk x (49) k=1 Les valeurs de {ak , bk } sont déterminées par résolution d’équations non linéaires [38]. Avec ce développement, on introduit deux nouvelles variables ebi α eµi (α) ≡ e−bi α eνi (α) ≡ α−2 X α′ =2 N X ′ ebi α Zf∗ (α′ ) (50) ′ (51) e−bi α e−βGα′ −1 Zb∗ (α′ ) α′ =α Ainsi Zf∗ (α) = eµi (α) − e−bi eµi (α−1) h Zb∗ (α) = eβGα′ −1 eνi (α) − e−bi eνi (α+1) 24 (52) i (53) (54) Les fonctions nouvellement introduites vérifient alors les relations de récurrence µi (α + 1) = µi (α) + log(A + B + C + D) ′ ′ ′ (55) ′ νi (α) = νi (α + 1) + log(A + B + C + D ) (56) (57) Avec B = e−βGα 1 − e−bi eµi (α−1)−µi (α) i (α) D = σ1 (α)e−µ B ′ = e−βGα−1 1 − e−bi eνi (α+2)−νi (α+1) D ′ = σ2 (α)e−νi (α+1) A = e−bi P C = σ0 (α) Ik=1 ak e−2bk eµk (α−2)−µi (α) A′ = e−bi P C ′ = σ0 (α − 1) Ik=1 ak e−2bk eνk (α+3)−νi (α+1) ∗ Et pour Zsf ∗ Zsf = Kl e−2βγ I X k=1 A.3 ak e−2bk eµk (α−2) + Kf e−βγ (α − 1)c ′ (58) Conditions initiales des récurrences Pour résoudre ces relations de récurrence, on a besoin de connaı̂tre les conditions initiales. Comme Zf∗ (2) = e−β(G1 +ω1 ) Zf∗ (3) Zf∗ (4) (59) −β(G2 +G1 +ω1 ) = e −β(γ+G2 ) + Kf e (60) = e−β(G3 +G2 +G1 +ω1 ) + Kf e−β(γ+G2 +G3 ) + Kf 2ζ−1 e−β(γ+G3 ) (61) on a µi (2) = log(Zf∗ (2)) (62) µi (3) = log(Zf∗ (3) + e−bi Zf∗ (2)) µi (4) = log(Zf∗ (4) −bi +e Zf∗ (3) (63) −2bi +e Zf∗ (2)) (64) De même pour νi Zb∗ (N ) = e−β(ωN ) Zb∗ (N Zb∗ (N (65) −β(GN−1 +ωN ) −βγ − 1) = e + Kf e −β(GN−2 +GN−1 +ωN ) − 2) = e (66) −β(γ+GN−2 ) + Kf e ζ−1 −βγ + Kf 2 e (67) on a alors νi (N ) = log(Zb∗ (N )e−βGN−1 ) νi (N − 1) = νi (N − 2) = −βGN−2 log(e Zb∗ (N log(e−βGN−3 Zb∗ (N − 1) + − 2) + (68) −bi −βGN−1 e e Zb∗ (N )) e−bi e−βGN−2 Zb∗ (N − (69) −2bi −βGN−1 1) + e e Zb∗ (N )) (70) Pour Zn∗ ∗ Zsf (1) = 0 ∗ Zsf (2) ∗ Zsf (3) (71) −βγ (72) c′ (73) = Kf e = Kf 2 e−βγ 25 A.4 Observables En incorporant les nouvelles variables, on obtient p(α) = ∗ (α)Z ∗ (α + 1)e−βGα + Z ∗ (α)Z ∗ (α) + 5 e−β(ω1 +ωN + Zsf f b b PN −1 ′ Pour calculer Θass , on a besoin de FAB et FA + FB FAB = −kB T log Z = − FA + FB = − Ainsi i=1 −β(ω1 +ωN + c ∗ α=2 (N − α) Zf (α) + 5 e e−βωN Zf∗ (N ) + Kf e−βγ et PN−1 N −1 X i=1 N −1 X i=1 Gi − kB T log Z ∗ Z∗ ′ 2 (1.2) (N − 1)2c i=1 Gi ) (74) (75) Gi − kB T log (1.2)2 (N − 1)2c FAB − FA − FB = −kB T log Gi ) PN−1 ′ (76) (77) De plus dans notre modèle, on fixe le paramètre ωE qui est relié à l’entropie de mélange Fmix ≡ ∗ (N − 1)). De la définition de ω [25] on tire −kB T log(vAB E ∗ vAB = Kf 4 × 2c′ 2 1 ′ (N − 1)2c −1 e−2ωE /kB 6 (78) Ainsi on obtient FAB − FA − FB + Fmix = −kB T log(Z ∗ /6) + 2T ωE Soit eβG0 = A.5 6 2ωE /kB e Z∗ (79) (80) Algorithme L’algorithme consiste donc à resoudre les relations de récurrence pour µi et νi , d’en déduire ∗ puis de calculer p(α), Θ et Zsf int et Θass . L’approximation de Fixman-Freire permet ainsi de passer d’une résolution en O(N 2 ) à une résolution en O(N × I). Zf∗ ,Zb∗ B Paramétrisation du modèle NN Pour la détermination des ∆h0i,j et ∆s0i,j du modèle NN, on suit la méthode de Allawi et SantaLucia [14]. On dispose de 108 oligomères courts qui ont une transition à deux états et dont on connait ∆H0 et ∆S0 (voir le Supplementary Materials de [14]). Les données peuvent alors être écrites sous la forme H = P · HNN S = P · SNN (81) (82) où HNN est le vecteur des 12 paramètres ∆h0i,j (idem pour SNN ), P est la matrice de paires, ie, Pij est le nombre de paires j dans la séquence i et H le vecteur des ∆H0 des 108 séquences (idem pour S). 26 B.1 Décomposition en valeur singulière Les solutions des équations (81) et (82) sont obtenues avec la méthode de décomposition en valeur singulière (SVD) [52] qui inverse P et minimise χ2H = X Hi − P Pij HN N,j Si − P Pij SN N,j j σH,i i χ2S = X i j σS,i !2 !2 (83) (84) avec σH,i et σS,i les déviations standards de ∆H0 (5%) et ∆S0 (6%). Soit U (matrice unitaire de taille 108× 108), V (matrice unitaire de taille 12× 12) et W (matrice diagonale positive de taille 108 × 12) les trois matrices obtenues par la décomposition SVD de A (Aij = Pij /σi ) A = U · W · V† (85) alors la minimisation de Eq.(83) et (84) a pour solution HNN = SNN = 108 X U(i) ·bH i=1 108 X i=1 V(i) (86) U(i) ·bS V(i) Wi (87) Wi où U(i) représente la colonne i de U (idem pour V) et bH,i = Hi /σH,i (idem pour bS ). B.2 Méthode Bootstrap Pour évaluer les erreurs statistiques et les corrélations, on utilise la méthode Bootstrap [52, 53]. Elle consiste à choisir aléatoirement 68 séquences (63% du total) sur les 108, de tirer uniformément 40 séquences sur les 108 (il peut donc y avoir des doublons), puis d’effectuer la même minimisation que précédemment sur ces 108 données. Les nouveaux paramètres sont alors distribués autour de la valeur moyenne de manière gaussienne. Ces distributions permettent ainsi de calculer la matrice covariante Nt 1 X (xi − x̄)(yi − ȳ) (88) Cov(x, y) = Nt i=1 B.3 Variables indépendantes Pour pouvoir tirer de manière aléatoire des nouveaux paramètres distribués autour des valeurs standard, il faut tenir compte des corrélations entre paramètres. Donc, supposons que l’on ait n variables {xi } corrélées entre elles, le problème est de trouver n variables {Xi } indépendantes entre elles et fonctions des {xi } afin d’effectuer des tirages indépendants sur les {Xi } puis de revenir aux {xi }. Ainsi, on va chercher les {Xi } sous la forme Xi = X aij xj (89) j On veut que les nouvelles variables ne soient pas corrélées donc on a Cov(Xl , Xk ) = 0 27 ∀l 6= k (90) On a donc n(n − 1)/2 équations et a priori n2 inconnues, {aij }. On peut donc fixer n(n + 1)/2 coefficients : on va supposer que la matrice a est triangulaire supérieure avec des 1 sur sa diagonale. Les équations (90) reviennent alors à résoudre al · Cx · (ak )† = 0 ∀l 6= k (91) avec al est la ligne l de la matrice a et Cx la matrice covariante des {xi }. On résout ces équations ”ligne par ligne”, en débutant par n − 1 puis n − 2,... On obtient ainsi les {aij } qui permettent de calculer X̄i et σXi . Enfin, après avoir effectué un tirage aléatoire sur les {Xi }, on revient aux {xi } en inversant la relation (89). C Modélisation de la nucléation Pour les séquences de la figure 23, on a Z1 = 6 e−2βω Z2 = Kl m (92) −c −2β(ω+γ) e exp {β(m∆GAA + ∆GGA + ∆GAG )} c′ −β(ω+γ) Z3 = Kf (n + m) e C.1 exp {β(m∆GAA + n∆GGG + ∆GGA + ∆GAG )} (93) (94) Étude des T ∞ en fonction de m GG = H Ainsi quand n → ∞, Z3 → 0 sauf quand T = Tm GG /SGG = 400.6 K. En ce qui concerne GG et donc on peut négliger Z pour n les températures de fusion de la bulle, on est plus bas que Tm 3 grand. On obtient alors Z1 (95) pb = Z1 + Z2 Si on suppose que les effets de bord des bulles sont négligeables, ie, toutes les bases de la bulle ont la même probabilité d’ouverture pb et on peut négliger les termes de bord ∆GGA et ∆GAG , on obtient ∞ les équations suivantes pour la détermination de Tbulle ∞ pb (Tbulle ) = 1/2 ⇒ ∞ ∞ Z1 (Tbulle ) = Z2 (Tbulle ) (96) soit 1 = ∞ Tbulle = Kl −c 2γS /kB −m SAA /kB m HAA /(kB T ∞ ) bulle m e e e 6 m HAA m SAA − 2γS + kB log Pour les bords, la probabilité de fermeture vaut pbd = 6 Kl Z1 + Z2 + Z3 Z1 + Z2 + 2 Z3 mc (97) (98) (99) La seule possibilité pour que pbd = 1/2 est que Z3 → ∞, ce qui est uniquement réalisé quand GG , ainsi T = Tm ∞ GG Tbord = Tm (100) 28 C.2 Étude de nmin en fonction de m La décroissance exponentielle de Z3 en fonction de n est de la forme ′ Z3 (n) = α(n + m)c e−n/τn (101) avec α une constante indépendante de n et τn = −kB T /∆GGG une taille caractéristique de décroissance. ∞ , on obtient Pour la bulle, en supposant que T ∼ Tbulle τn = −kB mHAA m(HGG SAA − SGG HAA ) − 2HGG γS + kB HGG log 6 Kl mc (102) bulle >= 0.999 × T ∞ , ainsi n De plus nmin est défini comme la valeur pour laquelle < Tm min va bulle dépendre de la décroissance de Z3 . D’où nmin ∝ τn D (103) F -test Considérons un ensemble de N points expérimentaux {(yi , xi )} (par exemple Tm , ∆H0 , etc.) que l’on veut modéliser avec M paramètres {aj } (par exemple γS , ∆h0N N , etc.). Pour cela on minimise χ20 [52, 54] N X yi − f ({aj }, xi ) 2 2 χ0 ({aj }) = (104) σi i=1 Cette minimisation nous fournit les paramètres {a0j }. Supposons maintenant que l’on ajoute un point expérimental à nos données (y, x) et que l’on effectue une nouvelle minimisation avec 2 χ ({aj }) = χ20 ({aj }) + y − f ({aj }, x) σ 2 (105) donnant de nouveaux paramètres {a1j }. Dans le cas où, N >> 1, le fait d’ajouter un point ne doit pas changer de manière significatrice les paramètres, ie, |a1j − a0j |/|a0j | ≪ 1. Donc χ 2 ({a1j }) ≈ χ20 ({a0j }) + y − f ({a0j }, x) σ !2 (106) Ainsi, pour estimer l’effet de l’ajout de ce point sur la paramétrisation du modèle, on utilise un F -test [54] défini par χ2 ({a1j }) − χ20 ({a0j }) 1 ≈ (N − M ) 2 0 Fχ = 2 0 χ0 ({aj })/(N − M ) χ0 ({aj }) y − f ({a0j }, x) σ !2 (107) Plus Fχ est grand, plus le point ajouté a de l’intérêt. Donc, pour des séquences ayant une grande sensibilité par rapport aux paramètres, Fχ va être plus large que pour des oligomères courts pour lesquelles la transition est peu sensible aux paramètres. Ainsi, on a intérêt à incorporer des séquences type oligomères longs pour améliorer la paramétrisation. 29 Références [1] J.D. Watson and F.H.C. Crick, Nature 171, 737 (1953) [2] http ://www.coll-outao.qc.ca/bio/Imagebiologie/ [3] C. Calladine, H. Drew, B. Luisi and A. Travers. Understanding DNA ; the molecule and how it works, Elsevier Academic Press (2004) [4] M. Peyrard and A.R. Bishop, Phys.Rev.Lett. 62, 2755(1989) [5] D. Poland and H.A. Scheraga. Theory of Helix-Coil Transition in Biopolymers, Academic Press, New York (1970) [6] D.M. Crothers and B.H. Zimm, J.Mol.Biol. 9, 1 (1964) [7] H. DeVoe and I. Tinoco, Jr., J.Mol.Biol. 1, 500 (1962) [8] J. SantaLucia, Jr., Proc. Natl. Acad. Sci. U.S.A. 95, 1460 (1998) [9] R. Owczarzy et al, Biopolymers 44, 217 (1998) [10] D. Poland and H.A. Scheraga, J.Chem.Phys. 45, 1456, 1464 (1966) [11] O. Gotoh and Y. Tagashira, Biopolymers 20, 1033 (1981) [12] M.J. Doktycz et al, Biopolymers 32, 849 (1992) [13] J. SantaLucia, Jr., H. Allawi and P.A. Seneviratne, Biochemistry 35, 3555 (1996) [14] H.T. Allawi and J. SantaLucia, Jr., Biochemistry 36, 10581 (1997) [15] A.L. Oliver, R.M. Wartell and R.L. Ratliff, Biopolymers 16, 1115 (1977) [16] B.R. Amirikyan, A.V. Vologskii and Y.L. Lyubchenko, Nuc. Acids Res 9, 5469 (1981) [17] R.D. Blake and S.G. Delcourt, Nuc.Acids.Res. 26, 3323 (1998) [18] http ://www.geneticengineering.org/chemis/Chemis-NucleicAcid/Graphics/ [19] Y. Zeng, A. Montrichok and G. Zocchi, J.Mol.Biol. 339, 67 (2004) [20] Y. Zeng and G. Zocchi, Biophys. J. 90, 4522 (2006) [21] D.D. Shoemaker, E.E. Schadt et al, Nature 409, 922 (2001) [22] N.C. Seeman, Biochemistry 42, 7259 (2003) [23] A.Fire, M.K Montgomery, S.A. Kostas, S.E. Driver and C.C. Mello, Nature 391, 806 (1998) [24] B. Daneholt. Advanced Information on The Nobel Proze Generally in Physiology or Medecin 2006 - RNA Interference, The Nobel Assembly at Karolinska Institutet (2006) [25] R. Everaers, S. Kumar and C. Simm, Phys.Rev.E 75, 041918 (2007) [26] R.A. Dimitrov and M. Zuker, Biophys.J. 87, 215 (2004) [27] R. Owczarzy et al, Biochemistry 43, 3537 (2004) [28] M. Rubinstein and R.H. Colby. Polymer Physics, Oxford University Press, Oxford (2003) [29] M.S. Causo, B. Coluzzi and P. Grassberger, Phys.Rev.E 62, 3958 (2000) [30] C. Vanderzande. Lattice Models of Polymers, Cambridge University Press (1998) [31] T. Garel and H. Orland, Biopolymers 75, 453 (2004) [32] N.R. Markham and M. Zuker, Nuc.Acid.Res. 33, W577 (2005) [33] M.E. Fisher, J.Chem.Phys. 45, 1469 (1966) [34] Y. Kafri, D. Mukamel and L. Peliti, Eur.Phys.J.B 27, 135 (2002) 30 [35] Y. Kafri, D. Mukamel and L. Peliti, Phys.Rev.Lett. 90, 159802 (2003) [36] R. Blossey and E. Carlon, Phys.Rev.E 68, 061911 (2003) [37] P.-G. de Gennes. Scaling Concepts in Polymer Physics, Cornell University Press, Ithaca NY (1979) [38] M. Fixman and J.J. Freire, Biopolymers 16, 2693 (1977) [39] R.D. Blake et al., Bioinformatics 15, 370 (1999) [40] G.S. Manning, Biopolymers 11, 937 (1972) [41] D. Erie et al., Biochemistry 26, 7150 (1987) [42] M.T. Record and T.M. Lohman, Biopolymers 17, 159 (1978) [43] M. Frank-Kamenetskii, Biopolymers 10, 2623 (1971) [44] A. Vologodskii, B. Amirikyan, Y. Lyuchenko and M. Krank-Kamenetskii, J.Biomol.Struct.Dyn. 2, 131 (1984) [45] R.M. Wartell and A.S. Benight, Physics Reports 126, 67 (1985) [46] L60B36 : CCGCCAGCGGCGT T AT T ACAT T T AAT T CT T AAGT AT T AT AAGT AAT AT GGCCGCT GCGCC . L19AS2 : AT AAT AAAGGCGGT CCGCC . [47] Cette séquence est un complexe de 4660 bp composé par pBR322 mélangávec une séquence répétitive de 245 bp. pBR322 est associé au numéro d’accession primaire J01749 (http ://www.ebi.ac.uk). [48] S.T. Smale and J.T. Kadonaga, Annu.Rev.Biochem. 72, 449 (2003) [49] E. Yeramian and L. Jones, Nuc.Acids.Res. 31, 3843 (2003) [50] J.F. Marko and E.D. Siggia, Science 265, 506 (1994) [51] J. Yan and J.F. Marko, Phys.Rew.Lett. 93, 108108 (2004) [52] W.H. Press, S.A. Teukolsky, W.T. Vetterling and B.P. Flannery. Numerical Recipes in fortran 77 : the Art of Scientific Computing, Cambridge University Press, Cambridge UK (1996). http ://www.nr.com [53] B. Efron and R. Tibshirani. An Introduction to the Bootstrap, Chapman&Hall, London (1993) [54] P.R. Bevington and D.K. Robinson. Data Reduction and Error Analysis for the Physical Sciences, chapter 11.4, McGraw-Hill, New York (1992) Remarques : – Le travail effectué pendant le stage a abouti à la rédaction d’un article qui va être soumis à la revue scientifique Proceedings of the National Academy of Sciences USA (PNAS) . – Ce stage de M2 va se poursuivre sur une thèse (allocation couplée) au Laboratoire de Physique de l’ENS Lyon sous la direction de Ralf Everaers. Le but de la thèse sera d’appliquer le modèle sur réseau à la molécule d’ARN afin de s’attaquer à l’épineux problème du repliement de l’ARN. Remerciements : J’aimerai remercier particulièrement Ralf Everaers pour sa disponibilité, sa gentillesse ainsi que pour ses remarques contructives sur mon travail. Un grand merci également à Jordi pour m’avoir trouvé et installé si rapidement un ordinateur, et à Sophie pour avoir relu attentivement ce rapport afin d’y traquer les nombreuses répétitions et autres fautes d’orthographe. 31