M2 Sciences de la Mati`ere STAGE 2007

Transcription

M2 Sciences de la Matière
École Normale Supérieure de Lyon
STAGE 2007
JOST Daniel
M2
Option Physique
Dénaturation de l’ADN : au-delà de l’approximation à deux états
Résumé : Une compréhension quantitative de l’association des bases de l’ADN ou de l’ARN
est nécessaire pour l’étude de nombreux processus biologiques (transcription, réplication,
repliement et interférence de l’ARN) ainsi que pour le développement d’applications nanobiotechnologiques (puces ADN, auto-assemblage d’ADN). Depuis plus de quarante ans, deux
modèles tentent d’expliquer ce phénomène (le modèle plus proche voisin pour les oligomères
courts et le modèle Poland-Scheraga pour les polymères). Cependant des expériences récentes
sur la dénaturation d’oligomères longs ont jeté un doute sur l’applicabilité des descriptions
standards dans les cas où la double-hélice s’ouvre partiellement. Ici, nous présentons un
modèle de type Poland-Scheraga adapté d’un modèle sur réseau récemment développé qui
unifient toutes les échelles de longueur. Afin de prendre en compte les effets électrostatiques
dûs à la présence de sel dans les solutions d’ADN, nous introduisons une nouvelle correction
en sel semi-phénoménologique dépendante de la nature et de l’environnement local de chaque
paire de bases. Nous montrons que le pouvoir de prédiction de notre modèle est bon et permet
l’étude de la nucléation des bulles dans les oligomères. Enfin, nous discutons l’influence des
erreurs et de la paramétrisation sur nos résultats. Le modèle proposé assure ainsi un traitement unifié des oligo- et polymères dans toute la gamme de longueur et de concentration en
brins et en sel.
Laboratoire de Physique de l’ENS Lyon, UMR 5672 CNRS
46, Allée d’Italie
69007 LYON, FRANCE
http ://www.ens-lyon.fr/PHYSIQUE/
Maı̂tre de stage : Prof. Ralf Everaers - 04-72-72-88-52 - [email protected]
Du 01-04-2007 au 31-07-2007
Table des matières
Introduction
3
1 État de l’art
1.1 Équilibre d’association - Définitions .
1.2 Modèle plus proches voisins . . . . .
1.3 Modèle de Poland-Scheraga . . . . .
1.4 Modèle sur réseau . . . . . . . . . .
.
.
.
.
5
5
6
6
8
2 Modèle utilisé et Méthodes
2.1 Modèle de Poland-Scheraga modifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Correction dûe au sel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Prise en compte des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
9
11
12
3 Résultats
3.1 Correction en sel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Pouvoir de prédiction, comparaison avec l’expérience . . . . . . . . . . . . . . . . . . . . . . .
3.3 Structure interne, nucléation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
14
15
4 Discussion
4.1 Dépendance en sel
4.2 Rôle des erreurs . .
4.3 Nucléation . . . . .
4.4 Paramétrisation du
19
19
20
20
21
. . . . .
. . . . .
. . . . .
modèle
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Conclusion
23
Annexes
24
A Algorithme de Fixman-Freire
A.1 Simplification . . . . . . . . . . . .
A.2 Approximation de Fixman-Freire .
A.3 Conditions initiales des récurrences
A.4 Observables . . . . . . . . . . . . .
A.5 Algorithme . . . . . . . . . . . . .
.
.
.
.
.
24
24
24
25
26
26
B Paramétrisation du modèle NN
B.1 Décomposition en valeur singulière . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.2 Méthode Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.3 Variables indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
27
27
27
C Modélisation de la nucléation
C.1 Étude des T ∞ en fonction de m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.2 Étude de nmin en fonction de m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
28
29
D F -test
29
Références
30
Remarques
31
Remerciements
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Fig. 2 – Structure secondaire (en bas à
gauche) et structure tertiaire (en haut à
droite) d’un brin d’ARN [18]
Fig. 1 – Composition du double-brin d’ADN
[2]
Introduction
L’étude de l’ADN (acide désoxyribonucléique) et la compréhension de son important rôle en
biologie est un des sujets majeurs de recherche en biophysique. Chaque simple brin d’ADN est une
chaı̂ne de polymère composée d’un squelette sucre-phosphate auquel sont attachées diverses bases
azotées (adénine A, guanine G, thymine T ou cytosine C) ayant la possibilité de former des liaisons
hydrigènes entre bases complémentaires. Les deux simples brins peuvent alors formés un complexe en
double-hélice. Chaque base d’un simple brin forme, avec la base conjuguée de l’autre brin, une paire
de Watson et Crick [1] (A − T ou G − C) assurant ainsi la stabilité du complexe (Fig.1). Des processus biologiques clés tels que la transcription ou la réplication de l’information génétique requièrent
l’ouverture de la double-hélice d’ADN [3]. Ainsi une modélisation performante de ce phénomème
permettrait une compréhension approfondie de son implication en biologie. La dénaturation thermique, qui consiste à chauffer une solution d’ADN pour forcer les deux brins à se séparer, est un des
moyens existant pour étudier cette ouverture. L’échelle à laquelle la molécule est considérée permet
de sonder les différentes propriétés de la dénaturation : que ce soit au niveau microscopique avec
des modèles quantiques tout-atome par exemple, ou que ce soit au niveau mésoscopique avec des
modèles de type coarse-grained(Peyrard-Bishop [4], Poland-Scheraga [5], NN [8] etc.).
Parmis ces différents modèles, nous nous intéresserons uniquement aux modélisations mésoscopiques
considérant des intéractions de type Ising. Dans ce cadre là, depuis plus de 40 ans, deux descriptions standard de la dénaturation thermique de l’ADN existent : le modèle plus proches voisins (NN) qui décrit quantitativement la fusion des oligonucléotides courts (10-20 paires de bases
(bp)) [6, 7, 8, 9] ayant une transition à deux états entre un complexe en double-hélice totalement fermé et deux simples brins séparés ; le modèle de Poland-Scheraga (PS) qui s’intéresse aux
polynucléotides (∼ 1000 bp) [5, 10] au niveau de leur structure secondaire (Fig.2) comme une alternance de boucles et de parties en double-hélice. Au fur et à mesure des avancées technologiques et
des améliorations expérimentales, de nombreux efforts ont été consentis pour paramétrer ces deux
modèles [11, 12, 13, 14, 15, 16, 17] (en particulier les paramètres communs de gain d’énergie libre par
paire de bases voisines) afin qu’ils puissent fournir des résultats quantitatifs sur la fusion d’ADN.
Il y a une dizaine d’année, SantaLucia dans Ref.[8] concluait à propos du modèle NN :”Un jeu
3
de paramètres NN unifié est maintenant valable afin de faire des prévisions précises sur la thermodynamique des ADN poly- et oligonucléiques”. Néammoins, dernièrement, des nouvelles techniques
expérimentales de trempes [19, 20] permettent de mesurer le degré d’association Θass en plus de la
traditionnel mesure en UV de la fraction de paires de bases fermées Θ. Pour des longs oligomères,
Zeng et Zocchi [19, 20] montrent que le modèle NN n’est plus valide, mais comme les courbes de
fusion dépendent toujours de la concentration totale en brin, l’approche standard PS (qui suppose
Θass = 1) ne permet une bonne description de ces séquences. En plus, cette zone de longueur où
les formalismes habituels échouent dans la compréhension des phénomèmes est d’une importance
cruciale dans le développement de nombreuses bionanotechonogies telles que les puces ADN [21] ou
l’autoassemblage d’ADN [22] ainsi que dans l’étude d’applications biologiques comme l’interférence
ARN [23, 24]. C’est ainsi que récemment [25], ces modèles standards ont été complétés par un modèle
sur réseau qui réinterprète les termes de bords dans le modèle PS et conduit à un traitement unifié
de la dénaturation des oligo et polynucléotides. En sus, il donne accès à la structure tri-dimentionelle
(tertiaire, Fig.2). Le prix à payer est une augmentation énorme du temps de calcul des simulations.
Ainsi, afin de réduire ce temps, nous avons adapté le modèle PS au modèle sur réseau (modèle
MPS). Notre modèle intègre donc toutes les échelles de longueur de séquences et les effets associatifs dûs á la concentration finie en ADN dans les solutions. Pour parfaire ce modèle nous avons en
plus incorporer dans notre description une correction en sel unifiée semi-phénoménologique tenant
compte de la nature et de l’environnement local de la paire de bases dans le but de remplacer la
correction standard empirique de SantaLucia [8] qui est indépendante de la paire de base et qui fait
une distinction entre les deux échelles de longueurs que sont les oligomères et les polymères.
Ainsi, reproduire des données expérimentales sur différentes gammes de longueurs (en particulier
les séquences de tailles intermédiaires) et de concentration en ADN et en sel est un test crucial pour
la validation de l’approche unifiée que nous proposons. Néammoins, comme Dimitrov et Zuker [26] le
remarquent, il est possible que les paramètres standards soient mal estimés. Il est donc intéressant
de se pencher sur la paramétrisation de notre modèle (correction en sel, facteurs entropiques et
enthalpiques, etc.) à partir des données expérimentales et des erreurs statistiques qui en découlent
pour estimer l’impact de la paramétrisation sur les résultats issus des simulations.
D’où, après avoir fait, dans une première section, un bref rappel sur les définitions utilisées et
les modèles existants, nous décrirons dans la section 2 le modèle MPS et nous introduirons une
nouvelle correction en sel. Dans la troisième section, nous présenterons les résultats obtenus par les
simulations de MPS en comparaison avec les données expérimentales (influence de la concentration en
sel, courbes de fusion) et nous étudierons en détail la nucléation de bulles dans les oligomères. Enfin,
ces résultats seront discutés dans la section 4 avec notamment une réflexion sur la paramétrisation
de notre modèle.
4
1
1.1
État de l’art
Équilibre d’association - Définitions
On étudie la dissociation d’un brin d’ADN considéré comme un complexe AB en équilibre avec
deux simples brins A et B. Chaque brin est constitué de N bases (A,G,T ou C). Les observables
expérimentales examinées ici ([8, 27, 19]) sont la fraction totale de paires de bases fermées Θ(T ) et
le degré d’association Θass (T ) pour l’équilibre chimique entre l’état ouvert (les 2 brins séparés) et
l’état fermé (au moins une paire de bases fermées)
AB ⇀
↽A+B
(1)
Ainsi si on introduit la fraction interne de paires fermées Θint (T ), on peut relier ces observables
ensemble
1
1
Θ(T ) = Θint,AB (T )Θass (T ) + Θint,A (1 − Θass ) + Θint,B (1 − Θass )
(2)
2
2
Dans la suite, on négligera l’association interne des simples brins et on supposera que Θint,A =
Θint,B = 0.
On définit également les concentrations respectives cAB (T ), cA (T ) et cB (T ) en AB, A et B et la
concentration totale constante cT = 2 cAB (T ) + cA (T ) + cB (T ),


 cA (T )
= (1 − Θass (T ))cT
cA (T )
= (1 − Θass (T ))cT

 c (T ) = Θ (T ) c /2
AB
ass
T
(3)
La loi d’action de masse de l’équilibre chimique donne
∆G0
cA cB
= exp
cAB c0
kB T
(4)
où c0 est une concentration de référence (en général 1 M) et ∆G0 est la différence d’énergie libre entre
le complexe et les simples brins à la concentration de référence. Eq.(3),(4) permettent de déduire
Θass (x) = 1 + x −
q
x (2 + x)
(5)
0
avec x = ccT0 exp ∆G
kB T . Par exemple pour des brins très longs, ∆G0 → −∞ et donc Θass = 1, ainsi
Θ = Θint , les effets associatifs ne jouent alors aucun rôle lors de la transition. Au contraire, pour
des concentrations très faibles, x → +∞ et Θass tend rapidement vers 0, la transition est purement
à deux états et Θ = Θass .
L’énergie libre ∆G0 est égale à la différence FAB − FA − FB des énergies libres internes du
double ou des simples brins ajoutée à l’énergie libre de mélange Fmix = −T Smix avec le solvant.
Pour estimer cette entropie de mélange [25], on part de l’expression donnée par Rubinstein et Colby
[28] pour le mélange de 2 espèces E1 et E2
Fmix /V = kB T
1−Φ
Φ
log Φ +
log(1 − Φ)
vE1
vE2
(6)
où Φ est la fraction volumique en espèce E1 et vEi le volume molaire de l’espèce i. Dans la limite de
forte dilution (Φ << 1) et en supposant que les volumes molaires des espèces présentes s’ajoutent,
ie, vAB = vA + vB , on en deduit,
Fmix = −kB T log (e c0 vAB /4) ≈ −kB T log (0.4371(N − 1))
5
(7)
Fig. 3 – Exemple de calcul de l’énergie libre
dans le modèle NN (tiré de [8])
Fig. 4 – Illustration du modèle sur réseau
issue de [25]
On introduit également la notion de température de fusion Tm définie par Θass (Tm ) = 1/2 ou
Θ(Tm ) = 1/2 (définitions équivalentes pour des transitions à deux états). Par exemple dans le cas
où ∆G0 peut se décomposer sous la forme ∆G0 = ∆H0 − T ∆S0 avec ∆H0 et ∆S0 indépendants de
la température, on a directement à partir de Eq.(5)
Tm =
∆H0
∆S0 + kB log(cT /(α c0 ))
(8)
avec α = 1 pour des brins autosimilaires (A = B) et α = 4 sinon.
La détermination de FAB , FA et FB , ainsi que de Θint nécessite une description et une modélisation
du complexe et des simples brins. Décrivons les principaux modèles existants.
1.2
Modèle plus proches voisins
Dans le modèle des plus proches voisins (NN) [8], la formation du duplexe est la conséquence d’un
gain d’énergie libre ∆h0N N − T ∆s0N N par paire de bases dépendant de la séquence et d’une énergie
libre d’initiation ∆h0ini − T ∆s0ini (voir Fig.3). Ce modèle néglige toutes fluctuations et considère
donc une transition à deux etats, entre le double brin et les simples brins. Ainsi Θint,AB = 1, donc
Θ = Θass et ∆G0 = ∆H0 − T ∆S0 . Ce modèle s’applique très bien aux oligomères courts et permet
de remonter, à partir des températures de fusion à différentes concentrations, aux paramètres ∆h0N N
et ∆s0N N (voir Tab.1).
1.3
Modèle de Poland-Scheraga
Le principal défaut du modèle précédent est la non prise en compte des fluctuations qui commencent à être importantes pour des oligomères longs ( ∼ 100 bp) ou des polymères courts. Le
modèle de Poland-Scheraga (PS) [5, 10] décrit la dénaturation de l’ADN comme l’enchaı̂nement des
fusions coopératives de divers domaines de la séquence. La stabilité de ces domaines est déterminée
par leurs compositions mais aussi par leurs emplacements le long du brin (voir Fig.5) : bulles ou
boucles internes (cas 1 et 3), fins libres (cas 2) ou mélange des deux (cas 4). Ainsi, le processus de
dénaturation est hautement coopératif, ie, l’état de conformation de chaque paire de bases dépend
fortement de l’état de ses voisins. De plus, ce modèle suppose que toutes les différentes transitions
sont à l’équilibre et réversibles.
6
Sequence
AA/TT
AT/TA
TA/AT
CA/GT
GT/CA
CT/GA
GA/CT
CG/GC
GC/CG
GG/CC
ini avec G/C
ini avec A/T
γS (cal/mol/K)
ωE (cal/mol/K)
Ks1 (K−1 )
Ks2 (K−1 )
Ks3 (K−1 )
∆h0N N (kcal/mol)a
−7.93 ± 0.31
−7.15 ± 0.78
−7.23 ± 0.82
−8.44 ± 0.77
−8.47 ± 0.66
−7.73 ± 0.66
−8.29 ± 0.61
−10.54 ± 0.82
−9.81 ± 0.73
−8.02 ± 0.68
0.08 ± 0.99
2.22 ± 1.02
−9.84 ± 1
−2.14 ± 0.2
(4.29 ± 0.29).10−5
(−3.95 ± 0.16).10−5
(9.4 ± 0.29).10−6
∆s0N N (cal/mol/K)a
−22.4 ± 1.0
−20.2 ± 2.6
−21.6 ± 2.7
−22.9 ± 2.5
−22.9 ± 2.2
−20.9 ± 2.2
−22.6 ± 2.0
−27.1 ± 2.7
−24.6 ± 2.4
−19.6 ± 2.3
−2.2 ± 3.4
4.3 ± 3.3
Tab. 1 – Paramètres standard des modèles NN et MPS et leurs déviations standard.a pour une
concentration en sel de 1 M.
Cas 1
N
Cas 2
Cas 3
N
N
Cas 4
M
Fig. 5 – Exemples de conformations pour le modèle PS.
7
N
M
Afin de calculer les observables standard (voir Sec.1.1), les propriétés thermodynamiques de
chaque conformations doivent être explicitées. En prenant comme état de référence le double-brin
totalement fermé, les différents cas possibles sont caractérisés par leur fonction de partition propre
Zi qui est le reflet du nombre de micro-états représentant chaque conformation. Ainsi, pour une
bulle interne (cas 1) de taille N
Z1 (N ) = σN −c exp (β∆G)
(9)
où σ (la coopérativité) et N −c (c ∼ 1.76) reflètent l’effet entropique des intéractions coopératives ;
∆G représente la perte enthalpique causée par l’ouverture de la boucle, elle est calculée à partir des
données NN (voir Sec.1.2). De même pour une fin libre (cas 2) de taille N , on a
√
′
(10)
Z2 (N ) = σN c exp (β∆G)
avec c′ = 0.16. Les autres conformations possibles sont construites à partir des deux cas précédents,
donc par exemple, on obtient Z3 (N, M ) = Z1 (N ) × Z1 (M ) ou Z4 (N, M ) = Z1 (N ) × Z2 (M ).
Le modèle PS sera décrit plus en détail dans la section 2.1.
1.4
Modèle sur réseau
Le modèle sur réseau [25] est une variante du modèle proposé par Causo et al. [29]. Le brin
d’ADN est modélisé par une marche aléatoire auto et mutuellement évitante sur un réseau cubique
simple. Les positions des bases sont associées aux nœuds du réseau. Deux marches sont autorisées
à se chevaucher sur un nœud si et seulement si elles peuvent former une paire de Watson et Crick
(orientation antiparallèle, bases complementaires) (voir Fig.4). On définit alors une énergie libre
d’appariement dépendante de la nature des bases ǫ(T ) = ǫH − T ǫS et une énergie libre de fin
ω(T ) = ωH −T ωS . Afin de prendre en compte de l’ouverture de la double hélice, on assigne également
une énergie libre interfaciale γ(T ) = γH − T γS . Enfin, pour tenir compte de la rigidité de la double
hélice, on inclut une énergie libre de pénalité κ(T ) = κH − T κS .
Ainsi,
– pour un double-brin composé d’une seule base et totalement fermé
Zds = 6 × exp (−β(N ǫ + 2ω))
(11)
– pour un simple libre
Zss = 6 × 0.2µN N c
′
(12)
avec µ = 4.68 pour un réseau cubique [30] et c′ = 0.16 (le nombre de chemins auto-évitants
′
(SAW) de taille N a pour forme asymptotique µN N c ).
– pour une fin libre de taille N
′
′
Zf e = 4 × 1.2 (2N )c µ2N exp(−βγ) exp(βN ǫ) = Kf N c µ2N exp(−βγ) exp(βN ǫ)
(13)
– pour un double brin infiniment long avec une bulle de taille N
Zl = 16 × 0.16µ2N N −c exp(−2βγ) exp(βN ǫ) = Kl µ2N N −c exp(−2βγ) exp(βN ǫ)
(14)
Cette expression vient du nombre de polygones pour une marche auto-évitante de taille 2N .
Pour paramétrer le modèle, il faut comparer ces cas limites avec ceux obtenus pour les modèles NN
et PS. D’où, pour le double-brin fermé
∆G0 = FAB − FA − FB + Fmix
= N (ǫH − T ǫS ) + 2(ωH − T ωS ) − kB T log(6)
N
+2kB T log(1.2µ N
8
ζ−1
) − kB T log(0.4371N )
(15)
(16)
(17)
or dans le cadre du modèle NN
∆G0 = N (∆h0N N − T ∆s0N N ) + 2(∆h0ini − T ∆s0ini )
(18)
En égalisant, on obtient
ǫH
= ∆h0N N
ǫS
=
ωH
=
ωS
=
(19)
∆s0N N + 2kB
∆h0ini
∆s0ini + ωE
log µ =
∆s0N N
+ 3.0kB
(20)
(21)
(22)
avec ωE = −1.08 kB la correction entropique de mélange, calculée pour des oligomères de taille
typique 10 bp utilisés dans les expériences de paramétrisation. En ce qui concerne γ, en égalisant
Eq.(14) avec Z1 du cas 1 dans Sec.1.3, on obtient
σ = Kl exp(−2βγ)
(23)
−4
γ(T ) = 4.96 kB T
pour σ = 1.26.10
(24)
L’énergie libre de rigidité κ peut être relié à la longueur de persistence de l’ADN [25], ainsi par
exemple pour une longueur de persistence de 300 bp, on a κ = 1900 kB K.
2
Modèle utilisé et Méthodes
Le modèle sur réseau, en plus d’unifier les modèles NN et PS, rend compte de la forme tridimensionelle du brin d’ADN. Le prix à payer est une augmentation importante du temps de calcul. Afin
de réduire le temps de simulation, nous avons adapté le modèle PS au modèle sur réseau, appelé
modèle MPS.
2.1
Modèle de Poland-Scheraga modifié
Originellement, le modèle PS s’interesse à des relations de récurrence sur des probabilités thermodynamiques conditionelles. Récemment [26, 31, 32], des relations de récurrence sur les fonctions
de partition ont été développées pour étudier la dénaturation de l’ADN. Suivant la procédure défini
par Garel et Orland [31], on peut définir des nouvelles relations de récurrence adaptées au modèle
sur réseau. Ces relations sont un peu plus compliquées que celles dans [31] car nous considérons que
la longueur minimale d’une section hélicoidale est de 2 bp au lieu de 1 bp dans [31].
On modélise un simple brin comme une chaı̂ne de N bases A,T ,C ou G, numérotés de 1 à N :
5′ − 1 − 2 − 3 − ... − N − 3′ . On suppose que les deux simples brins sont complémentaires (pas de
mismatches), on ne tient pas compte d’éventuelles formations d’épingles ou de renflements. La base
i du brin A ne peut s’apparier qu’avec la base N − i + 1 du brin B. On considère l’état double brin
totalement fermé comme état de référence.
Tout d’abord, on regarde la fonction de partition en sens direct Zf (α + 1) comptant le nombre
d’états de la partie du brin compris entre les bases 1 et α + 1, les bases α et α + 1 étant fermées. Il
y a trois moyens d’avoir ces deux bases fermées : soit la paire (α − 1,α) est appariée, soit il y a une
boucle commencant de la base α′ et se finissant en α, soit le complexe est complètement ouvert de
la base 1 à la base α (voir Fig.6)
Zf (α + 1) = Zf (α) + Kl e−2βγ
−βγ
+Kf e
α−2
X
α′ =2
c′ βg(1,α−1)
(α − 1) e
9
′
(α − α′ )−c eβg(α ,α−1) Zf (α′ )
(25)
α′
α+1
α+1
=
+
1
1
α+1
+
1
α
α+1
1
Fig. 6 – Représentation graphique de la relation de récurrence pour Zf (α + 1) (Eq.(25))
+ .....+
+
Z =
N
1
N-1
1
1
2
Fig. 7 – Représentation graphique de la fonction de partition thermodynamique Z
avec g(α′ , α) = αi=α′ Gi,i+1 , Gi,i+1 l’énergie libre d’appariement de la paire (i, i + 1), Kl = 2.56 et
Kf = 5.36 des facteurs géométriques, c et c′ tiennent compte des intéractions stériques des boucles
ou des bouts libres. La valeur de c est encore en discussion [10, 33, 34, 35, 36], et est égale à 2.15
pour des boucles intéragissant entre elles et à 1.764 pour des boucles isolées. La valeur de c′ est issue
de la théorie des polymères [37] et vaut 0.16.
De manière analogue à Zf , on introduit la fonction de partition en sens inverse Zb (α) estimant
le nombre d’états de la partie comprise entre les bases α et N , la base α étant fermée. Ainsi,
P
N
−1
X
Zb (α) = Zb (α + 1) + Kl e−2βγ
′
α′ =α+2
c′
(α′ − α)−c eβg(α,α −1) Zb (α′ + 1)
+Kf e−βγ (N − α) eβg(α,N −1)
(26)
Enfin, on considère Zsf (α) la seconde fonction de partition en sens direct, débutant à la base 1 et
se finissant à la base α, la base α étant fermée et la base α − 1 étant ouverte. D’où
Zsf (α) = Kl e−2βγ
α−2
X
′
(α − α′ )−c eβg(α ,α−1) Zf (α′ )
α′ =2
−βγ
+Kf e
′
(α − 1)c eβg(1,α−1)
(27)
Avec ces trois fonctions de partition, on peut exprimer la probabilité p(α) pour que la base α
soit fermée
Zsf (α)Zb (α + 1) + Zf (α)Zb (α) + 5 e−β(ω1 +ωN )
(28)
p(α) =
Z
avec Z la fonction de partition totale (Fig.7).
−βωN
Z=e
−βγ
Zf (N ) + Kf e
N
−1
X
α=2
ζ−1
(N − α)
"
exp β
N
−1
X
i=α
#
Gi Zf (α) + 5 e−β(ω1 +ωN )
(29)
Le terme 5 e−β(ω1 +ωN ) tient compte du facteur géometrique 6 dans fonction de partition de l’état
fermé (voir Eq.(11)). Ainsi on peut exprimer Θint comme la moyenne des p(α)
Θint =
N
1 X
p(α)
N α=1
Et FAB = −kB T log Z.
10
(30)
Pour décrire les simples brins, on les considère comme des pelottes sans intéraction, ie
FA + FB = −
N
−1
X
i=1
′
Gi − kB T log (1.2)2 (N − 1)2c )
(31)
Ainsi, les observables Θass et Θint s’obtiennent en résolvant les relations de récurrence Eq.(25),(26)
et (27). Afin d’accélérer la résolution numérique de ce problème, on se doit de simplifier ces relations et d’utiliser une méthode algorithmique efficace : l’algorithme de Fixman-Freire [38, 31] (voir
Annexe A)
2.2
Correction dûe au sel
Les paramètres du modèle NN sont déterminés expérimentalement à une concentration en sel
(N aCl) donnée (1 M pour ceux de Tab.1). Pour tenir compte des effets de la présence ou non de
sel dans la solution, il est nécessaire d’inclure une correction des paramètres standard, fonction de
la concentration en N a+ .
La correction la plus utilisée dans les programmes bioinformatiques de résolution du modèle PS
(DINAmelt [32], MELTSIM [39]) est celle donnée par SantaLucia dans Ref.[8]
∆s0N N ([N a+ ]) = ∆s0N N (1M ) + 0.1853 × log[N a+ ]
(32)
Le principal inconvénient de cette formule est son indépendance vis-à-vis de la paire de base, ie,
par exemple la correction en entropie pour la bipaire AT /T A sera la même que la bipaire GC/CG
alors qu’elles sont formées de bases azotées différentes. Pour palier à ce manquement, à partir d’une
étude plus récente sur les effets du sel faite par Owczarzy et al dans Ref.[27], on a introduit une
nouvelle correction en sel.
Owczarzy montre que pour des séquences qui ont un comportement à deux états
d
d(log[N a+ ])
1
Tm
= (Ks1 f (GC) + Ks2 ) + 2 Ks3 log[N a+ ]
(33)
où Ks1 , Ks2 et Ks3 sont des constantes phénoménologiques (voir Tab.1) et f (GC) est la fraction
en GC dans la séquence (par exemple pour AT CGT CT GGA, f (GC) = 5/10 = 0.5). Ainsi, si on
suppose que l’enthalpie est indépendente de la concentration en sel [40, 41, 42], comme pour une
séquence à deux états 1/Tm = (∆S0 + kB log(cT /(α c0 )))/∆H0 , on a
d
(∆S0 ) = ∆H0 × (Ks1 f (GC) + Ks2 ) + 2 Ks3 log[N a+ ]
+
d(log[N a ])
(34)
Comme le modèle MPS décrit localement le brin, on applique cette formule non pas à toute la
séquence mais à chaque paire de bases. Ainsi, on définit une fraction locale fl (GC) pour chaque
paire et, en intégrant par rapport à log[N a+ ], on obtient
∆s0N N ([N a+ ]) = ∆s0N N (1M) + ∆h0N N ((Ks1 fl (GC) + Ks2 ) log[N a+ ] + Ks3 log2 [N a+ ])
(35)
Cette équation révèle, comme Eq.(32), l’effet stabilisateur sur l’énergie libre de la hausse [N a+ ], dû
à l’élévation de l’écrantage des contre-ions [27, 40]. De plus, comme souhaitée, cette correction tient
compte de la nature même de la paire de base et de son environnement local.
Le nombre de voisins pris en compte pour le calcul de fl (GC) ne semble pas influer sur les
résultats des simulations pour des nombres
inférieurs à 5 qui correspond typiquement à la longueur
p
de Debye dans le solution (λD = ǫ kB T /ρe ≈ 10Ȧ) . Dans nos simulations nous avons fixé ce
nombre à 0, ie, pour la bipaire de bases −GT − dans la séquence AT CGTCT GGA, fl (GC) = 0.5.
11
2.3
Prise en compte des erreurs
Les paramètres énergétiques et de correction en sel sont déterminés avec une certaine déviation
standard. En effet, la dispersion des données expérimentales autour des valeurs moyennes entraı̂ne
l’apparition d’une erreur statistique. La prise en compte de ces erreurs nous permettra en plus d’estimer des barres d’erreur pour les résultats issus de nos simulations. La relation entre les dévations
standard des paramètres et celles des observables calculées (Θ, Tm , etc.) n’étant pas, a priori, triviale, pour évaluer les barres d’erreurs, on autorise les paramètres à fluctuer de manière gaussienne
autour de leurs valeurs moyennes.
En ce qui concerne, les paramètres NN, Allawi et SantaLucia [14] donnent les déviations standard
pour ∆h0i,j et ∆s0i,j (i, j ∈ {A, T, G, C}). Les corrélations entre les différents paramètres (par exemple
la corrélation entre ∆h0i,j et ∆s0i,j pour une même paire est supérieure à 99%) ne permettent pas
d’effectuer des tirages aléatoires indépendants sur chacune des variables. Néammoins, la donnée
de la matrice de covariance permettrait de définir des variables indépendantes, fonctions des ∆h0i,j
et ∆s0i,j . Malheureusement, Allawi ne la donne pas. Ainsi, c’est pour avoir accès à cette matrice
que nous avons refait la minimisation effectuée par Allawi pour obtenir les paramètres NN avec les
mêmes séquences et les mêmes techniques de minimisation (décomposition en valeurs singulières,
voir Annexe B.1) et d’évaluation des erreurs (méthode Bootstrap, voir Annexe B.2).
Les paramètres trouvés sont proches de ceux donnés par Allawi, mais par contre les déviations
standard calculées sont supérieures à celles trouvées par Allawi. Cet écart vient de la sous-évaluation
des erreurs dûe à un trop faible nombre d’essais dans la méthode Bootstrap (dans Ref.[14], seulement
30 essais ont été effectués alors que notre étude montre que la convergence de la matrice de covariance
vers sa valeur finale nécessite plus de 50 000 essais). Cette parametrisation donne accès à la matrice
de covariance qui va nous permettre de trouver des variables indépendantes, fonctions linéaires des
∆h0i,j et ∆s0i,j (voir Annexe B.3).
Concernant σ (ou γS ≡ −γ/T ), sa valeur ne semble pas bien évaluée [35, 36] ; idem pour ωE .
Ainsi, on va supposer pour ces paramètres une déviation standard de 30%.
3
3.1
Résultats
Correction en sel
La figure 8 compare les températures de fusion expérimentales et calculées avec le modèle MPS
des 92 oligomères courts (10 à 30 bp) utilisés par Owczarzy et al dans Ref.[27] pour déterminer
Eq.(33). Ces brins d’ADN ont une transition à deux états. Sur le graphique figure aussi les barres
d’erreurs théoriques obtenues grâce à l’analyse des erreurs faite dans la section 2.3. On observe que
quelque soit la concentration en sel, les points sont regroupés autour de la bissectrice : il n’y a pas
de concentration privilégiée pour laquelle la correction en sel serait meilleure. Afin de quantifier les
écarts avec les expériences et de pouvoir comparer avec la correction de SantaLucia (Eq.(32), on
évalue l’écart entre simulations et expériences en calculant la différence absolue moyenne < ∆Tm >
définie par
1 X exp
sim
|Tm − Tm
|
(36)
< ∆Tm >=
N i
Avec cette correction en sel, on trouve < ∆Tm >= 1.6K alors qu’avec la correction de SantaLucia
on obtient < ∆Tm >= 2.5K. Le calcul de < ∆Tm > pour chaque concentration donne des valeurs
proches de la moyenne générale et toujours plus faibles qu’avec SantaLucia.
Ce résultat garantit l’avantage de la correction de Owczarzy pour les oligomères courts et sa
bonne qualité de prédiction. Néammoins, ceci n’est pas très surprenant vu que la paramétrisation
12
370
370
368
360
366
350
364
340
Tm
Tsim
m
362
330
320
360
358
310
356
300
354
290
352
280
280
290
300
310
320
330
340
350
360
350
0.35
370
exp
Tm
0.4
0.45
0.5
f(GC)
0.55
0.6
0.65
Fig. 9 – Températures de fusion calculées
pour 5 hétéropolymères (10000 bp) de fraction f (GC) différentes, avec [N a+ ] = 74.5
mM (noir) et [N a+ ] = 220 mM (bleu),
avec comme correction en sel Eq.(32) (carrés)
ou Eq.(35) (points). Les lignes pointillées
représentent la relation empirique donnée par
Frank-Kamenetskii et al [43, 44] pour les
AT + f (GC)(T GC −
longs polymères : Tm = Tm
m
AT ) avec T AT = (355.55 + 7.9 log[N a+ ]) K
Tm
m
GC = (391.55 + 4.89 log[N a+ ]) K.
et Tm
Fig. 8 – Températures de fusion calculées
sim en fonction de celles expérimentales
Tm
exp pour 92 séquences (c
−6
Tm
T = 2.10 M) à
5 concentrations différentes en sel : 69 mM
(orange), 119 mM (bleu foncé), 220 mM
(cyan), 621 mM (noir) et 1.02 M (violet). Les
points verts sont représentatifs des barres
d’erreurs théoriques.
13
1.2
1
1
0.8
0.8
ass
1.2
1−Θ
1−Θ,1−Θ
0.6
0.4
0.6
0.4
0.2
0.2
0
0
−0.2
280
290
300
310
320
330
340
−0.2
300
350
310
320
330
340
350
T(K)
T(K)
Fig. 11 – Courbes de fusion 1 − Θ et 1 −
Θass pour L19AS2 (noir) et L60B36 (rouge)
dans une solution saline ([N a+ ] = 50mM)
à cT = 2.10−6 M. Les profils expérimentaux
1 − Θ (cercle) et 1 − Θass (point) sont très
éloignés des profils simulés (lignes pointillées
et solides). Les courbes expérimentales ont
été transformées suivant la procédure définie
par Eq.(1) dans Ref.[45].
Fig. 10 – Courbes de dénaturation pour
des duplexes courts (cT = 2.10−6 ) dans
une solution de 69 mM en N a+ :10-mer,
ATCGTCTGGA (bleu) ; 20-mer, TACTTCCAGTGCTCAGCGTA (rouge) ; 30-mer,
TCGGAGAAATCACTGAGCTGCCTGAGAAGA (noir). Les points représentent les
données expérimentales et les lignes sont
issues des simulations.
de Ks1 , Ks2 et Ks3 a été obtenue à partir d’un large échantillon d’oligomères courts.
Les effets de la localisation de la correction en sel sont plus visibles pour des séquences n’ayant pas
de transition à deux états. La figure 9 montre que l’on arrive à reproduire de manière quantitative les
équations de Frank-Kamenetskii [43, 44]. Ceci confirme les observations faites sur les ADNs courts
et assure sa validité sur toute la gamme de longueur de brin. Par contre, la correction de SantaLucia
montre ici ses limites pour les polymères avec une pente d’évolution de Tm plus faible et un écart
aux droites de Frank-Kamenetskii plus important. Ainsi à partir de paramètres phénoménologiques
(les {Ksi }) complétés d’un modèle de physique statistique, on arrive à décrire les effets du sel
indépendamment de la longueur de l’ADN.
3.2
Pouvoir de prédiction, comparaison avec l’expérience
La section précédente semble indiquer que le modèle MPS a un bon pouvoir de prédiction
pour les oligomères courts (confirmée par Fig.10) et les polymères longs. Qu’en ait-il des longueurs
intermédiaires où il n’y a pas de transition à deux états ?
La figure 11 compare les courbes de dénaturation 1 − Θ et 1 − Θass obtenues expérimentalement
et numériquement pour deux séquences étudiées par Zeng et Zocchi [19] (L19AS2 et L60B36). Ces
deux brins contiennent chacun une grande région riche en AT : à la fin pour L19AS2 et au milieu
pour L60B36 [46]. L’erreur réalisée avec les paramètres standard est ici assez conséquente : alors
que numériquement, la dénaturation de ces séquences est quasi à deux états, expérimentalement ce
n’est pas du tout le cas (1 − Θ et 1 − Θass sont significativement décalées). D’autres programmes de
résolution du modèle PS tels que DINAmelt [32] ou MELTSIM [39] donnent des résultats similaires
pour ces séquences courtes avec bulles d’AT . Pourquoi un tel comportement pour ces types d’ADN ?
Quel est l’influence des erreurs statistiques sur les courbes de dénaturation ?
14
0.8
0.8
0.7
0.7
0.6
0.6
ass
1
0.9
0.5
Θ
Θ
1
0.9
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
280
290
300
310
320
0
280
330
T(K)
290
300
310
320
330
T(K)
Fig. 12 – Différentes courbes de dénaturation pour le 10-mer
AT CGT CT GGA dans une solution à 69 mM en sel (cT = 2.10−6 ). Les
points verts représentent les données expérimentales, les lignes donnent
les résultats des simulations pour les paramètres standard (pointillés
noirs) ou pour d’autres jeux de paramètres (bleues, rouge et violette).
Les courbes rouge et violette soulignent des paramètres qui permettent
d’avoir une bulle pour L60B36 (voir Fig.13).
La figure 12 montre l’influence des paramètres sur les courbes de fusion. On remarque que la
transition est toujours à deux états pour les oligomères courts et qu’un comportement similaire est
observé pour les polymères longs (Fig.16). Par contre pour des séquences avec bulles, que ce soit des
oligomères longs (Fig. 13, 14) ou des polymères courts (Fig. 15), un large évantail de cas est observé,
reflètant la grande sensibilité de ces courbes aux paramètres pour ces séquences. On observe que
pour tous (excepté L48AS) il existe des jeux de paramètres situés dans les erreurs statistiques des
paramètres standard qui permettent de retrouver leur comportement expérimental.
De plus, la concentration en sel influence beaucoup le comportement de ces graphiques. En
effet, Eq.35 soulignant l’effet stabilisateur du sel, l’apparition de bulles est encouragée par une
faible concentration en sel. Ainsi, en changeant les paramètres, la probabilité d’obtenir des états
intermédiaires avec des bulles stables est augmentée en réduisant [N a+ ] (Fig.17). Cet effet est
accentué par la non-uniformité de la correction en sel (ie, sa dépendence en la nature de la base) :
une paire de base AT est plus destabilisée par une baisse de [N a+ ] que GC (∆Ssel (AT ) ≈ −0.74kB
et ∆Ssel (GC) ≈ −0.38kB pour [N a+ ] = 50 mM). Ainsi, l’ouverture d’une bulle riche en AT est de
plus en plus envisageable au fur et à mesure que la concentration en sel diminue.
3.3
Structure interne, nucléation
Pour comprendre si la sensibilité des oligomères longs et des polymères courts à la variation des
paramètres reflète (ou non) une profonde modification de la structure interne de la séquence, on
étudie la probabilité individuelle p(α) × Θass qu’a une certaine base d’être fermée. Les différentes
cartes de probabilité (Fig.13,14,15) soulignent le fait que la structure interne n’est pas modifiée :
ce sont les mêmes ensembles de paires voisines qui s’ouvrent simultanément. Néammoins, le fait de
modifier les paramètres autour des valeurs standard modifie les températures de fusion de chaque
ensemble de voisins et leur largeur de transition. Ainsi par exemple, pour observer une bulle stable
pour L60B36, la température de fusion des bords doit être significativement plus haute que celle de
la bulle centrale.
Ce problème de stabilité des bulles internes souligne l’existence d’un phénomène de nucléation
15
1
1
0.8
0.8
0.6
0.6
0.6
0.6
Θ
0.4
0.2
0.2
0.2
0
0
310
320
330
T(K)
340
350
310
320
330 340
T(K)
350
60
60
50
0.8
40
40
0.6
30
30
0.4
20
20
0.2
10
310
320
330 340
T(K)
350
10
310
320
330 340
T(K)
0.2
320
330 340
T(K)
350
0
310
360
320
330 340
T(K)
350
40
position in bp
50
position in bp
position in bp
0
310
0.4
360
40
0.8
30
30
0.6
20
350
20
0.4
10
10
0.2
320
330 340
T(K)
350
360
320
330 340
T(K)
350
position in bp
Θ
0.4
0.4
Θass
1
0.8
Θass
1
0.8
360
Fig. 13 – (Haut) Courbes de dénaturation pour L60B36 (à gauche) et pour L42B18 (à droite) dans
une solution à 50 mM en sel (cT = 2.10−6 ). Les points verts représentent les données expérimentales,
les lignes donnent les résultats des simulations pour les paramètres standard (pointillés noirs) ou pour
d’autres jeux de paramètres (bleues, rouge et violette). Les courbes rouge et violette soulignent des
paramètres qui permettent de bien reproduire les données expérimentales de L60B36. (Bas) Cartes
de probabilité p(α) × Θass pour les paramètres standards (encadré noir) et pour les paramètres de
la courbe violette (encadré violet).
1
1
0.8
0.8
0.6
0.6
0.6
0.6
320
330
340 350
T(K)
360
Θ
0.2
0.2
0
320
330
340 350
T(K)
0
300
360
40
0.8
40
30
0.6
30
20
0.4
20
10
0.2
10
320
330
340 350
T(K)
360
320
330
340 350
T(K)
360
0.4
0.2
310
320 330
T(K)
340
350
0
300
310
320 330
T(K)
340
0.8
15
350
15
0.6
10
10
0.4
5
5
0.2
310
320 330
T(K)
340
350
310
320 330
T(K)
340
position in bp
position in bp
0
0.4
position in bp
0.2
0.4
position in bp
Θ
0.4
Θass
1
0.8
Θass
1
0.8
350
Fig. 14 – (Haut) Courbes de dénaturation pour L48AS (à gauche) et pour L19AS2 (à droite) dans
une solution à 50 mM en sel (cT = 2.10−6 ). Les points verts représentent les données expérimentales,
les lignes donnent les résultats des simulations pour les paramètres standard (pointillés noirs) ou pour
d’autres jeux de paramètres (bleues, rouge et violette). Les courbes rouge et violette soulignent des
paramètres qui permettent de bien reproduire les données expérimentales de L60B36. (Bas) Cartes
de probabilité p(α) × Θass pour les paramètres standards (encadré noir) et pour les paramètres de
la courbe violette (encadré violet).
16
−dΘint/dT
0.4
0.2
350
360
0.9
0.2
0.8
0.1
0.7
0
340
370
350
position in kbp
T(K)
360
4
3
3
0.6
2
0.4
2
0.2
1
1
350
360
370
350
T(K)
360
0.6
0.6
1−Θ
0
340
0.4
0.2
0
340
350
T(K)
360
0.6
0.4
0.2
0
365
390
300
320
340
360
(B2)
0.8
1−Θass
1−Θass
0.8
1
(A )
2
360
400
(B1)
T(K)
1
355
0.4
0
370
350
Fig. 16 – Θ (à gauche) et −dΘ/dT (à droite)
pour un brin de 78433 bp (un dixième du
génome de Saccharomyces) dans une solution saline à 74.5 mM en [N a+ ]. La ligne
pointillée noire représente les paramètres
standard, les lignes bleues sont issues de
plusieurs jeux de paramètres aléatoires.
0.2
330
345
T(K)
<Tbulle
>, <Tbord
>(K)
m
m
1−Θ
0.8
360
0.1
370
1
(A1)
350
T(K)
0.5
0.2
Fig. 15 – (Haut) Θint (à gauche) et
−dΘint /dT (à droite) pour PN/MCS-13 [47]
dans une solution saline à 74.5 mM en
[N a+ ] [39, 17]. Les points verts sont les
données expérimentales, les lignes donnent
les résultats des simulations pour les paramètres standard (pointillés noirs) ou
pour d’autres jeux de paramètres (bleues,
rouge).(Bas)Cartes de probabilité p(α)×Θass
pour les paramètres standard (encadré noir)
et pour les paramètres de la courbe rouge (encadré rouge).
1
0
340
0.3
T(K)
0.8
0.1
0.05
0.4
4
0.8
0.2
0.15
0.6
370
T(K)
Θ
0
340
1
0.3
position in kpb
Θint
0.6
0.4
−dΘ/dT
1
0.8
380
370
360
0.6
0.4
350
0.2
330
340
350
T(K)
360
370
0
300
320
340
340
360
T(K)
0
20
40
60
80
100
n
bulle > (lignes pleines) et
Fig. 18 – < Tm
bord
< Tm > (lignes pointillées) pour plusieurs
valeurs de m : 20 (rouge), 25 (noir), 30 (vert)
et 50 (bleu).([N a+ ] = 0.1 M)
Fig. 17 – 1 − Θ et 1 − Θass pour L60B36
(gauche) et L19AS2 (droite) pour différentes
concentrations en sel : 0.05 M (rouge), 0.2
M (noir) et 1 M (vert) (cT = 2.10−6 ) ; et
pour différents jeux de paramètres : standard
(ligne pleine), observation d’une bulle (pointillée).
17
position in bp
30
20
40
30
10
40
10
1
320 340 360
T(K)
80
70
60
50
40
1
320 340 360
T(K)
320 340 360
T(K)
320 340 360
T(K)
1
320 340 360
T(K)
Fig. 19 – Probabilité individuelle interne p(α) en fonction de T pour m = 20 et
pour plusieurs n (de la gauche vers la droite) : 10, 15, 20, 25, 30. ([N a+ ] = 0.1 M)
420
250
410
200
400
390
nmin
T∞
bulle
150
380
370
100
360
350
50
340
330
1
2
10
10
0
3
10
1
2
10
m
10
3
10
m
∞ (m)
Fig. 20 – Tbulle
obtenue avec
MPS (rouge) ou équation modèle (41)
(bleu).([N a+ ] = 0.1 M)
Fig. 21 – Diagramme de nucléation pour
les séquences Gn Am Gn obtenue avec MPS
(rouge) ou avec l’équation nmin = 26.86 τn
(bleu). La bulle interne est stable dans la
partie supérieure et instable dans la partie
inférieure.
plus ou moins favorisé par les paramètres. Il semble en effet qu’à taille de bulle fixée, il faille une
certaine longueur pour les bords afin que l’état intermédiaire avec bulle soit stable. Ainsi, intéressons
nous à la série de séquences modèles Gn Am Gn (n, m entiers positifs). Pour estimer la longueur de
bord minimum nécessaire, on peut évaluer séparément la température de fusion interne moyenne de la
bulle > et des bords < T bord > à partir des probabilités internes individuelles p(α) (Fig.19)
bulle < Tm
m
(attention, dans un premier temps, on s’intéresse uniquement à Θint et p(α), les effets associatifs et
bulle > et < T bord >
l’influence de cT ne sont pas étudiés). La figure 18 représente l’évolution de < Tm
m
bulle
en fonction de n pour plusieurs m. On remarque que < Tm
> converge rapidement vers une
∞ dépendante de m (Fig.20) alors que < T bord > semble converger également vers
valeur limite Tbulle
m
∞ ∼ 400 K mais de manière beaucoup plus lente et cette température est
une valeur limite Tbord
bulle > correspond à la stabilisation de la bulle, la taille des
indépendante de m. Le plateau de < Tm
∞ est atteinte
bords ne jouant plus sur l’ouverture de la région Am . La valeur de n pour laquelle, Tbulle
à 99.9% près, est donc la taille minimum des bords nmin (m) pour avoir un état intermédiaire avec
bulle stable. La figure 21 montre l’évolution de nmin en fonction de m pour différentes concentration
en sel et différentes valeurs de γS . On observe que la diminution de [N a+ ] (ou l’augmentation de
γS ) diminue les valeurs de nmin .
18
2
1.9
1.8
1.7
1.5
τ
AT/GC
1.6
1.4
1.3
1.2
1.1
1
−3
10
−2
−1
10
10
0
10
+
[Na ]
Fig. 22 – τAT /GC en fonction de la concentration en sel
[N a+ ] (voir Eq.(38)).
Le fait de rajouter les effets associatifs (ie de s’intéresser à p(α) × Θass au lieu de p(α)) ne
changent pas l’allure des courbes, ni l’influence des divers paramètres. La principale modification
est d’augmenter nmin par rapport à précédemment : les effets associatifs ont tendance à séparer
le double brin pour des températures inférieures aux températures internes de fusion des différents
domaines.
4
4.1
Discussion
Dépendance en sel
Le principal intérêt de la correction en sel introduit dans la section 2.2 est de dépendre de
la nature et de l’environnement local de la paire de bases. Elle permet ainsi de rendre compte
quantitativement des effets du sel sur une importante gamme de longueurs de brins. De plus le fait
que les bases de type AT soient plus affectées (pertes plus importantes d’entropie) que celles de type
GC par une baisse de la concentration en sel, rend les régions riche en AT encore plus instable à des
concentrations physiologiques ([N a+ ] ≈ 154 mM). En effet
la probabilité d’ouverture Popen (XY ) de
0
la bipaire XY est proportionnelle à exp β∆GN N (XY ) . Donc, par exemple,
Popen (AT )
Popen (AT )
([N a+ ], T ) =
(1 M, T ) × τAT /GC ([N a+ ])
Popen (GC)
Popen (GC)
(37)
avec
n
τAT /GC ([N a+ ]) = exp (0.34∆h0N N (GC) + 3.95∆h0N N (AT ))10−5 log([N a+ ])
o
+9.4(∆h0N N (GC) − ∆h0N N (AT ))10−6 log2 ([N a+ ])
(38)
Sur la figure 22, on remarque que par rapport à 1 M, la probabilité d’ouverture de AT devient de
plus en plus grande par rapport à celle de GC lorsque l’on diminue [N a+ ].
Ainsi, cela favorise l’ouverture des boı̂tes T AT A (promoteurs des gênes dans les cellules eukaryotes et initiateurs transcriptionnels [48]) qui est une étape importante des phases de transcription.
De même, cette différence de comportement entre AT et GC peut avoir des applications dans l’étude
19
n+m
n
Z1
m
n
Z2
Z3
Fig. 23 – Séquences prises en compte pour simplifier le problème de la nucléation.
des cartes de gênes (qui s’appuie sur l’ouverture de domaines riches en AT ) [49] et de la longueur
de persistence de l’ADN avec effet bulle [50, 51] en fonction de la concentration en sel.
4.2
Rôle des erreurs
La sensibilité des courbes de fusion pour certains types de brins illustrent la difficulté à prédire les
comportements des observables pour des oligomères longs ou des polymères courts. Cette difficulté
vient essentiellement des erreurs statistiques sur les différents paramètres. Néammoins, l’analyse de
p(α) × Θass souligne la robustesse des cartes de probabilité vis à vis des paramètres. Ainsi, comme
le remarque Yeramian et Jones [49], de telles considérations de sensibilité ne doivent pas être prises
en compte si l’on s’intéresse uniquement au lien entre les cartes de probabilité et les descripteurs
structuraux des séquences. Mais cela ne s’applique pas aux courbes de fusion et aux propriétés de
la transition double-hélice/simples brins car la température de fusion et la largeur de transition
de chaque domaine influencent le comportement général du brin. Ceci est d’autant plus vrai que
la taille des régions riches en AT est importante devant celle de la séquence (oligomères longs et
polymères courts).
4.3
Nucléation
Le phénomène de nucléation réside principalement dans la stabilisation de la bulle par une taille
des bords suffisamment importante. En effet, si les bords sont trop petits, l’ouverture de la bulle et
des bords vont se faire simultanément et l’on observera une transition entre le double brin totalement
fermé et le double brin où seul un bord est clos. Si les bords sont assez grands pour stabiliser la bulle,
on aura deux transitions consécutives :tout fermé/bulle ouverte, bulle ouverte/bulle+bord ouverts.
Pour étudier la nucléation, on peut donc simplifier le modèle MPS en ne s’intéressant qu’aux
séquences de la figure 23. La probabilité pour que la bulle soit fermée est
pbulle =
Z1
Z1 + Z2 + 2Z3
(39)
En supposant que les bords des bulles aient des effets négligeables,on a donc
bulle
pbulle (< Tm
>) = 1/2
(40)
On peut alors en déduire une limite pour n → +∞ (voir Annexe C.1)
∞
Tbulle
=
m HAA
m SAA − 2γS + kB log
6
Kl
mc
avec HAA et SAA , l’enthalpie et l’entropie de la paire de base AA.
20
(41)
Sur la figure 20, on remarque que l’équation (41) rend bien compte des résultats issus du modèle
MPS pour les grandes valeurs de m. Quand m diminue, les effets de bords des bulles deviennent de
∞
plus en plus importants et l’équation ci-dessus n’est plus valable. On remarque également que Tbulle
AA = 335.9 K quand m tend vers l’infini.
tend vers la température de fusion par paire de base Tm
∞
Avec le même modèle simplifié, on peut montrer que Tbord est bien indépendant de m et est égale à
GG = 400.6 K.
Tm
Seule Z3 dépend de n (voir Annexe C), c’est donc cette fonction de partition qui va guider
bulle > et la convergence vers T ∞ . On peut montrer (voir Annexe C.2) qu’apl’évolution de < Tm
bulle
paraı̂t dans Z3 une taille caractéristique τn de décroissance
τn = −kB
mHAA
m(HGG SAA − SGG HAA ) − 2HGG γS + kB HGG log
6
Kl
mc
(42)
qui est proportionnelle à nmin . La figure 21 confirme ce lien de proportionnalité pour les grandes
valeurs de m, en effet, comme précédemment, pour les petites valeurs de m les effets de bords ne sont
plus négligeables et le modèle simplifié est trop élémentaire. Néammoins l’évolution de la courbe
reste la bonne.
4.4
Paramétrisation du modèle
Générallement, les paramètres énergétiques (∆h0N N ,∆s0N N ) ont été paramétrés grâce à des oligomères courts ayant une transition à deux états. Par rapport au modèle NN, MPS introduit deux
nouveaux paramètres ωE et γS . Le manque de données sur des séquences où ces paramètres deviennent importants (oligomères longs type L60B36 ou L48AS et polymères courts) ne permet pas
d’estimer de manière précise leur valeur (on a supposé une déviation standard de 30%). Pourtant,
pour espérer bien décrire une large gamme de longueurs de brins d’ADN, il faudrait incorporer un
maximum de ces séquences dans une paramétrisation plus générale. La sensibilité du comportement
de ces séquences est même un avantage pour paramétrer le modèle afin de réduire les erreurs (voir
Annexe D).
De plus, lors de l’ancienne paramétrisation de la coopérativité σ [17, 36], les valeurs de σ et
de c étaient intimement liées (σ = 1.26.10−4 pour c = 2.15, σ = 1.26.10−5 pour c = 1.76). Or,
il est clair avec la description faite par Everaers dans [25], que σ et c sont découplés. En effet, la
coopérativité est un facteur énergétique de bord alors que c est un exposant universel venant de la
théorie des polymères. Ainsi, même si c peut dépendre de la taille et de la composition du doublebrin, σ (ou γS ) doit être indépendant de l’échelle de longueur considérée. Donc, la complexité de la
structure secondaire pour certains polymères ne permet pas une bonne estimation de c et donc de σ.
D’où l’utilité de se servir de séquences avec une ou deux bulles possibles (pour lesquelles l’exposant
c = 1.76 est une approximation correcte) afin de paramétrer σ. D’ailleurs une étude plus approfondie
utilisant le modèle sur réseau permettrait de s’affranchir de c et de pouvoir évaluer directement γ.
Pour évaluer les paramètres NN, utiliser des séquences ayant une transition purement à deux
états est une bonne méthode puisque les autres paramètres (ωE et γS ) n’interviendront pas. De
même, on peut imaginer des expériences où ce sont essentiellement γS ou ωE qui influeront sur
la modélisation afin de s’affranchir des éventuelles erreurs d’autres paramètres. Il faut également
choisir des observables qui seront sensibles aux différents paramètres à évaluer. Par exemple pour
paramétrer γS , on propose d’étudier les deux types de séquences Sloop = GP AN GP (1 bulle) et
S2loop = G2P/3 AN/2 G2P/3 AN/2 G2P/3 (2 bulles) avec P assez grand pour pouvoir négliger les effets
loop pour S
de bord (P = 100). On calcule les températures de fusion pour les bulles des 2 brins (Tm
loop
2loop pour S
et Tm
2loop ) et on étudie la différence entre ces températures pour plusieurs N . La figure
2loop − T loop en fonction de 1/N pour plusieurs valeurs de γ ainsi que les
24 montre l’évolution de Tm
S
m
21
50
24
45
15
m
22
T2loop − Tloop
20
10
40
m
20
5
35
0
0.01
16
0.02
1/N
0.03
Tloop
− Tend
m
m
T2loop
− Tloop
m
m
18
14
30
25
12
20
10
15
8
10
6
0.02
0.025
0.03
0.035
0.04
5
0.045
1/N
2loop − T loop en fonction de 1/N
Fig. 24 – Tm
m
pour plusieurs valeurs de γS : -5.96 (noir),
-4.96 (rouge) et -3.96 (vert).
0.02
0.04
0.06
1/N
0.08
0.1
loop − T end en fonction de 1/N
Fig. 25 – Tm
m
pour plusieurs valeurs de ωE : -1.58 (noir),
-1.08 (rouge) et -0.58 (vert).
barres d’erreurs théoriques dûes aux erreurs sur les paramètres NN. L’écart augmentant avec 1/N , on
a intérêt à faire des expériences pour des petites valeurs de N (N doit être suffisamment grand pour
observer l’état intermédiaire avec bulle(s)). De plus, on remarque que les erreurs théoriques limitent
la précision sur γS de l’ordre de 10%. Néammoins, les erreurs expérimentales étant de l’ordre de 0.3
K, une détermination de γS avec des séquences dans la zone N = 20..40 est tout à fait envisageable.
De même, pour paramétrer ωE on peut imaginer s’intéresser aux séquences Sloop et Send =
loop − T end en fonction de
AN/2 G2P AN/2 avec également P grand. La figure 25 donne l’évolution de Tm
m
1/N . On observe que même si, pour des petits N , la courbe semble sensible à ωE , les barres d’erreurs
importantes empêchent une détermination trés précise de ωE . Cette différence avec le cas précédent
vient ici du rôle important joué par les bords. En effet, les paramètres de bord NN ont une déviation
standard assez importante qui se reflète automatiquement sur les barres d’erreurs théoriques. Sans
une amélioration des erreurs sur les paramètres NN (et surtout sur ceux d’initiation), il y a peu
d’espoir d’arriver à évaluer ωE de manière précise avec cette méthode.
22
Conclusion
Pour conclure, nous avons présenté un modèle de type Poland-Scheraga basé sur un modèle
sur réseau afin d’étudier la dénaturation thermique de l’ADN. Nous avons également introduit
une nouvelle correction en sel agissant sur l’entropie des paramètres énergétiques. Cette correction
tient compte de la nature et de l’environnement local des paires de bases. Elle semble adaptée
à une large gamme d’ADN allant des oligomères courts aux polymères longs. Notre approche a
également permis de prendre en compte les erreurs statistiques nous accordant ainsi d’évaluer des
barres d’erreur théoriques données par le modèle. La comparaison avec les expériences montre que,
en général, les courbes de fusion sont assez bien reproduites par la simulation grâce notamment à
l’étude des erreurs. Le pouvoir de prédiction de notre modèle semble donc bon. Afin de l’exploiter,
nous nous sommes intéressés au problème de nucléation des bulles internes dans les oligomères longs.
Nous avons ainsi étudié l’influence de la taille des bords sur l’ouverture de la bulle et le rôle de la
taille de la bulle sur sa température de fusion. De plus, l’évaluation des erreurs a permis de souligner
la grande sensibilité des observables par rapport aux paramètres pour certains types de séquences.
Ces brins sont des chaı̂nes assez courtes (oligomères longs, polymères courts) contenant des grandes
régions riches en AT . Cette propriété peut alors être utilisée à profit afin d’affiner la paramétrisation
du modèle.
Par la suite, une fois de nombreuses expériences réalisées sur ce type de séquences permettant
d’avoir une bonne statistique, il sera possible de paramétrer de manière plus précise notre modèle.
Avec ces nouveaux paramètres, une étude générale plus détaillée des oligo et polynucléotides sera
imaginable et un accès aux structures tertiaires (via le modèle sur réseau) sera possible pour un
large échantillon d’ADN.
23
Annexes
A
Algorithme de Fixman-Freire
A.1
Simplification
Simplifions tout d’abord les relations de récurrence. En posant,
Zf∗ (α)
Zb∗ (α)
∗
Zsf
(α)
α−1
X
!
(43)
!
(44)
!
(45)
(α − α′ )−c Zf∗ (α′ ) + σ1 (α)
(46)
= exp −β
= exp −β
= exp −β
Gi Zf (α)
i=1
N
−1
X
i=α
α−1
X
Gi Zb (α)
Gi Zn (α)
i=1
On obtient,
Zf∗ (α
−βGα
+ 1) = e
Zf∗ (α)
+ σ0 (α)
α−2
X
α′ =2
Zb∗ (α) = e−βGα Zb∗ (α + 1) + σ0 (α − 1)eβGα−1
∗
Zsf
(α) = Kl e−2βγ
(α′ − α − 1)−c e−βGα′ −1 Zb∗ (α′ )
α′ =3
+σ2 (α)eβGα−1
α−2
X
N
X
(47)
(α − α′ )−c Zf∗ (α′ ) + Kf e−βγ (α − 1)ζ−1
(48)
α′ =2
′
′
avec σ0 (α) = Kl e−2βγ e−βGα , σ1 (α) = Kf e−βγ e−βGα (α − 1)c et σ2 (α) = Kf e−βγ e−βGα−1 (N − α)c .
A.2
Approximation de Fixman-Freire
L’approximation de Fixman-Freire [38] consiste à approcher x−c par une somme finie de termes
exponentiels
x−c ≈
I
X
ak e−bk x
(49)
k=1
Les valeurs de {ak , bk } sont déterminées par résolution d’équations non linéaires [38].
Avec ce développement, on introduit deux nouvelles variables
ebi α eµi (α) ≡
e−bi α eνi (α) ≡
α−2
X
α′ =2
N
X
′
ebi α Zf∗ (α′ )
(50)
′
(51)
e−bi α e−βGα′ −1 Zb∗ (α′ )
α′ =α
Ainsi
Zf∗ (α) = eµi (α) − e−bi eµi (α−1)
h
Zb∗ (α) = eβGα′ −1 eνi (α) − e−bi eνi (α+1)
24
(52)
i
(53)
(54)
Les fonctions nouvellement introduites vérifient alors les relations de récurrence
µi (α + 1) = µi (α) + log(A + B + C + D)
′
′
′
(55)
′
νi (α) = νi (α + 1) + log(A + B + C + D )
(56)
(57)
Avec
B = e−βGα 1 − e−bi eµi (α−1)−µi (α)
i (α)
D = σ1 (α)e−µ
B ′ = e−βGα−1 1 − e−bi eνi (α+2)−νi (α+1)
D ′ = σ2 (α)e−νi (α+1)
A = e−bi
P
C = σ0 (α) Ik=1 ak e−2bk eµk (α−2)−µi (α)
A′ = e−bi
P
C ′ = σ0 (α − 1) Ik=1 ak e−2bk eνk (α+3)−νi (α+1)
∗
Et pour Zsf
∗
Zsf
= Kl e−2βγ
I
X
k=1
A.3
ak e−2bk eµk (α−2) + Kf e−βγ (α − 1)c
′
(58)
Conditions initiales des récurrences
Pour résoudre ces relations de récurrence, on a besoin de connaı̂tre les conditions initiales. Comme
Zf∗ (2) = e−β(G1 +ω1 )
Zf∗ (3)
Zf∗ (4)
(59)
−β(G2 +G1 +ω1 )
= e
−β(γ+G2 )
+ Kf e
(60)
= e−β(G3 +G2 +G1 +ω1 ) + Kf e−β(γ+G2 +G3 ) + Kf 2ζ−1 e−β(γ+G3 )
(61)
on a
µi (2) = log(Zf∗ (2))
(62)
µi (3) = log(Zf∗ (3) + e−bi Zf∗ (2))
µi (4) =
log(Zf∗ (4)
−bi
+e
Zf∗ (3)
(63)
−2bi
+e
Zf∗ (2))
(64)
De même pour νi
Zb∗ (N ) = e−β(ωN )
Zb∗ (N
Zb∗ (N
(65)
−β(GN−1 +ωN )
−βγ
− 1) = e
+ Kf e
−β(GN−2 +GN−1 +ωN )
− 2) = e
(66)
−β(γ+GN−2 )
+ Kf e
ζ−1 −βγ
+ Kf 2
e
(67)
on a alors
νi (N ) = log(Zb∗ (N )e−βGN−1 )
νi (N − 1) =
νi (N − 2) =
−βGN−2
log(e
Zb∗ (N
log(e−βGN−3 Zb∗ (N
− 1) +
− 2) +
(68)
−bi −βGN−1
e e
Zb∗ (N ))
e−bi e−βGN−2 Zb∗ (N −
(69)
−2bi −βGN−1
1) + e
e
Zb∗ (N ))
(70)
Pour Zn∗
∗
Zsf
(1) = 0
∗
Zsf
(2)
∗
Zsf
(3)
(71)
−βγ
(72)
c′
(73)
= Kf e
= Kf 2 e−βγ
25
A.4
Observables
En incorporant les nouvelles variables, on obtient
p(α) =
∗ (α)Z ∗ (α + 1)e−βGα + Z ∗ (α)Z ∗ (α) + 5 e−β(ω1 +ωN +
Zsf
f
b
b
PN −1
′
Pour calculer Θass , on a besoin de FAB et FA + FB
FAB = −kB T log Z = −
FA + FB = −
Ainsi
i=1
−β(ω1 +ωN +
c ∗
α=2 (N − α) Zf (α) + 5 e
e−βωN Zf∗ (N ) + Kf e−βγ
et
PN−1
N
−1
X
i=1
N
−1
X
i=1
Gi − kB T log Z ∗
Z∗
′
2
(1.2) (N − 1)2c
i=1
Gi )
(74)
(75)
Gi − kB T log (1.2)2 (N − 1)2c
FAB − FA − FB = −kB T log
Gi )
PN−1
′
(76)
(77)
De plus dans notre modèle, on fixe le paramètre ωE qui est relié à l’entropie de mélange Fmix ≡
∗ (N − 1)). De la définition de ω [25] on tire
−kB T log(vAB
E
∗
vAB
=
Kf
4 × 2c′
2
1
′
(N − 1)2c −1 e−2ωE /kB
6
(78)
Ainsi on obtient
FAB − FA − FB + Fmix = −kB T log(Z ∗ /6) + 2T ωE
Soit
eβG0 =
A.5
6 2ωE /kB
e
Z∗
(79)
(80)
Algorithme
L’algorithme consiste donc à resoudre les relations de récurrence pour µi et νi , d’en déduire
∗ puis de calculer p(α), Θ
et Zsf
int et Θass .
L’approximation de Fixman-Freire permet ainsi de passer d’une résolution en O(N 2 ) à une
résolution en O(N × I).
Zf∗ ,Zb∗
B
Paramétrisation du modèle NN
Pour la détermination des ∆h0i,j et ∆s0i,j du modèle NN, on suit la méthode de Allawi et SantaLucia [14]. On dispose de 108 oligomères courts qui ont une transition à deux états et dont on connait
∆H0 et ∆S0 (voir le Supplementary Materials de [14]). Les données peuvent alors être écrites sous
la forme
H = P · HNN
S = P · SNN
(81)
(82)
où HNN est le vecteur des 12 paramètres ∆h0i,j (idem pour SNN ), P est la matrice de paires, ie, Pij
est le nombre de paires j dans la séquence i et H le vecteur des ∆H0 des 108 séquences (idem pour
S).
26
B.1
Décomposition en valeur singulière
Les solutions des équations (81) et (82) sont obtenues avec la méthode de décomposition en
valeur singulière (SVD) [52] qui inverse P et minimise
χ2H
=
X
Hi −
P
Pij HN N,j
Si −
P
Pij SN N,j
j
σH,i
i
χ2S
=
X
i
j
σS,i
!2
!2
(83)
(84)
avec σH,i et σS,i les déviations standards de ∆H0 (5%) et ∆S0 (6%).
Soit U (matrice unitaire de taille 108× 108), V (matrice unitaire de taille 12× 12) et W (matrice
diagonale positive de taille 108 × 12) les trois matrices obtenues par la décomposition SVD de A
(Aij = Pij /σi )
A = U · W · V†
(85)
alors la minimisation de Eq.(83) et (84) a pour solution
HNN =
SNN =
108 X
U(i) ·bH
i=1
108 X
i=1
V(i)
(86)
U(i) ·bS
V(i)
Wi
(87)
Wi
où U(i) représente la colonne i de U (idem pour V) et bH,i = Hi /σH,i (idem pour bS ).
B.2
Méthode Bootstrap
Pour évaluer les erreurs statistiques et les corrélations, on utilise la méthode Bootstrap [52, 53].
Elle consiste à choisir aléatoirement 68 séquences (63% du total) sur les 108, de tirer uniformément
40 séquences sur les 108 (il peut donc y avoir des doublons), puis d’effectuer la même minimisation
que précédemment sur ces 108 données. Les nouveaux paramètres sont alors distribués autour de
la valeur moyenne de manière gaussienne. Ces distributions permettent ainsi de calculer la matrice
covariante
Nt
1 X
(xi − x̄)(yi − ȳ)
(88)
Cov(x, y) =
Nt i=1
B.3
Variables indépendantes
Pour pouvoir tirer de manière aléatoire des nouveaux paramètres distribués autour des valeurs
standard, il faut tenir compte des corrélations entre paramètres. Donc, supposons que l’on ait n
variables {xi } corrélées entre elles, le problème est de trouver n variables {Xi } indépendantes entre
elles et fonctions des {xi } afin d’effectuer des tirages indépendants sur les {Xi } puis de revenir aux
{xi }. Ainsi, on va chercher les {Xi } sous la forme
Xi =
X
aij xj
(89)
j
On veut que les nouvelles variables ne soient pas corrélées donc on a
Cov(Xl , Xk ) = 0
27
∀l 6= k
(90)
On a donc n(n − 1)/2 équations et a priori n2 inconnues, {aij }. On peut donc fixer n(n + 1)/2
coefficients : on va supposer que la matrice a est triangulaire supérieure avec des 1 sur sa diagonale.
Les équations (90) reviennent alors à résoudre
al · Cx · (ak )† = 0 ∀l 6= k
(91)
avec al est la ligne l de la matrice a et Cx la matrice covariante des {xi }. On résout ces équations
”ligne par ligne”, en débutant par n − 1 puis n − 2,... On obtient ainsi les {aij } qui permettent de
calculer X̄i et σXi .
Enfin, après avoir effectué un tirage aléatoire sur les {Xi }, on revient aux {xi } en inversant la
relation (89).
C
Modélisation de la nucléation
Pour les séquences de la figure 23, on a
Z1 = 6 e−2βω
Z2 = Kl m
(92)
−c −2β(ω+γ)
e
exp {β(m∆GAA + ∆GGA + ∆GAG )}
c′ −β(ω+γ)
Z3 = Kf (n + m) e
C.1
exp {β(m∆GAA + n∆GGG + ∆GGA + ∆GAG )}
(93)
(94)
Étude des T ∞ en fonction de m
GG = H
Ainsi quand n → ∞, Z3 → 0 sauf quand T = Tm
GG /SGG = 400.6 K. En ce qui concerne
GG et donc on peut négliger Z pour n
les températures de fusion de la bulle, on est plus bas que Tm
3
grand. On obtient alors
Z1
(95)
pb =
Z1 + Z2
Si on suppose que les effets de bord des bulles sont négligeables, ie, toutes les bases de la bulle ont la
même probabilité d’ouverture pb et on peut négliger les termes de bord ∆GGA et ∆GAG , on obtient
∞
les équations suivantes pour la détermination de Tbulle
∞
pb (Tbulle
) = 1/2
⇒
∞
∞
Z1 (Tbulle
) = Z2 (Tbulle
)
(96)
soit
1 =
∞
Tbulle
=
Kl −c 2γS /kB −m SAA /kB m HAA /(kB T ∞ )
bulle
m e
e
e
6
m HAA
m SAA − 2γS + kB log
Pour les bords, la probabilité de fermeture vaut
pbd =
6
Kl
Z1 + Z2 + Z3
Z1 + Z2 + 2 Z3
mc
(97)
(98)
(99)
La seule possibilité pour que pbd = 1/2 est que Z3 → ∞, ce qui est uniquement réalisé quand
GG , ainsi
T = Tm
∞
GG
Tbord
= Tm
(100)
28
C.2
Étude de nmin en fonction de m
La décroissance exponentielle de Z3 en fonction de n est de la forme
′
Z3 (n) = α(n + m)c e−n/τn
(101)
avec α une constante indépendante de n et τn = −kB T /∆GGG une taille caractéristique de décroissance.
∞ , on obtient
Pour la bulle, en supposant que T ∼ Tbulle
τn = −kB
mHAA
m(HGG SAA − SGG HAA ) − 2HGG γS + kB HGG log
6
Kl
mc
(102)
bulle >= 0.999 × T ∞ , ainsi n
De plus nmin est défini comme la valeur pour laquelle < Tm
min va
bulle
dépendre de la décroissance de Z3 . D’où
nmin ∝ τn
D
(103)
F -test
Considérons un ensemble de N points expérimentaux {(yi , xi )} (par exemple Tm , ∆H0 , etc.) que
l’on veut modéliser avec M paramètres {aj } (par exemple γS , ∆h0N N , etc.). Pour cela on minimise
χ20 [52, 54]
N X
yi − f ({aj }, xi ) 2
2
χ0 ({aj }) =
(104)
σi
i=1
Cette minimisation nous fournit les paramètres {a0j }. Supposons maintenant que l’on ajoute un
point expérimental à nos données (y, x) et que l’on effectue une nouvelle minimisation avec
2
χ ({aj }) =
χ20 ({aj })
+
y − f ({aj }, x)
σ
2
(105)
donnant de nouveaux paramètres {a1j }. Dans le cas où, N >> 1, le fait d’ajouter un point ne doit
pas changer de manière significatrice les paramètres, ie, |a1j − a0j |/|a0j | ≪ 1. Donc
χ
2
({a1j })
≈
χ20 ({a0j })
+
y − f ({a0j }, x)
σ
!2
(106)
Ainsi, pour estimer l’effet de l’ajout de ce point sur la paramétrisation du modèle, on utilise un
F -test [54] défini par
χ2 ({a1j }) − χ20 ({a0j })
1
≈ (N − M ) 2 0
Fχ = 2 0
χ0 ({aj })/(N − M )
χ0 ({aj })
y − f ({a0j }, x)
σ
!2
(107)
Plus Fχ est grand, plus le point ajouté a de l’intérêt.
Donc, pour des séquences ayant une grande sensibilité par rapport aux paramètres, Fχ va être
plus large que pour des oligomères courts pour lesquelles la transition est peu sensible aux paramètres. Ainsi, on a intérêt à incorporer des séquences type oligomères longs pour améliorer la
paramétrisation.
29
Références
[1] J.D. Watson and F.H.C. Crick, Nature 171, 737 (1953)
[2] http ://www.coll-outao.qc.ca/bio/Imagebiologie/
[3] C. Calladine, H. Drew, B. Luisi and A. Travers. Understanding DNA ; the molecule and how it
works, Elsevier Academic Press (2004)
[4] M. Peyrard and A.R. Bishop, Phys.Rev.Lett. 62, 2755(1989)
[5] D. Poland and H.A. Scheraga. Theory of Helix-Coil Transition in Biopolymers, Academic Press,
New York (1970)
[6] D.M. Crothers and B.H. Zimm, J.Mol.Biol. 9, 1 (1964)
[7] H. DeVoe and I. Tinoco, Jr., J.Mol.Biol. 1, 500 (1962)
[8] J. SantaLucia, Jr., Proc. Natl. Acad. Sci. U.S.A. 95, 1460 (1998)
[9] R. Owczarzy et al, Biopolymers 44, 217 (1998)
[10] D. Poland and H.A. Scheraga, J.Chem.Phys. 45, 1456, 1464 (1966)
[11] O. Gotoh and Y. Tagashira, Biopolymers 20, 1033 (1981)
[12] M.J. Doktycz et al, Biopolymers 32, 849 (1992)
[13] J. SantaLucia, Jr., H. Allawi and P.A. Seneviratne, Biochemistry 35, 3555 (1996)
[14] H.T. Allawi and J. SantaLucia, Jr., Biochemistry 36, 10581 (1997)
[15] A.L. Oliver, R.M. Wartell and R.L. Ratliff, Biopolymers 16, 1115 (1977)
[16] B.R. Amirikyan, A.V. Vologskii and Y.L. Lyubchenko, Nuc. Acids Res 9, 5469 (1981)
[17] R.D. Blake and S.G. Delcourt, Nuc.Acids.Res. 26, 3323 (1998)
[18] http ://www.geneticengineering.org/chemis/Chemis-NucleicAcid/Graphics/
[19] Y. Zeng, A. Montrichok and G. Zocchi, J.Mol.Biol. 339, 67 (2004)
[20] Y. Zeng and G. Zocchi, Biophys. J. 90, 4522 (2006)
[21] D.D. Shoemaker, E.E. Schadt et al, Nature 409, 922 (2001)
[22] N.C. Seeman, Biochemistry 42, 7259 (2003)
[23] A.Fire, M.K Montgomery, S.A. Kostas, S.E. Driver and C.C. Mello, Nature 391, 806 (1998)
[24] B. Daneholt. Advanced Information on The Nobel Proze Generally in Physiology or Medecin
2006 - RNA Interference, The Nobel Assembly at Karolinska Institutet (2006)
[25] R. Everaers, S. Kumar and C. Simm, Phys.Rev.E 75, 041918 (2007)
[26] R.A. Dimitrov and M. Zuker, Biophys.J. 87, 215 (2004)
[27] R. Owczarzy et al, Biochemistry 43, 3537 (2004)
[28] M. Rubinstein and R.H. Colby. Polymer Physics, Oxford University Press, Oxford (2003)
[29] M.S. Causo, B. Coluzzi and P. Grassberger, Phys.Rev.E 62, 3958 (2000)
[30] C. Vanderzande. Lattice Models of Polymers, Cambridge University Press (1998)
[31] T. Garel and H. Orland, Biopolymers 75, 453 (2004)
[32] N.R. Markham and M. Zuker, Nuc.Acid.Res. 33, W577 (2005)
[33] M.E. Fisher, J.Chem.Phys. 45, 1469 (1966)
[34] Y. Kafri, D. Mukamel and L. Peliti, Eur.Phys.J.B 27, 135 (2002)
30
[35] Y. Kafri, D. Mukamel and L. Peliti, Phys.Rev.Lett. 90, 159802 (2003)
[36] R. Blossey and E. Carlon, Phys.Rev.E 68, 061911 (2003)
[37] P.-G. de Gennes. Scaling Concepts in Polymer Physics, Cornell University Press, Ithaca NY
(1979)
[38] M. Fixman and J.J. Freire, Biopolymers 16, 2693 (1977)
[39] R.D. Blake et al., Bioinformatics 15, 370 (1999)
[40] G.S. Manning, Biopolymers 11, 937 (1972)
[41] D. Erie et al., Biochemistry 26, 7150 (1987)
[42] M.T. Record and T.M. Lohman, Biopolymers 17, 159 (1978)
[43] M. Frank-Kamenetskii, Biopolymers 10, 2623 (1971)
[44] A. Vologodskii, B. Amirikyan, Y. Lyuchenko and M. Krank-Kamenetskii, J.Biomol.Struct.Dyn.
2, 131 (1984)
[45] R.M. Wartell and A.S. Benight, Physics Reports 126, 67 (1985)
[46] L60B36 : CCGCCAGCGGCGT T AT T ACAT T T AAT T CT T AAGT AT T AT AAGT AAT AT GGCCGCT GCGCC .
L19AS2 : AT AAT AAAGGCGGT CCGCC .
[47] Cette séquence est un complexe de 4660 bp composé par pBR322 mélangávec une
séquence répétitive de 245 bp. pBR322 est associé au numéro d’accession primaire J01749
(http ://www.ebi.ac.uk).
[48] S.T. Smale and J.T. Kadonaga, Annu.Rev.Biochem. 72, 449 (2003)
[49] E. Yeramian and L. Jones, Nuc.Acids.Res. 31, 3843 (2003)
[50] J.F. Marko and E.D. Siggia, Science 265, 506 (1994)
[51] J. Yan and J.F. Marko, Phys.Rew.Lett. 93, 108108 (2004)
[52] W.H. Press, S.A. Teukolsky, W.T. Vetterling and B.P. Flannery. Numerical Recipes in fortran
77 : the Art of Scientific Computing, Cambridge University Press, Cambridge UK (1996).
http ://www.nr.com
[53] B. Efron and R. Tibshirani. An Introduction to the Bootstrap, Chapman&Hall, London (1993)
[54] P.R. Bevington and D.K. Robinson. Data Reduction and Error Analysis for the Physical
Sciences, chapter 11.4, McGraw-Hill, New York (1992)
Remarques :
– Le travail effectué pendant le stage a abouti à la rédaction d’un article qui va être soumis à la
revue scientifique Proceedings of the National Academy of Sciences USA (PNAS) .
– Ce stage de M2 va se poursuivre sur une thèse (allocation couplée) au Laboratoire de Physique
de l’ENS Lyon sous la direction de Ralf Everaers. Le but de la thèse sera d’appliquer le modèle
sur réseau à la molécule d’ARN afin de s’attaquer à l’épineux problème du repliement de l’ARN.
Remerciements :
J’aimerai remercier particulièrement Ralf Everaers pour sa disponibilité, sa gentillesse ainsi que pour
ses remarques contructives sur mon travail. Un grand merci également à Jordi pour m’avoir trouvé
et installé si rapidement un ordinateur, et à Sophie pour avoir relu attentivement ce rapport afin
d’y traquer les nombreuses répétitions et autres fautes d’orthographe.
31

M2 Sciences de la Mati`ere STAGE 2007

Transcription

Documents pareils

Introduction aux effets audio

Master 2 Biostatistiques - UE Bayes

Probl`eme EasyDyn: robot `a 5 degrés de liberté

Un mod`ele de mélange de lois Rayleigh généralisées

Univers Viewer

TP2 Base de Données Avancée : JDBC 1

Examen de décembre 2005 - Université Paris-Est Marne-la

Forum: Hôtels

Taille bebe par rapport aux autres (MN4) Fichier: Femme

article - Comité de Bridge de Champagne