M2 Sciences de la Mati`ere STAGE 2007

Transcription

M2 Sciences de la Mati`ere STAGE 2007
M2 Sciences de la Matière
École Normale Supérieure de Lyon
STAGE 2007
JOST Daniel
M2
Option Physique
Dénaturation de l’ADN : au-delà de l’approximation à deux états
Résumé : Une compréhension quantitative de l’association des bases de l’ADN ou de l’ARN
est nécessaire pour l’étude de nombreux processus biologiques (transcription, réplication,
repliement et interférence de l’ARN) ainsi que pour le développement d’applications nanobiotechnologiques (puces ADN, auto-assemblage d’ADN). Depuis plus de quarante ans, deux
modèles tentent d’expliquer ce phénomène (le modèle plus proche voisin pour les oligomères
courts et le modèle Poland-Scheraga pour les polymères). Cependant des expériences récentes
sur la dénaturation d’oligomères longs ont jeté un doute sur l’applicabilité des descriptions
standards dans les cas où la double-hélice s’ouvre partiellement. Ici, nous présentons un
modèle de type Poland-Scheraga adapté d’un modèle sur réseau récemment développé qui
unifient toutes les échelles de longueur. Afin de prendre en compte les effets électrostatiques
dûs à la présence de sel dans les solutions d’ADN, nous introduisons une nouvelle correction
en sel semi-phénoménologique dépendante de la nature et de l’environnement local de chaque
paire de bases. Nous montrons que le pouvoir de prédiction de notre modèle est bon et permet
l’étude de la nucléation des bulles dans les oligomères. Enfin, nous discutons l’influence des
erreurs et de la paramétrisation sur nos résultats. Le modèle proposé assure ainsi un traitement unifié des oligo- et polymères dans toute la gamme de longueur et de concentration en
brins et en sel.
Laboratoire de Physique de l’ENS Lyon, UMR 5672 CNRS
46, Allée d’Italie
69007 LYON, FRANCE
http ://www.ens-lyon.fr/PHYSIQUE/
Maı̂tre de stage : Prof. Ralf Everaers - 04-72-72-88-52 - [email protected]
Du 01-04-2007 au 31-07-2007
Table des matières
Introduction
3
1 État de l’art
1.1 Équilibre d’association - Définitions .
1.2 Modèle plus proches voisins . . . . .
1.3 Modèle de Poland-Scheraga . . . . .
1.4 Modèle sur réseau . . . . . . . . . .
.
.
.
.
5
5
6
6
8
2 Modèle utilisé et Méthodes
2.1 Modèle de Poland-Scheraga modifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Correction dûe au sel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Prise en compte des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
9
11
12
3 Résultats
3.1 Correction en sel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Pouvoir de prédiction, comparaison avec l’expérience . . . . . . . . . . . . . . . . . . . . . . .
3.3 Structure interne, nucléation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
14
15
4 Discussion
4.1 Dépendance en sel
4.2 Rôle des erreurs . .
4.3 Nucléation . . . . .
4.4 Paramétrisation du
19
19
20
20
21
. . . . .
. . . . .
. . . . .
modèle
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Conclusion
23
Annexes
24
A Algorithme de Fixman-Freire
A.1 Simplification . . . . . . . . . . . .
A.2 Approximation de Fixman-Freire .
A.3 Conditions initiales des récurrences
A.4 Observables . . . . . . . . . . . . .
A.5 Algorithme . . . . . . . . . . . . .
.
.
.
.
.
24
24
24
25
26
26
B Paramétrisation du modèle NN
B.1 Décomposition en valeur singulière . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.2 Méthode Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.3 Variables indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
27
27
27
C Modélisation de la nucléation
C.1 Étude des T ∞ en fonction de m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.2 Étude de nmin en fonction de m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
28
29
D F -test
29
Références
30
Remarques
31
Remerciements
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Fig. 2 – Structure secondaire (en bas à
gauche) et structure tertiaire (en haut à
droite) d’un brin d’ARN [18]
Fig. 1 – Composition du double-brin d’ADN
[2]
Introduction
L’étude de l’ADN (acide désoxyribonucléique) et la compréhension de son important rôle en
biologie est un des sujets majeurs de recherche en biophysique. Chaque simple brin d’ADN est une
chaı̂ne de polymère composée d’un squelette sucre-phosphate auquel sont attachées diverses bases
azotées (adénine A, guanine G, thymine T ou cytosine C) ayant la possibilité de former des liaisons
hydrigènes entre bases complémentaires. Les deux simples brins peuvent alors formés un complexe en
double-hélice. Chaque base d’un simple brin forme, avec la base conjuguée de l’autre brin, une paire
de Watson et Crick [1] (A − T ou G − C) assurant ainsi la stabilité du complexe (Fig.1). Des processus biologiques clés tels que la transcription ou la réplication de l’information génétique requièrent
l’ouverture de la double-hélice d’ADN [3]. Ainsi une modélisation performante de ce phénomème
permettrait une compréhension approfondie de son implication en biologie. La dénaturation thermique, qui consiste à chauffer une solution d’ADN pour forcer les deux brins à se séparer, est un des
moyens existant pour étudier cette ouverture. L’échelle à laquelle la molécule est considérée permet
de sonder les différentes propriétés de la dénaturation : que ce soit au niveau microscopique avec
des modèles quantiques tout-atome par exemple, ou que ce soit au niveau mésoscopique avec des
modèles de type coarse-grained(Peyrard-Bishop [4], Poland-Scheraga [5], NN [8] etc.).
Parmis ces différents modèles, nous nous intéresserons uniquement aux modélisations mésoscopiques
considérant des intéractions de type Ising. Dans ce cadre là, depuis plus de 40 ans, deux descriptions standard de la dénaturation thermique de l’ADN existent : le modèle plus proches voisins (NN) qui décrit quantitativement la fusion des oligonucléotides courts (10-20 paires de bases
(bp)) [6, 7, 8, 9] ayant une transition à deux états entre un complexe en double-hélice totalement fermé et deux simples brins séparés ; le modèle de Poland-Scheraga (PS) qui s’intéresse aux
polynucléotides (∼ 1000 bp) [5, 10] au niveau de leur structure secondaire (Fig.2) comme une alternance de boucles et de parties en double-hélice. Au fur et à mesure des avancées technologiques et
des améliorations expérimentales, de nombreux efforts ont été consentis pour paramétrer ces deux
modèles [11, 12, 13, 14, 15, 16, 17] (en particulier les paramètres communs de gain d’énergie libre par
paire de bases voisines) afin qu’ils puissent fournir des résultats quantitatifs sur la fusion d’ADN.
Il y a une dizaine d’année, SantaLucia dans Ref.[8] concluait à propos du modèle NN :”Un jeu
3
de paramètres NN unifié est maintenant valable afin de faire des prévisions précises sur la thermodynamique des ADN poly- et oligonucléiques”. Néammoins, dernièrement, des nouvelles techniques
expérimentales de trempes [19, 20] permettent de mesurer le degré d’association Θass en plus de la
traditionnel mesure en UV de la fraction de paires de bases fermées Θ. Pour des longs oligomères,
Zeng et Zocchi [19, 20] montrent que le modèle NN n’est plus valide, mais comme les courbes de
fusion dépendent toujours de la concentration totale en brin, l’approche standard PS (qui suppose
Θass = 1) ne permet une bonne description de ces séquences. En plus, cette zone de longueur où
les formalismes habituels échouent dans la compréhension des phénomèmes est d’une importance
cruciale dans le développement de nombreuses bionanotechonogies telles que les puces ADN [21] ou
l’autoassemblage d’ADN [22] ainsi que dans l’étude d’applications biologiques comme l’interférence
ARN [23, 24]. C’est ainsi que récemment [25], ces modèles standards ont été complétés par un modèle
sur réseau qui réinterprète les termes de bords dans le modèle PS et conduit à un traitement unifié
de la dénaturation des oligo et polynucléotides. En sus, il donne accès à la structure tri-dimentionelle
(tertiaire, Fig.2). Le prix à payer est une augmentation énorme du temps de calcul des simulations.
Ainsi, afin de réduire ce temps, nous avons adapté le modèle PS au modèle sur réseau (modèle
MPS). Notre modèle intègre donc toutes les échelles de longueur de séquences et les effets associatifs dûs á la concentration finie en ADN dans les solutions. Pour parfaire ce modèle nous avons en
plus incorporer dans notre description une correction en sel unifiée semi-phénoménologique tenant
compte de la nature et de l’environnement local de la paire de bases dans le but de remplacer la
correction standard empirique de SantaLucia [8] qui est indépendante de la paire de base et qui fait
une distinction entre les deux échelles de longueurs que sont les oligomères et les polymères.
Ainsi, reproduire des données expérimentales sur différentes gammes de longueurs (en particulier
les séquences de tailles intermédiaires) et de concentration en ADN et en sel est un test crucial pour
la validation de l’approche unifiée que nous proposons. Néammoins, comme Dimitrov et Zuker [26] le
remarquent, il est possible que les paramètres standards soient mal estimés. Il est donc intéressant
de se pencher sur la paramétrisation de notre modèle (correction en sel, facteurs entropiques et
enthalpiques, etc.) à partir des données expérimentales et des erreurs statistiques qui en découlent
pour estimer l’impact de la paramétrisation sur les résultats issus des simulations.
D’où, après avoir fait, dans une première section, un bref rappel sur les définitions utilisées et
les modèles existants, nous décrirons dans la section 2 le modèle MPS et nous introduirons une
nouvelle correction en sel. Dans la troisième section, nous présenterons les résultats obtenus par les
simulations de MPS en comparaison avec les données expérimentales (influence de la concentration en
sel, courbes de fusion) et nous étudierons en détail la nucléation de bulles dans les oligomères. Enfin,
ces résultats seront discutés dans la section 4 avec notamment une réflexion sur la paramétrisation
de notre modèle.
4
1
1.1
État de l’art
Équilibre d’association - Définitions
On étudie la dissociation d’un brin d’ADN considéré comme un complexe AB en équilibre avec
deux simples brins A et B. Chaque brin est constitué de N bases (A,G,T ou C). Les observables
expérimentales examinées ici ([8, 27, 19]) sont la fraction totale de paires de bases fermées Θ(T ) et
le degré d’association Θass (T ) pour l’équilibre chimique entre l’état ouvert (les 2 brins séparés) et
l’état fermé (au moins une paire de bases fermées)
AB ⇀
↽A+B
(1)
Ainsi si on introduit la fraction interne de paires fermées Θint (T ), on peut relier ces observables
ensemble
1
1
Θ(T ) = Θint,AB (T )Θass (T ) + Θint,A (1 − Θass ) + Θint,B (1 − Θass )
(2)
2
2
Dans la suite, on négligera l’association interne des simples brins et on supposera que Θint,A =
Θint,B = 0.
On définit également les concentrations respectives cAB (T ), cA (T ) et cB (T ) en AB, A et B et la
concentration totale constante cT = 2 cAB (T ) + cA (T ) + cB (T ),


 cA (T )
= (1 − Θass (T ))cT
cA (T )
= (1 − Θass (T ))cT

 c (T ) = Θ (T ) c /2
AB
ass
T
(3)
La loi d’action de masse de l’équilibre chimique donne
∆G0
cA cB
= exp
cAB c0
kB T
(4)
où c0 est une concentration de référence (en général 1 M) et ∆G0 est la différence d’énergie libre entre
le complexe et les simples brins à la concentration de référence. Eq.(3),(4) permettent de déduire
Θass (x) = 1 + x −
q
x (2 + x)
(5)
0
avec x = ccT0 exp ∆G
kB T . Par exemple pour des brins très longs, ∆G0 → −∞ et donc Θass = 1, ainsi
Θ = Θint , les effets associatifs ne jouent alors aucun rôle lors de la transition. Au contraire, pour
des concentrations très faibles, x → +∞ et Θass tend rapidement vers 0, la transition est purement
à deux états et Θ = Θass .
L’énergie libre ∆G0 est égale à la différence FAB − FA − FB des énergies libres internes du
double ou des simples brins ajoutée à l’énergie libre de mélange Fmix = −T Smix avec le solvant.
Pour estimer cette entropie de mélange [25], on part de l’expression donnée par Rubinstein et Colby
[28] pour le mélange de 2 espèces E1 et E2
Fmix /V = kB T
1−Φ
Φ
log Φ +
log(1 − Φ)
vE1
vE2
(6)
où Φ est la fraction volumique en espèce E1 et vEi le volume molaire de l’espèce i. Dans la limite de
forte dilution (Φ << 1) et en supposant que les volumes molaires des espèces présentes s’ajoutent,
ie, vAB = vA + vB , on en deduit,
Fmix = −kB T log (e c0 vAB /4) ≈ −kB T log (0.4371(N − 1))
5
(7)
Fig. 3 – Exemple de calcul de l’énergie libre
dans le modèle NN (tiré de [8])
Fig. 4 – Illustration du modèle sur réseau
issue de [25]
On introduit également la notion de température de fusion Tm définie par Θass (Tm ) = 1/2 ou
Θ(Tm ) = 1/2 (définitions équivalentes pour des transitions à deux états). Par exemple dans le cas
où ∆G0 peut se décomposer sous la forme ∆G0 = ∆H0 − T ∆S0 avec ∆H0 et ∆S0 indépendants de
la température, on a directement à partir de Eq.(5)
Tm =
∆H0
∆S0 + kB log(cT /(α c0 ))
(8)
avec α = 1 pour des brins autosimilaires (A = B) et α = 4 sinon.
La détermination de FAB , FA et FB , ainsi que de Θint nécessite une description et une modélisation
du complexe et des simples brins. Décrivons les principaux modèles existants.
1.2
Modèle plus proches voisins
Dans le modèle des plus proches voisins (NN) [8], la formation du duplexe est la conséquence d’un
gain d’énergie libre ∆h0N N − T ∆s0N N par paire de bases dépendant de la séquence et d’une énergie
libre d’initiation ∆h0ini − T ∆s0ini (voir Fig.3). Ce modèle néglige toutes fluctuations et considère
donc une transition à deux etats, entre le double brin et les simples brins. Ainsi Θint,AB = 1, donc
Θ = Θass et ∆G0 = ∆H0 − T ∆S0 . Ce modèle s’applique très bien aux oligomères courts et permet
de remonter, à partir des températures de fusion à différentes concentrations, aux paramètres ∆h0N N
et ∆s0N N (voir Tab.1).
1.3
Modèle de Poland-Scheraga
Le principal défaut du modèle précédent est la non prise en compte des fluctuations qui commencent à être importantes pour des oligomères longs ( ∼ 100 bp) ou des polymères courts. Le
modèle de Poland-Scheraga (PS) [5, 10] décrit la dénaturation de l’ADN comme l’enchaı̂nement des
fusions coopératives de divers domaines de la séquence. La stabilité de ces domaines est déterminée
par leurs compositions mais aussi par leurs emplacements le long du brin (voir Fig.5) : bulles ou
boucles internes (cas 1 et 3), fins libres (cas 2) ou mélange des deux (cas 4). Ainsi, le processus de
dénaturation est hautement coopératif, ie, l’état de conformation de chaque paire de bases dépend
fortement de l’état de ses voisins. De plus, ce modèle suppose que toutes les différentes transitions
sont à l’équilibre et réversibles.
6
Sequence
AA/TT
AT/TA
TA/AT
CA/GT
GT/CA
CT/GA
GA/CT
CG/GC
GC/CG
GG/CC
ini avec G/C
ini avec A/T
γS (cal/mol/K)
ωE (cal/mol/K)
Ks1 (K−1 )
Ks2 (K−1 )
Ks3 (K−1 )
∆h0N N (kcal/mol)a
−7.93 ± 0.31
−7.15 ± 0.78
−7.23 ± 0.82
−8.44 ± 0.77
−8.47 ± 0.66
−7.73 ± 0.66
−8.29 ± 0.61
−10.54 ± 0.82
−9.81 ± 0.73
−8.02 ± 0.68
0.08 ± 0.99
2.22 ± 1.02
−9.84 ± 1
−2.14 ± 0.2
(4.29 ± 0.29).10−5
(−3.95 ± 0.16).10−5
(9.4 ± 0.29).10−6
∆s0N N (cal/mol/K)a
−22.4 ± 1.0
−20.2 ± 2.6
−21.6 ± 2.7
−22.9 ± 2.5
−22.9 ± 2.2
−20.9 ± 2.2
−22.6 ± 2.0
−27.1 ± 2.7
−24.6 ± 2.4
−19.6 ± 2.3
−2.2 ± 3.4
4.3 ± 3.3
Tab. 1 – Paramètres standard des modèles NN et MPS et leurs déviations standard.a pour une
concentration en sel de 1 M.
Cas 1
N
Cas 2
Cas 3
N
N
Cas 4
M
Fig. 5 – Exemples de conformations pour le modèle PS.
7
N
M
Afin de calculer les observables standard (voir Sec.1.1), les propriétés thermodynamiques de
chaque conformations doivent être explicitées. En prenant comme état de référence le double-brin
totalement fermé, les différents cas possibles sont caractérisés par leur fonction de partition propre
Zi qui est le reflet du nombre de micro-états représentant chaque conformation. Ainsi, pour une
bulle interne (cas 1) de taille N
Z1 (N ) = σN −c exp (β∆G)
(9)
où σ (la coopérativité) et N −c (c ∼ 1.76) reflètent l’effet entropique des intéractions coopératives ;
∆G représente la perte enthalpique causée par l’ouverture de la boucle, elle est calculée à partir des
données NN (voir Sec.1.2). De même pour une fin libre (cas 2) de taille N , on a
√
′
(10)
Z2 (N ) = σN c exp (β∆G)
avec c′ = 0.16. Les autres conformations possibles sont construites à partir des deux cas précédents,
donc par exemple, on obtient Z3 (N, M ) = Z1 (N ) × Z1 (M ) ou Z4 (N, M ) = Z1 (N ) × Z2 (M ).
Le modèle PS sera décrit plus en détail dans la section 2.1.
1.4
Modèle sur réseau
Le modèle sur réseau [25] est une variante du modèle proposé par Causo et al. [29]. Le brin
d’ADN est modélisé par une marche aléatoire auto et mutuellement évitante sur un réseau cubique
simple. Les positions des bases sont associées aux nœuds du réseau. Deux marches sont autorisées
à se chevaucher sur un nœud si et seulement si elles peuvent former une paire de Watson et Crick
(orientation antiparallèle, bases complementaires) (voir Fig.4). On définit alors une énergie libre
d’appariement dépendante de la nature des bases ǫ(T ) = ǫH − T ǫS et une énergie libre de fin
ω(T ) = ωH −T ωS . Afin de prendre en compte de l’ouverture de la double hélice, on assigne également
une énergie libre interfaciale γ(T ) = γH − T γS . Enfin, pour tenir compte de la rigidité de la double
hélice, on inclut une énergie libre de pénalité κ(T ) = κH − T κS .
Ainsi,
– pour un double-brin composé d’une seule base et totalement fermé
Zds = 6 × exp (−β(N ǫ + 2ω))
(11)
– pour un simple libre
Zss = 6 × 0.2µN N c
′
(12)
avec µ = 4.68 pour un réseau cubique [30] et c′ = 0.16 (le nombre de chemins auto-évitants
′
(SAW) de taille N a pour forme asymptotique µN N c ).
– pour une fin libre de taille N
′
′
Zf e = 4 × 1.2 (2N )c µ2N exp(−βγ) exp(βN ǫ) = Kf N c µ2N exp(−βγ) exp(βN ǫ)
(13)
– pour un double brin infiniment long avec une bulle de taille N
Zl = 16 × 0.16µ2N N −c exp(−2βγ) exp(βN ǫ) = Kl µ2N N −c exp(−2βγ) exp(βN ǫ)
(14)
Cette expression vient du nombre de polygones pour une marche auto-évitante de taille 2N .
Pour paramétrer le modèle, il faut comparer ces cas limites avec ceux obtenus pour les modèles NN
et PS. D’où, pour le double-brin fermé
∆G0 = FAB − FA − FB + Fmix
= N (ǫH − T ǫS ) + 2(ωH − T ωS ) − kB T log(6)
N
+2kB T log(1.2µ N
8
ζ−1
) − kB T log(0.4371N )
(15)
(16)
(17)
or dans le cadre du modèle NN
∆G0 = N (∆h0N N − T ∆s0N N ) + 2(∆h0ini − T ∆s0ini )
(18)
En égalisant, on obtient
ǫH
= ∆h0N N
ǫS
=
ωH
=
ωS
=
(19)
∆s0N N + 2kB
∆h0ini
∆s0ini + ωE
log µ =
∆s0N N
+ 3.0kB
(20)
(21)
(22)
avec ωE = −1.08 kB la correction entropique de mélange, calculée pour des oligomères de taille
typique 10 bp utilisés dans les expériences de paramétrisation. En ce qui concerne γ, en égalisant
Eq.(14) avec Z1 du cas 1 dans Sec.1.3, on obtient
σ = Kl exp(−2βγ)
(23)
−4
γ(T ) = 4.96 kB T
pour σ = 1.26.10
(24)
L’énergie libre de rigidité κ peut être relié à la longueur de persistence de l’ADN [25], ainsi par
exemple pour une longueur de persistence de 300 bp, on a κ = 1900 kB K.
2
Modèle utilisé et Méthodes
Le modèle sur réseau, en plus d’unifier les modèles NN et PS, rend compte de la forme tridimensionelle du brin d’ADN. Le prix à payer est une augmentation importante du temps de calcul. Afin
de réduire le temps de simulation, nous avons adapté le modèle PS au modèle sur réseau, appelé
modèle MPS.
2.1
Modèle de Poland-Scheraga modifié
Originellement, le modèle PS s’interesse à des relations de récurrence sur des probabilités thermodynamiques conditionelles. Récemment [26, 31, 32], des relations de récurrence sur les fonctions
de partition ont été développées pour étudier la dénaturation de l’ADN. Suivant la procédure défini
par Garel et Orland [31], on peut définir des nouvelles relations de récurrence adaptées au modèle
sur réseau. Ces relations sont un peu plus compliquées que celles dans [31] car nous considérons que
la longueur minimale d’une section hélicoidale est de 2 bp au lieu de 1 bp dans [31].
On modélise un simple brin comme une chaı̂ne de N bases A,T ,C ou G, numérotés de 1 à N :
5′ − 1 − 2 − 3 − ... − N − 3′ . On suppose que les deux simples brins sont complémentaires (pas de
mismatches), on ne tient pas compte d’éventuelles formations d’épingles ou de renflements. La base
i du brin A ne peut s’apparier qu’avec la base N − i + 1 du brin B. On considère l’état double brin
totalement fermé comme état de référence.
Tout d’abord, on regarde la fonction de partition en sens direct Zf (α + 1) comptant le nombre
d’états de la partie du brin compris entre les bases 1 et α + 1, les bases α et α + 1 étant fermées. Il
y a trois moyens d’avoir ces deux bases fermées : soit la paire (α − 1,α) est appariée, soit il y a une
boucle commencant de la base α′ et se finissant en α, soit le complexe est complètement ouvert de
la base 1 à la base α (voir Fig.6)
Zf (α + 1) = Zf (α) + Kl e−2βγ
−βγ
+Kf e
α−2
X
α′ =2
c′ βg(1,α−1)
(α − 1) e
9
′
(α − α′ )−c eβg(α ,α−1) Zf (α′ )
(25)
α′
α+1
α+1
=
+
1
1
α+1
+
1
α
α+1
1
Fig. 6 – Représentation graphique de la relation de récurrence pour Zf (α + 1) (Eq.(25))
+ .....+
+
Z =
N
1
N-1
1
1
2
Fig. 7 – Représentation graphique de la fonction de partition thermodynamique Z
avec g(α′ , α) = αi=α′ Gi,i+1 , Gi,i+1 l’énergie libre d’appariement de la paire (i, i + 1), Kl = 2.56 et
Kf = 5.36 des facteurs géométriques, c et c′ tiennent compte des intéractions stériques des boucles
ou des bouts libres. La valeur de c est encore en discussion [10, 33, 34, 35, 36], et est égale à 2.15
pour des boucles intéragissant entre elles et à 1.764 pour des boucles isolées. La valeur de c′ est issue
de la théorie des polymères [37] et vaut 0.16.
De manière analogue à Zf , on introduit la fonction de partition en sens inverse Zb (α) estimant
le nombre d’états de la partie comprise entre les bases α et N , la base α étant fermée. Ainsi,
P
N
−1
X
Zb (α) = Zb (α + 1) + Kl e−2βγ
′
α′ =α+2
c′
(α′ − α)−c eβg(α,α −1) Zb (α′ + 1)
+Kf e−βγ (N − α) eβg(α,N −1)
(26)
Enfin, on considère Zsf (α) la seconde fonction de partition en sens direct, débutant à la base 1 et
se finissant à la base α, la base α étant fermée et la base α − 1 étant ouverte. D’où
Zsf (α) = Kl e−2βγ
α−2
X
′
(α − α′ )−c eβg(α ,α−1) Zf (α′ )
α′ =2
−βγ
+Kf e
′
(α − 1)c eβg(1,α−1)
(27)
Avec ces trois fonctions de partition, on peut exprimer la probabilité p(α) pour que la base α
soit fermée
Zsf (α)Zb (α + 1) + Zf (α)Zb (α) + 5 e−β(ω1 +ωN )
(28)
p(α) =
Z
avec Z la fonction de partition totale (Fig.7).
−βωN
Z=e
−βγ
Zf (N ) + Kf e
N
−1
X
α=2
ζ−1
(N − α)
"
exp β
N
−1
X
i=α
#
Gi Zf (α) + 5 e−β(ω1 +ωN )
(29)
Le terme 5 e−β(ω1 +ωN ) tient compte du facteur géometrique 6 dans fonction de partition de l’état
fermé (voir Eq.(11)). Ainsi on peut exprimer Θint comme la moyenne des p(α)
Θint =
N
1 X
p(α)
N α=1
Et FAB = −kB T log Z.
10
(30)
Pour décrire les simples brins, on les considère comme des pelottes sans intéraction, ie
FA + FB = −
N
−1
X
i=1
′
Gi − kB T log (1.2)2 (N − 1)2c )
(31)
Ainsi, les observables Θass et Θint s’obtiennent en résolvant les relations de récurrence Eq.(25),(26)
et (27). Afin d’accélérer la résolution numérique de ce problème, on se doit de simplifier ces relations et d’utiliser une méthode algorithmique efficace : l’algorithme de Fixman-Freire [38, 31] (voir
Annexe A)
2.2
Correction dûe au sel
Les paramètres du modèle NN sont déterminés expérimentalement à une concentration en sel
(N aCl) donnée (1 M pour ceux de Tab.1). Pour tenir compte des effets de la présence ou non de
sel dans la solution, il est nécessaire d’inclure une correction des paramètres standard, fonction de
la concentration en N a+ .
La correction la plus utilisée dans les programmes bioinformatiques de résolution du modèle PS
(DINAmelt [32], MELTSIM [39]) est celle donnée par SantaLucia dans Ref.[8]
∆s0N N ([N a+ ]) = ∆s0N N (1M ) + 0.1853 × log[N a+ ]
(32)
Le principal inconvénient de cette formule est son indépendance vis-à-vis de la paire de base, ie,
par exemple la correction en entropie pour la bipaire AT /T A sera la même que la bipaire GC/CG
alors qu’elles sont formées de bases azotées différentes. Pour palier à ce manquement, à partir d’une
étude plus récente sur les effets du sel faite par Owczarzy et al dans Ref.[27], on a introduit une
nouvelle correction en sel.
Owczarzy montre que pour des séquences qui ont un comportement à deux états
d
d(log[N a+ ])
1
Tm
= (Ks1 f (GC) + Ks2 ) + 2 Ks3 log[N a+ ]
(33)
où Ks1 , Ks2 et Ks3 sont des constantes phénoménologiques (voir Tab.1) et f (GC) est la fraction
en GC dans la séquence (par exemple pour AT CGT CT GGA, f (GC) = 5/10 = 0.5). Ainsi, si on
suppose que l’enthalpie est indépendente de la concentration en sel [40, 41, 42], comme pour une
séquence à deux états 1/Tm = (∆S0 + kB log(cT /(α c0 )))/∆H0 , on a
d
(∆S0 ) = ∆H0 × (Ks1 f (GC) + Ks2 ) + 2 Ks3 log[N a+ ]
+
d(log[N a ])
(34)
Comme le modèle MPS décrit localement le brin, on applique cette formule non pas à toute la
séquence mais à chaque paire de bases. Ainsi, on définit une fraction locale fl (GC) pour chaque
paire et, en intégrant par rapport à log[N a+ ], on obtient
∆s0N N ([N a+ ]) = ∆s0N N (1M) + ∆h0N N ((Ks1 fl (GC) + Ks2 ) log[N a+ ] + Ks3 log2 [N a+ ])
(35)
Cette équation révèle, comme Eq.(32), l’effet stabilisateur sur l’énergie libre de la hausse [N a+ ], dû
à l’élévation de l’écrantage des contre-ions [27, 40]. De plus, comme souhaitée, cette correction tient
compte de la nature même de la paire de base et de son environnement local.
Le nombre de voisins pris en compte pour le calcul de fl (GC) ne semble pas influer sur les
résultats des simulations pour des nombres
inférieurs à 5 qui correspond typiquement à la longueur
p
de Debye dans le solution (λD = ǫ kB T /ρe ≈ 10Ȧ) . Dans nos simulations nous avons fixé ce
nombre à 0, ie, pour la bipaire de bases −GT − dans la séquence AT CGTCT GGA, fl (GC) = 0.5.
11
2.3
Prise en compte des erreurs
Les paramètres énergétiques et de correction en sel sont déterminés avec une certaine déviation
standard. En effet, la dispersion des données expérimentales autour des valeurs moyennes entraı̂ne
l’apparition d’une erreur statistique. La prise en compte de ces erreurs nous permettra en plus d’estimer des barres d’erreur pour les résultats issus de nos simulations. La relation entre les dévations
standard des paramètres et celles des observables calculées (Θ, Tm , etc.) n’étant pas, a priori, triviale, pour évaluer les barres d’erreurs, on autorise les paramètres à fluctuer de manière gaussienne
autour de leurs valeurs moyennes.
En ce qui concerne, les paramètres NN, Allawi et SantaLucia [14] donnent les déviations standard
pour ∆h0i,j et ∆s0i,j (i, j ∈ {A, T, G, C}). Les corrélations entre les différents paramètres (par exemple
la corrélation entre ∆h0i,j et ∆s0i,j pour une même paire est supérieure à 99%) ne permettent pas
d’effectuer des tirages aléatoires indépendants sur chacune des variables. Néammoins, la donnée
de la matrice de covariance permettrait de définir des variables indépendantes, fonctions des ∆h0i,j
et ∆s0i,j . Malheureusement, Allawi ne la donne pas. Ainsi, c’est pour avoir accès à cette matrice
que nous avons refait la minimisation effectuée par Allawi pour obtenir les paramètres NN avec les
mêmes séquences et les mêmes techniques de minimisation (décomposition en valeurs singulières,
voir Annexe B.1) et d’évaluation des erreurs (méthode Bootstrap, voir Annexe B.2).
Les paramètres trouvés sont proches de ceux donnés par Allawi, mais par contre les déviations
standard calculées sont supérieures à celles trouvées par Allawi. Cet écart vient de la sous-évaluation
des erreurs dûe à un trop faible nombre d’essais dans la méthode Bootstrap (dans Ref.[14], seulement
30 essais ont été effectués alors que notre étude montre que la convergence de la matrice de covariance
vers sa valeur finale nécessite plus de 50 000 essais). Cette parametrisation donne accès à la matrice
de covariance qui va nous permettre de trouver des variables indépendantes, fonctions linéaires des
∆h0i,j et ∆s0i,j (voir Annexe B.3).
Concernant σ (ou γS ≡ −γ/T ), sa valeur ne semble pas bien évaluée [35, 36] ; idem pour ωE .
Ainsi, on va supposer pour ces paramètres une déviation standard de 30%.
3
3.1
Résultats
Correction en sel
La figure 8 compare les températures de fusion expérimentales et calculées avec le modèle MPS
des 92 oligomères courts (10 à 30 bp) utilisés par Owczarzy et al dans Ref.[27] pour déterminer
Eq.(33). Ces brins d’ADN ont une transition à deux états. Sur le graphique figure aussi les barres
d’erreurs théoriques obtenues grâce à l’analyse des erreurs faite dans la section 2.3. On observe que
quelque soit la concentration en sel, les points sont regroupés autour de la bissectrice : il n’y a pas
de concentration privilégiée pour laquelle la correction en sel serait meilleure. Afin de quantifier les
écarts avec les expériences et de pouvoir comparer avec la correction de SantaLucia (Eq.(32), on
évalue l’écart entre simulations et expériences en calculant la différence absolue moyenne < ∆Tm >
définie par
1 X exp
sim
|Tm − Tm
|
(36)
< ∆Tm >=
N i
Avec cette correction en sel, on trouve < ∆Tm >= 1.6K alors qu’avec la correction de SantaLucia
on obtient < ∆Tm >= 2.5K. Le calcul de < ∆Tm > pour chaque concentration donne des valeurs
proches de la moyenne générale et toujours plus faibles qu’avec SantaLucia.
Ce résultat garantit l’avantage de la correction de Owczarzy pour les oligomères courts et sa
bonne qualité de prédiction. Néammoins, ceci n’est pas très surprenant vu que la paramétrisation
12
370
370
368
360
366
350
364
340
Tm
Tsim
m
362
330
320
360
358
310
356
300
354
290
352
280
280
290
300
310
320
330
340
350
360
350
0.35
370
exp
Tm
0.4
0.45
0.5
f(GC)
0.55
0.6
0.65
Fig. 9 – Températures de fusion calculées
pour 5 hétéropolymères (10000 bp) de fraction f (GC) différentes, avec [N a+ ] = 74.5
mM (noir) et [N a+ ] = 220 mM (bleu),
avec comme correction en sel Eq.(32) (carrés)
ou Eq.(35) (points). Les lignes pointillées
représentent la relation empirique donnée par
Frank-Kamenetskii et al [43, 44] pour les
AT + f (GC)(T GC −
longs polymères : Tm = Tm
m
AT ) avec T AT = (355.55 + 7.9 log[N a+ ]) K
Tm
m
GC = (391.55 + 4.89 log[N a+ ]) K.
et Tm
Fig. 8 – Températures de fusion calculées
sim en fonction de celles expérimentales
Tm
exp pour 92 séquences (c
−6
Tm
T = 2.10 M) à
5 concentrations différentes en sel : 69 mM
(orange), 119 mM (bleu foncé), 220 mM
(cyan), 621 mM (noir) et 1.02 M (violet). Les
points verts sont représentatifs des barres
d’erreurs théoriques.
13
1.2
1
1
0.8
0.8
ass
1.2
1−Θ
1−Θ,1−Θ
0.6
0.4
0.6
0.4
0.2
0.2
0
0
−0.2
280
290
300
310
320
330
340
−0.2
300
350
310
320
330
340
350
T(K)
T(K)
Fig. 11 – Courbes de fusion 1 − Θ et 1 −
Θass pour L19AS2 (noir) et L60B36 (rouge)
dans une solution saline ([N a+ ] = 50mM)
à cT = 2.10−6 M. Les profils expérimentaux
1 − Θ (cercle) et 1 − Θass (point) sont très
éloignés des profils simulés (lignes pointillées
et solides). Les courbes expérimentales ont
été transformées suivant la procédure définie
par Eq.(1) dans Ref.[45].
Fig. 10 – Courbes de dénaturation pour
des duplexes courts (cT = 2.10−6 ) dans
une solution de 69 mM en N a+ :10-mer,
ATCGTCTGGA (bleu) ; 20-mer, TACTTCCAGTGCTCAGCGTA (rouge) ; 30-mer,
TCGGAGAAATCACTGAGCTGCCTGAGAAGA (noir). Les points représentent les
données expérimentales et les lignes sont
issues des simulations.
de Ks1 , Ks2 et Ks3 a été obtenue à partir d’un large échantillon d’oligomères courts.
Les effets de la localisation de la correction en sel sont plus visibles pour des séquences n’ayant pas
de transition à deux états. La figure 9 montre que l’on arrive à reproduire de manière quantitative les
équations de Frank-Kamenetskii [43, 44]. Ceci confirme les observations faites sur les ADNs courts
et assure sa validité sur toute la gamme de longueur de brin. Par contre, la correction de SantaLucia
montre ici ses limites pour les polymères avec une pente d’évolution de Tm plus faible et un écart
aux droites de Frank-Kamenetskii plus important. Ainsi à partir de paramètres phénoménologiques
(les {Ksi }) complétés d’un modèle de physique statistique, on arrive à décrire les effets du sel
indépendamment de la longueur de l’ADN.
3.2
Pouvoir de prédiction, comparaison avec l’expérience
La section précédente semble indiquer que le modèle MPS a un bon pouvoir de prédiction
pour les oligomères courts (confirmée par Fig.10) et les polymères longs. Qu’en ait-il des longueurs
intermédiaires où il n’y a pas de transition à deux états ?
La figure 11 compare les courbes de dénaturation 1 − Θ et 1 − Θass obtenues expérimentalement
et numériquement pour deux séquences étudiées par Zeng et Zocchi [19] (L19AS2 et L60B36). Ces
deux brins contiennent chacun une grande région riche en AT : à la fin pour L19AS2 et au milieu
pour L60B36 [46]. L’erreur réalisée avec les paramètres standard est ici assez conséquente : alors
que numériquement, la dénaturation de ces séquences est quasi à deux états, expérimentalement ce
n’est pas du tout le cas (1 − Θ et 1 − Θass sont significativement décalées). D’autres programmes de
résolution du modèle PS tels que DINAmelt [32] ou MELTSIM [39] donnent des résultats similaires
pour ces séquences courtes avec bulles d’AT . Pourquoi un tel comportement pour ces types d’ADN ?
Quel est l’influence des erreurs statistiques sur les courbes de dénaturation ?
14
0.8
0.8
0.7
0.7
0.6
0.6
ass
1
0.9
0.5
Θ
Θ
1
0.9
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
280
290
300
310
320
0
280
330
T(K)
290
300
310
320
330
T(K)
Fig. 12 – Différentes courbes de dénaturation pour le 10-mer
AT CGT CT GGA dans une solution à 69 mM en sel (cT = 2.10−6 ). Les
points verts représentent les données expérimentales, les lignes donnent
les résultats des simulations pour les paramètres standard (pointillés
noirs) ou pour d’autres jeux de paramètres (bleues, rouge et violette).
Les courbes rouge et violette soulignent des paramètres qui permettent
d’avoir une bulle pour L60B36 (voir Fig.13).
La figure 12 montre l’influence des paramètres sur les courbes de fusion. On remarque que la
transition est toujours à deux états pour les oligomères courts et qu’un comportement similaire est
observé pour les polymères longs (Fig.16). Par contre pour des séquences avec bulles, que ce soit des
oligomères longs (Fig. 13, 14) ou des polymères courts (Fig. 15), un large évantail de cas est observé,
reflètant la grande sensibilité de ces courbes aux paramètres pour ces séquences. On observe que
pour tous (excepté L48AS) il existe des jeux de paramètres situés dans les erreurs statistiques des
paramètres standard qui permettent de retrouver leur comportement expérimental.
De plus, la concentration en sel influence beaucoup le comportement de ces graphiques. En
effet, Eq.35 soulignant l’effet stabilisateur du sel, l’apparition de bulles est encouragée par une
faible concentration en sel. Ainsi, en changeant les paramètres, la probabilité d’obtenir des états
intermédiaires avec des bulles stables est augmentée en réduisant [N a+ ] (Fig.17). Cet effet est
accentué par la non-uniformité de la correction en sel (ie, sa dépendence en la nature de la base) :
une paire de base AT est plus destabilisée par une baisse de [N a+ ] que GC (∆Ssel (AT ) ≈ −0.74kB
et ∆Ssel (GC) ≈ −0.38kB pour [N a+ ] = 50 mM). Ainsi, l’ouverture d’une bulle riche en AT est de
plus en plus envisageable au fur et à mesure que la concentration en sel diminue.
3.3
Structure interne, nucléation
Pour comprendre si la sensibilité des oligomères longs et des polymères courts à la variation des
paramètres reflète (ou non) une profonde modification de la structure interne de la séquence, on
étudie la probabilité individuelle p(α) × Θass qu’a une certaine base d’être fermée. Les différentes
cartes de probabilité (Fig.13,14,15) soulignent le fait que la structure interne n’est pas modifiée :
ce sont les mêmes ensembles de paires voisines qui s’ouvrent simultanément. Néammoins, le fait de
modifier les paramètres autour des valeurs standard modifie les températures de fusion de chaque
ensemble de voisins et leur largeur de transition. Ainsi par exemple, pour observer une bulle stable
pour L60B36, la température de fusion des bords doit être significativement plus haute que celle de
la bulle centrale.
Ce problème de stabilité des bulles internes souligne l’existence d’un phénomène de nucléation
15
1
1
0.8
0.8
0.6
0.6
0.6
0.6
Θ
0.4
0.2
0.2
0.2
0
0
310
320
330
T(K)
340
350
310
320
330 340
T(K)
350
60
60
50
0.8
40
40
0.6
30
30
0.4
20
20
0.2
10
310
320
330 340
T(K)
350
10
310
320
330 340
T(K)
0.2
320
330 340
T(K)
350
0
310
360
320
330 340
T(K)
350
40
position in bp
50
position in bp
position in bp
0
310
0.4
360
40
0.8
30
30
0.6
20
350
20
0.4
10
10
0.2
320
330 340
T(K)
350
360
320
330 340
T(K)
350
position in bp
Θ
0.4
0.4
Θass
1
0.8
Θass
1
0.8
360
Fig. 13 – (Haut) Courbes de dénaturation pour L60B36 (à gauche) et pour L42B18 (à droite) dans
une solution à 50 mM en sel (cT = 2.10−6 ). Les points verts représentent les données expérimentales,
les lignes donnent les résultats des simulations pour les paramètres standard (pointillés noirs) ou pour
d’autres jeux de paramètres (bleues, rouge et violette). Les courbes rouge et violette soulignent des
paramètres qui permettent de bien reproduire les données expérimentales de L60B36. (Bas) Cartes
de probabilité p(α) × Θass pour les paramètres standards (encadré noir) et pour les paramètres de
la courbe violette (encadré violet).
1
1
0.8
0.8
0.6
0.6
0.6
0.6
320
330
340 350
T(K)
360
Θ
0.2
0.2
0
320
330
340 350
T(K)
0
300
360
40
0.8
40
30
0.6
30
20
0.4
20
10
0.2
10
320
330
340 350
T(K)
360
320
330
340 350
T(K)
360
0.4
0.2
310
320 330
T(K)
340
350
0
300
310
320 330
T(K)
340
0.8
15
350
15
0.6
10
10
0.4
5
5
0.2
310
320 330
T(K)
340
350
310
320 330
T(K)
340
position in bp
position in bp
0
0.4
position in bp
0.2
0.4
position in bp
Θ
0.4
Θass
1
0.8
Θass
1
0.8
350
Fig. 14 – (Haut) Courbes de dénaturation pour L48AS (à gauche) et pour L19AS2 (à droite) dans
une solution à 50 mM en sel (cT = 2.10−6 ). Les points verts représentent les données expérimentales,
les lignes donnent les résultats des simulations pour les paramètres standard (pointillés noirs) ou pour
d’autres jeux de paramètres (bleues, rouge et violette). Les courbes rouge et violette soulignent des
paramètres qui permettent de bien reproduire les données expérimentales de L60B36. (Bas) Cartes
de probabilité p(α) × Θass pour les paramètres standards (encadré noir) et pour les paramètres de
la courbe violette (encadré violet).
16
−dΘint/dT
0.4
0.2
350
360
0.9
0.2
0.8
0.1
0.7
0
340
370
350
position in kbp
T(K)
360
4
3
3
0.6
2
0.4
2
0.2
1
1
350
360
370
350
T(K)
360
0.6
0.6
1−Θ
0
340
0.4
0.2
0
340
350
T(K)
360
0.6
0.4
0.2
0
365
390
300
320
340
360
(B2)
0.8
1−Θass
1−Θass
0.8
1
(A )
2
360
400
(B1)
T(K)
1
355
0.4
0
370
350
Fig. 16 – Θ (à gauche) et −dΘ/dT (à droite)
pour un brin de 78433 bp (un dixième du
génome de Saccharomyces) dans une solution saline à 74.5 mM en [N a+ ]. La ligne
pointillée noire représente les paramètres
standard, les lignes bleues sont issues de
plusieurs jeux de paramètres aléatoires.
0.2
330
345
T(K)
<Tbulle
>, <Tbord
>(K)
m
m
1−Θ
0.8
360
0.1
370
1
(A1)
350
T(K)
0.5
0.2
Fig. 15 – (Haut) Θint (à gauche) et
−dΘint /dT (à droite) pour PN/MCS-13 [47]
dans une solution saline à 74.5 mM en
[N a+ ] [39, 17]. Les points verts sont les
données expérimentales, les lignes donnent
les résultats des simulations pour les paramètres standard (pointillés noirs) ou
pour d’autres jeux de paramètres (bleues,
rouge).(Bas)Cartes de probabilité p(α)×Θass
pour les paramètres standard (encadré noir)
et pour les paramètres de la courbe rouge (encadré rouge).
1
0
340
0.3
T(K)
0.8
0.1
0.05
0.4
4
0.8
0.2
0.15
0.6
370
T(K)
Θ
0
340
1
0.3
position in kpb
Θint
0.6
0.4
−dΘ/dT
1
0.8
380
370
360
0.6
0.4
350
0.2
330
340
350
T(K)
360
370
0
300
320
340
340
360
T(K)
0
20
40
60
80
100
n
bulle > (lignes pleines) et
Fig. 18 – < Tm
bord
< Tm > (lignes pointillées) pour plusieurs
valeurs de m : 20 (rouge), 25 (noir), 30 (vert)
et 50 (bleu).([N a+ ] = 0.1 M)
Fig. 17 – 1 − Θ et 1 − Θass pour L60B36
(gauche) et L19AS2 (droite) pour différentes
concentrations en sel : 0.05 M (rouge), 0.2
M (noir) et 1 M (vert) (cT = 2.10−6 ) ; et
pour différents jeux de paramètres : standard
(ligne pleine), observation d’une bulle (pointillée).
17
position in bp
30
20
40
30
10
40
10
1
320 340 360
T(K)
80
70
60
50
40
1
320 340 360
T(K)
320 340 360
T(K)
320 340 360
T(K)
1
320 340 360
T(K)
Fig. 19 – Probabilité individuelle interne p(α) en fonction de T pour m = 20 et
pour plusieurs n (de la gauche vers la droite) : 10, 15, 20, 25, 30. ([N a+ ] = 0.1 M)
420
250
410
200
400
390
nmin
T∞
bulle
150
380
370
100
360
350
50
340
330
1
2
10
10
0
3
10
1
2
10
m
10
3
10
m
∞ (m)
Fig. 20 – Tbulle
obtenue avec
MPS (rouge) ou équation modèle (41)
(bleu).([N a+ ] = 0.1 M)
Fig. 21 – Diagramme de nucléation pour
les séquences Gn Am Gn obtenue avec MPS
(rouge) ou avec l’équation nmin = 26.86 τn
(bleu). La bulle interne est stable dans la
partie supérieure et instable dans la partie
inférieure.
plus ou moins favorisé par les paramètres. Il semble en effet qu’à taille de bulle fixée, il faille une
certaine longueur pour les bords afin que l’état intermédiaire avec bulle soit stable. Ainsi, intéressons
nous à la série de séquences modèles Gn Am Gn (n, m entiers positifs). Pour estimer la longueur de
bord minimum nécessaire, on peut évaluer séparément la température de fusion interne moyenne de la
bulle > et des bords < T bord > à partir des probabilités internes individuelles p(α) (Fig.19)
bulle < Tm
m
(attention, dans un premier temps, on s’intéresse uniquement à Θint et p(α), les effets associatifs et
bulle > et < T bord >
l’influence de cT ne sont pas étudiés). La figure 18 représente l’évolution de < Tm
m
bulle
en fonction de n pour plusieurs m. On remarque que < Tm
> converge rapidement vers une
∞ dépendante de m (Fig.20) alors que < T bord > semble converger également vers
valeur limite Tbulle
m
∞ ∼ 400 K mais de manière beaucoup plus lente et cette température est
une valeur limite Tbord
bulle > correspond à la stabilisation de la bulle, la taille des
indépendante de m. Le plateau de < Tm
∞ est atteinte
bords ne jouant plus sur l’ouverture de la région Am . La valeur de n pour laquelle, Tbulle
à 99.9% près, est donc la taille minimum des bords nmin (m) pour avoir un état intermédiaire avec
bulle stable. La figure 21 montre l’évolution de nmin en fonction de m pour différentes concentration
en sel et différentes valeurs de γS . On observe que la diminution de [N a+ ] (ou l’augmentation de
γS ) diminue les valeurs de nmin .
18
2
1.9
1.8
1.7
1.5
τ
AT/GC
1.6
1.4
1.3
1.2
1.1
1
−3
10
−2
−1
10
10
0
10
+
[Na ]
Fig. 22 – τAT /GC en fonction de la concentration en sel
[N a+ ] (voir Eq.(38)).
Le fait de rajouter les effets associatifs (ie de s’intéresser à p(α) × Θass au lieu de p(α)) ne
changent pas l’allure des courbes, ni l’influence des divers paramètres. La principale modification
est d’augmenter nmin par rapport à précédemment : les effets associatifs ont tendance à séparer
le double brin pour des températures inférieures aux températures internes de fusion des différents
domaines.
4
4.1
Discussion
Dépendance en sel
Le principal intérêt de la correction en sel introduit dans la section 2.2 est de dépendre de
la nature et de l’environnement local de la paire de bases. Elle permet ainsi de rendre compte
quantitativement des effets du sel sur une importante gamme de longueurs de brins. De plus le fait
que les bases de type AT soient plus affectées (pertes plus importantes d’entropie) que celles de type
GC par une baisse de la concentration en sel, rend les régions riche en AT encore plus instable à des
concentrations physiologiques ([N a+ ] ≈ 154 mM). En effet
la probabilité d’ouverture Popen (XY ) de
0
la bipaire XY est proportionnelle à exp β∆GN N (XY ) . Donc, par exemple,
Popen (AT )
Popen (AT )
([N a+ ], T ) =
(1 M, T ) × τAT /GC ([N a+ ])
Popen (GC)
Popen (GC)
(37)
avec
n
τAT /GC ([N a+ ]) = exp (0.34∆h0N N (GC) + 3.95∆h0N N (AT ))10−5 log([N a+ ])
o
+9.4(∆h0N N (GC) − ∆h0N N (AT ))10−6 log2 ([N a+ ])
(38)
Sur la figure 22, on remarque que par rapport à 1 M, la probabilité d’ouverture de AT devient de
plus en plus grande par rapport à celle de GC lorsque l’on diminue [N a+ ].
Ainsi, cela favorise l’ouverture des boı̂tes T AT A (promoteurs des gênes dans les cellules eukaryotes et initiateurs transcriptionnels [48]) qui est une étape importante des phases de transcription.
De même, cette différence de comportement entre AT et GC peut avoir des applications dans l’étude
19
n+m
n
Z1
m
n
Z2
Z3
Fig. 23 – Séquences prises en compte pour simplifier le problème de la nucléation.
des cartes de gênes (qui s’appuie sur l’ouverture de domaines riches en AT ) [49] et de la longueur
de persistence de l’ADN avec effet bulle [50, 51] en fonction de la concentration en sel.
4.2
Rôle des erreurs
La sensibilité des courbes de fusion pour certains types de brins illustrent la difficulté à prédire les
comportements des observables pour des oligomères longs ou des polymères courts. Cette difficulté
vient essentiellement des erreurs statistiques sur les différents paramètres. Néammoins, l’analyse de
p(α) × Θass souligne la robustesse des cartes de probabilité vis à vis des paramètres. Ainsi, comme
le remarque Yeramian et Jones [49], de telles considérations de sensibilité ne doivent pas être prises
en compte si l’on s’intéresse uniquement au lien entre les cartes de probabilité et les descripteurs
structuraux des séquences. Mais cela ne s’applique pas aux courbes de fusion et aux propriétés de
la transition double-hélice/simples brins car la température de fusion et la largeur de transition
de chaque domaine influencent le comportement général du brin. Ceci est d’autant plus vrai que
la taille des régions riches en AT est importante devant celle de la séquence (oligomères longs et
polymères courts).
4.3
Nucléation
Le phénomène de nucléation réside principalement dans la stabilisation de la bulle par une taille
des bords suffisamment importante. En effet, si les bords sont trop petits, l’ouverture de la bulle et
des bords vont se faire simultanément et l’on observera une transition entre le double brin totalement
fermé et le double brin où seul un bord est clos. Si les bords sont assez grands pour stabiliser la bulle,
on aura deux transitions consécutives :tout fermé/bulle ouverte, bulle ouverte/bulle+bord ouverts.
Pour étudier la nucléation, on peut donc simplifier le modèle MPS en ne s’intéressant qu’aux
séquences de la figure 23. La probabilité pour que la bulle soit fermée est
pbulle =
Z1
Z1 + Z2 + 2Z3
(39)
En supposant que les bords des bulles aient des effets négligeables,on a donc
bulle
pbulle (< Tm
>) = 1/2
(40)
On peut alors en déduire une limite pour n → +∞ (voir Annexe C.1)
∞
Tbulle
=
m HAA
m SAA − 2γS + kB log
6
Kl
mc
avec HAA et SAA , l’enthalpie et l’entropie de la paire de base AA.
20
(41)
Sur la figure 20, on remarque que l’équation (41) rend bien compte des résultats issus du modèle
MPS pour les grandes valeurs de m. Quand m diminue, les effets de bords des bulles deviennent de
∞
plus en plus importants et l’équation ci-dessus n’est plus valable. On remarque également que Tbulle
AA = 335.9 K quand m tend vers l’infini.
tend vers la température de fusion par paire de base Tm
∞
Avec le même modèle simplifié, on peut montrer que Tbord est bien indépendant de m et est égale à
GG = 400.6 K.
Tm
Seule Z3 dépend de n (voir Annexe C), c’est donc cette fonction de partition qui va guider
bulle > et la convergence vers T ∞ . On peut montrer (voir Annexe C.2) qu’apl’évolution de < Tm
bulle
paraı̂t dans Z3 une taille caractéristique τn de décroissance
τn = −kB
mHAA
m(HGG SAA − SGG HAA ) − 2HGG γS + kB HGG log
6
Kl
mc
(42)
qui est proportionnelle à nmin . La figure 21 confirme ce lien de proportionnalité pour les grandes
valeurs de m, en effet, comme précédemment, pour les petites valeurs de m les effets de bords ne sont
plus négligeables et le modèle simplifié est trop élémentaire. Néammoins l’évolution de la courbe
reste la bonne.
4.4
Paramétrisation du modèle
Générallement, les paramètres énergétiques (∆h0N N ,∆s0N N ) ont été paramétrés grâce à des oligomères courts ayant une transition à deux états. Par rapport au modèle NN, MPS introduit deux
nouveaux paramètres ωE et γS . Le manque de données sur des séquences où ces paramètres deviennent importants (oligomères longs type L60B36 ou L48AS et polymères courts) ne permet pas
d’estimer de manière précise leur valeur (on a supposé une déviation standard de 30%). Pourtant,
pour espérer bien décrire une large gamme de longueurs de brins d’ADN, il faudrait incorporer un
maximum de ces séquences dans une paramétrisation plus générale. La sensibilité du comportement
de ces séquences est même un avantage pour paramétrer le modèle afin de réduire les erreurs (voir
Annexe D).
De plus, lors de l’ancienne paramétrisation de la coopérativité σ [17, 36], les valeurs de σ et
de c étaient intimement liées (σ = 1.26.10−4 pour c = 2.15, σ = 1.26.10−5 pour c = 1.76). Or,
il est clair avec la description faite par Everaers dans [25], que σ et c sont découplés. En effet, la
coopérativité est un facteur énergétique de bord alors que c est un exposant universel venant de la
théorie des polymères. Ainsi, même si c peut dépendre de la taille et de la composition du doublebrin, σ (ou γS ) doit être indépendant de l’échelle de longueur considérée. Donc, la complexité de la
structure secondaire pour certains polymères ne permet pas une bonne estimation de c et donc de σ.
D’où l’utilité de se servir de séquences avec une ou deux bulles possibles (pour lesquelles l’exposant
c = 1.76 est une approximation correcte) afin de paramétrer σ. D’ailleurs une étude plus approfondie
utilisant le modèle sur réseau permettrait de s’affranchir de c et de pouvoir évaluer directement γ.
Pour évaluer les paramètres NN, utiliser des séquences ayant une transition purement à deux
états est une bonne méthode puisque les autres paramètres (ωE et γS ) n’interviendront pas. De
même, on peut imaginer des expériences où ce sont essentiellement γS ou ωE qui influeront sur
la modélisation afin de s’affranchir des éventuelles erreurs d’autres paramètres. Il faut également
choisir des observables qui seront sensibles aux différents paramètres à évaluer. Par exemple pour
paramétrer γS , on propose d’étudier les deux types de séquences Sloop = GP AN GP (1 bulle) et
S2loop = G2P/3 AN/2 G2P/3 AN/2 G2P/3 (2 bulles) avec P assez grand pour pouvoir négliger les effets
loop pour S
de bord (P = 100). On calcule les températures de fusion pour les bulles des 2 brins (Tm
loop
2loop pour S
et Tm
2loop ) et on étudie la différence entre ces températures pour plusieurs N . La figure
2loop − T loop en fonction de 1/N pour plusieurs valeurs de γ ainsi que les
24 montre l’évolution de Tm
S
m
21
50
24
45
15
m
22
T2loop − Tloop
20
10
40
m
20
5
35
0
0.01
16
0.02
1/N
0.03
Tloop
− Tend
m
m
T2loop
− Tloop
m
m
18
14
30
25
12
20
10
15
8
10
6
0.02
0.025
0.03
0.035
0.04
5
0.045
1/N
2loop − T loop en fonction de 1/N
Fig. 24 – Tm
m
pour plusieurs valeurs de γS : -5.96 (noir),
-4.96 (rouge) et -3.96 (vert).
0.02
0.04
0.06
1/N
0.08
0.1
loop − T end en fonction de 1/N
Fig. 25 – Tm
m
pour plusieurs valeurs de ωE : -1.58 (noir),
-1.08 (rouge) et -0.58 (vert).
barres d’erreurs théoriques dûes aux erreurs sur les paramètres NN. L’écart augmentant avec 1/N , on
a intérêt à faire des expériences pour des petites valeurs de N (N doit être suffisamment grand pour
observer l’état intermédiaire avec bulle(s)). De plus, on remarque que les erreurs théoriques limitent
la précision sur γS de l’ordre de 10%. Néammoins, les erreurs expérimentales étant de l’ordre de 0.3
K, une détermination de γS avec des séquences dans la zone N = 20..40 est tout à fait envisageable.
De même, pour paramétrer ωE on peut imaginer s’intéresser aux séquences Sloop et Send =
loop − T end en fonction de
AN/2 G2P AN/2 avec également P grand. La figure 25 donne l’évolution de Tm
m
1/N . On observe que même si, pour des petits N , la courbe semble sensible à ωE , les barres d’erreurs
importantes empêchent une détermination trés précise de ωE . Cette différence avec le cas précédent
vient ici du rôle important joué par les bords. En effet, les paramètres de bord NN ont une déviation
standard assez importante qui se reflète automatiquement sur les barres d’erreurs théoriques. Sans
une amélioration des erreurs sur les paramètres NN (et surtout sur ceux d’initiation), il y a peu
d’espoir d’arriver à évaluer ωE de manière précise avec cette méthode.
22
Conclusion
Pour conclure, nous avons présenté un modèle de type Poland-Scheraga basé sur un modèle
sur réseau afin d’étudier la dénaturation thermique de l’ADN. Nous avons également introduit
une nouvelle correction en sel agissant sur l’entropie des paramètres énergétiques. Cette correction
tient compte de la nature et de l’environnement local des paires de bases. Elle semble adaptée
à une large gamme d’ADN allant des oligomères courts aux polymères longs. Notre approche a
également permis de prendre en compte les erreurs statistiques nous accordant ainsi d’évaluer des
barres d’erreur théoriques données par le modèle. La comparaison avec les expériences montre que,
en général, les courbes de fusion sont assez bien reproduites par la simulation grâce notamment à
l’étude des erreurs. Le pouvoir de prédiction de notre modèle semble donc bon. Afin de l’exploiter,
nous nous sommes intéressés au problème de nucléation des bulles internes dans les oligomères longs.
Nous avons ainsi étudié l’influence de la taille des bords sur l’ouverture de la bulle et le rôle de la
taille de la bulle sur sa température de fusion. De plus, l’évaluation des erreurs a permis de souligner
la grande sensibilité des observables par rapport aux paramètres pour certains types de séquences.
Ces brins sont des chaı̂nes assez courtes (oligomères longs, polymères courts) contenant des grandes
régions riches en AT . Cette propriété peut alors être utilisée à profit afin d’affiner la paramétrisation
du modèle.
Par la suite, une fois de nombreuses expériences réalisées sur ce type de séquences permettant
d’avoir une bonne statistique, il sera possible de paramétrer de manière plus précise notre modèle.
Avec ces nouveaux paramètres, une étude générale plus détaillée des oligo et polynucléotides sera
imaginable et un accès aux structures tertiaires (via le modèle sur réseau) sera possible pour un
large échantillon d’ADN.
23
Annexes
A
Algorithme de Fixman-Freire
A.1
Simplification
Simplifions tout d’abord les relations de récurrence. En posant,
Zf∗ (α)
Zb∗ (α)
∗
Zsf
(α)
α−1
X
!
(43)
!
(44)
!
(45)
(α − α′ )−c Zf∗ (α′ ) + σ1 (α)
(46)
= exp −β
= exp −β
= exp −β
Gi Zf (α)
i=1
N
−1
X
i=α
α−1
X
Gi Zb (α)
Gi Zn (α)
i=1
On obtient,
Zf∗ (α
−βGα
+ 1) = e
Zf∗ (α)
+ σ0 (α)
α−2
X
α′ =2
Zb∗ (α) = e−βGα Zb∗ (α + 1) + σ0 (α − 1)eβGα−1
∗
Zsf
(α) = Kl e−2βγ
(α′ − α − 1)−c e−βGα′ −1 Zb∗ (α′ )
α′ =3
+σ2 (α)eβGα−1
α−2
X
N
X
(47)
(α − α′ )−c Zf∗ (α′ ) + Kf e−βγ (α − 1)ζ−1
(48)
α′ =2
′
′
avec σ0 (α) = Kl e−2βγ e−βGα , σ1 (α) = Kf e−βγ e−βGα (α − 1)c et σ2 (α) = Kf e−βγ e−βGα−1 (N − α)c .
A.2
Approximation de Fixman-Freire
L’approximation de Fixman-Freire [38] consiste à approcher x−c par une somme finie de termes
exponentiels
x−c ≈
I
X
ak e−bk x
(49)
k=1
Les valeurs de {ak , bk } sont déterminées par résolution d’équations non linéaires [38].
Avec ce développement, on introduit deux nouvelles variables
ebi α eµi (α) ≡
e−bi α eνi (α) ≡
α−2
X
α′ =2
N
X
′
ebi α Zf∗ (α′ )
(50)
′
(51)
e−bi α e−βGα′ −1 Zb∗ (α′ )
α′ =α
Ainsi
Zf∗ (α) = eµi (α) − e−bi eµi (α−1)
h
Zb∗ (α) = eβGα′ −1 eνi (α) − e−bi eνi (α+1)
24
(52)
i
(53)
(54)
Les fonctions nouvellement introduites vérifient alors les relations de récurrence
µi (α + 1) = µi (α) + log(A + B + C + D)
′
′
′
(55)
′
νi (α) = νi (α + 1) + log(A + B + C + D )
(56)
(57)
Avec
B = e−βGα 1 − e−bi eµi (α−1)−µi (α)
i (α)
D = σ1 (α)e−µ
B ′ = e−βGα−1 1 − e−bi eνi (α+2)−νi (α+1)
D ′ = σ2 (α)e−νi (α+1)
A = e−bi
P
C = σ0 (α) Ik=1 ak e−2bk eµk (α−2)−µi (α)
A′ = e−bi
P
C ′ = σ0 (α − 1) Ik=1 ak e−2bk eνk (α+3)−νi (α+1)
∗
Et pour Zsf
∗
Zsf
= Kl e−2βγ
I
X
k=1
A.3
ak e−2bk eµk (α−2) + Kf e−βγ (α − 1)c
′
(58)
Conditions initiales des récurrences
Pour résoudre ces relations de récurrence, on a besoin de connaı̂tre les conditions initiales. Comme
Zf∗ (2) = e−β(G1 +ω1 )
Zf∗ (3)
Zf∗ (4)
(59)
−β(G2 +G1 +ω1 )
= e
−β(γ+G2 )
+ Kf e
(60)
= e−β(G3 +G2 +G1 +ω1 ) + Kf e−β(γ+G2 +G3 ) + Kf 2ζ−1 e−β(γ+G3 )
(61)
on a
µi (2) = log(Zf∗ (2))
(62)
µi (3) = log(Zf∗ (3) + e−bi Zf∗ (2))
µi (4) =
log(Zf∗ (4)
−bi
+e
Zf∗ (3)
(63)
−2bi
+e
Zf∗ (2))
(64)
De même pour νi
Zb∗ (N ) = e−β(ωN )
Zb∗ (N
Zb∗ (N
(65)
−β(GN−1 +ωN )
−βγ
− 1) = e
+ Kf e
−β(GN−2 +GN−1 +ωN )
− 2) = e
(66)
−β(γ+GN−2 )
+ Kf e
ζ−1 −βγ
+ Kf 2
e
(67)
on a alors
νi (N ) = log(Zb∗ (N )e−βGN−1 )
νi (N − 1) =
νi (N − 2) =
−βGN−2
log(e
Zb∗ (N
log(e−βGN−3 Zb∗ (N
− 1) +
− 2) +
(68)
−bi −βGN−1
e e
Zb∗ (N ))
e−bi e−βGN−2 Zb∗ (N −
(69)
−2bi −βGN−1
1) + e
e
Zb∗ (N ))
(70)
Pour Zn∗
∗
Zsf
(1) = 0
∗
Zsf
(2)
∗
Zsf
(3)
(71)
−βγ
(72)
c′
(73)
= Kf e
= Kf 2 e−βγ
25
A.4
Observables
En incorporant les nouvelles variables, on obtient
p(α) =
∗ (α)Z ∗ (α + 1)e−βGα + Z ∗ (α)Z ∗ (α) + 5 e−β(ω1 +ωN +
Zsf
f
b
b
PN −1
′
Pour calculer Θass , on a besoin de FAB et FA + FB
FAB = −kB T log Z = −
FA + FB = −
Ainsi
i=1
−β(ω1 +ωN +
c ∗
α=2 (N − α) Zf (α) + 5 e
e−βωN Zf∗ (N ) + Kf e−βγ
et
PN−1
N
−1
X
i=1
N
−1
X
i=1
Gi − kB T log Z ∗
Z∗
′
2
(1.2) (N − 1)2c
i=1
Gi )
(74)
(75)
Gi − kB T log (1.2)2 (N − 1)2c
FAB − FA − FB = −kB T log
Gi )
PN−1
′
(76)
(77)
De plus dans notre modèle, on fixe le paramètre ωE qui est relié à l’entropie de mélange Fmix ≡
∗ (N − 1)). De la définition de ω [25] on tire
−kB T log(vAB
E
∗
vAB
=
Kf
4 × 2c′
2
1
′
(N − 1)2c −1 e−2ωE /kB
6
(78)
Ainsi on obtient
FAB − FA − FB + Fmix = −kB T log(Z ∗ /6) + 2T ωE
Soit
eβG0 =
A.5
6 2ωE /kB
e
Z∗
(79)
(80)
Algorithme
L’algorithme consiste donc à resoudre les relations de récurrence pour µi et νi , d’en déduire
∗ puis de calculer p(α), Θ
et Zsf
int et Θass .
L’approximation de Fixman-Freire permet ainsi de passer d’une résolution en O(N 2 ) à une
résolution en O(N × I).
Zf∗ ,Zb∗
B
Paramétrisation du modèle NN
Pour la détermination des ∆h0i,j et ∆s0i,j du modèle NN, on suit la méthode de Allawi et SantaLucia [14]. On dispose de 108 oligomères courts qui ont une transition à deux états et dont on connait
∆H0 et ∆S0 (voir le Supplementary Materials de [14]). Les données peuvent alors être écrites sous
la forme
H = P · HNN
S = P · SNN
(81)
(82)
où HNN est le vecteur des 12 paramètres ∆h0i,j (idem pour SNN ), P est la matrice de paires, ie, Pij
est le nombre de paires j dans la séquence i et H le vecteur des ∆H0 des 108 séquences (idem pour
S).
26
B.1
Décomposition en valeur singulière
Les solutions des équations (81) et (82) sont obtenues avec la méthode de décomposition en
valeur singulière (SVD) [52] qui inverse P et minimise
χ2H
=
X
Hi −
P
Pij HN N,j
Si −
P
Pij SN N,j
j
σH,i
i
χ2S
=
X
i
j
σS,i
!2
!2
(83)
(84)
avec σH,i et σS,i les déviations standards de ∆H0 (5%) et ∆S0 (6%).
Soit U (matrice unitaire de taille 108× 108), V (matrice unitaire de taille 12× 12) et W (matrice
diagonale positive de taille 108 × 12) les trois matrices obtenues par la décomposition SVD de A
(Aij = Pij /σi )
A = U · W · V†
(85)
alors la minimisation de Eq.(83) et (84) a pour solution
HNN =
SNN =
108 X
U(i) ·bH
i=1
108 X
i=1
V(i)
(86)
U(i) ·bS
V(i)
Wi
(87)
Wi
où U(i) représente la colonne i de U (idem pour V) et bH,i = Hi /σH,i (idem pour bS ).
B.2
Méthode Bootstrap
Pour évaluer les erreurs statistiques et les corrélations, on utilise la méthode Bootstrap [52, 53].
Elle consiste à choisir aléatoirement 68 séquences (63% du total) sur les 108, de tirer uniformément
40 séquences sur les 108 (il peut donc y avoir des doublons), puis d’effectuer la même minimisation
que précédemment sur ces 108 données. Les nouveaux paramètres sont alors distribués autour de
la valeur moyenne de manière gaussienne. Ces distributions permettent ainsi de calculer la matrice
covariante
Nt
1 X
(xi − x̄)(yi − ȳ)
(88)
Cov(x, y) =
Nt i=1
B.3
Variables indépendantes
Pour pouvoir tirer de manière aléatoire des nouveaux paramètres distribués autour des valeurs
standard, il faut tenir compte des corrélations entre paramètres. Donc, supposons que l’on ait n
variables {xi } corrélées entre elles, le problème est de trouver n variables {Xi } indépendantes entre
elles et fonctions des {xi } afin d’effectuer des tirages indépendants sur les {Xi } puis de revenir aux
{xi }. Ainsi, on va chercher les {Xi } sous la forme
Xi =
X
aij xj
(89)
j
On veut que les nouvelles variables ne soient pas corrélées donc on a
Cov(Xl , Xk ) = 0
27
∀l 6= k
(90)
On a donc n(n − 1)/2 équations et a priori n2 inconnues, {aij }. On peut donc fixer n(n + 1)/2
coefficients : on va supposer que la matrice a est triangulaire supérieure avec des 1 sur sa diagonale.
Les équations (90) reviennent alors à résoudre
al · Cx · (ak )† = 0 ∀l 6= k
(91)
avec al est la ligne l de la matrice a et Cx la matrice covariante des {xi }. On résout ces équations
”ligne par ligne”, en débutant par n − 1 puis n − 2,... On obtient ainsi les {aij } qui permettent de
calculer X̄i et σXi .
Enfin, après avoir effectué un tirage aléatoire sur les {Xi }, on revient aux {xi } en inversant la
relation (89).
C
Modélisation de la nucléation
Pour les séquences de la figure 23, on a
Z1 = 6 e−2βω
Z2 = Kl m
(92)
−c −2β(ω+γ)
e
exp {β(m∆GAA + ∆GGA + ∆GAG )}
c′ −β(ω+γ)
Z3 = Kf (n + m) e
C.1
exp {β(m∆GAA + n∆GGG + ∆GGA + ∆GAG )}
(93)
(94)
Étude des T ∞ en fonction de m
GG = H
Ainsi quand n → ∞, Z3 → 0 sauf quand T = Tm
GG /SGG = 400.6 K. En ce qui concerne
GG et donc on peut négliger Z pour n
les températures de fusion de la bulle, on est plus bas que Tm
3
grand. On obtient alors
Z1
(95)
pb =
Z1 + Z2
Si on suppose que les effets de bord des bulles sont négligeables, ie, toutes les bases de la bulle ont la
même probabilité d’ouverture pb et on peut négliger les termes de bord ∆GGA et ∆GAG , on obtient
∞
les équations suivantes pour la détermination de Tbulle
∞
pb (Tbulle
) = 1/2
⇒
∞
∞
Z1 (Tbulle
) = Z2 (Tbulle
)
(96)
soit
1 =
∞
Tbulle
=
Kl −c 2γS /kB −m SAA /kB m HAA /(kB T ∞ )
bulle
m e
e
e
6
m HAA
m SAA − 2γS + kB log
Pour les bords, la probabilité de fermeture vaut
pbd =
6
Kl
Z1 + Z2 + Z3
Z1 + Z2 + 2 Z3
mc
(97)
(98)
(99)
La seule possibilité pour que pbd = 1/2 est que Z3 → ∞, ce qui est uniquement réalisé quand
GG , ainsi
T = Tm
∞
GG
Tbord
= Tm
(100)
28
C.2
Étude de nmin en fonction de m
La décroissance exponentielle de Z3 en fonction de n est de la forme
′
Z3 (n) = α(n + m)c e−n/τn
(101)
avec α une constante indépendante de n et τn = −kB T /∆GGG une taille caractéristique de décroissance.
∞ , on obtient
Pour la bulle, en supposant que T ∼ Tbulle
τn = −kB
mHAA
m(HGG SAA − SGG HAA ) − 2HGG γS + kB HGG log
6
Kl
mc
(102)
bulle >= 0.999 × T ∞ , ainsi n
De plus nmin est défini comme la valeur pour laquelle < Tm
min va
bulle
dépendre de la décroissance de Z3 . D’où
nmin ∝ τn
D
(103)
F -test
Considérons un ensemble de N points expérimentaux {(yi , xi )} (par exemple Tm , ∆H0 , etc.) que
l’on veut modéliser avec M paramètres {aj } (par exemple γS , ∆h0N N , etc.). Pour cela on minimise
χ20 [52, 54]
N X
yi − f ({aj }, xi ) 2
2
χ0 ({aj }) =
(104)
σi
i=1
Cette minimisation nous fournit les paramètres {a0j }. Supposons maintenant que l’on ajoute un
point expérimental à nos données (y, x) et que l’on effectue une nouvelle minimisation avec
2
χ ({aj }) =
χ20 ({aj })
+
y − f ({aj }, x)
σ
2
(105)
donnant de nouveaux paramètres {a1j }. Dans le cas où, N >> 1, le fait d’ajouter un point ne doit
pas changer de manière significatrice les paramètres, ie, |a1j − a0j |/|a0j | ≪ 1. Donc
χ
2
({a1j })
≈
χ20 ({a0j })
+
y − f ({a0j }, x)
σ
!2
(106)
Ainsi, pour estimer l’effet de l’ajout de ce point sur la paramétrisation du modèle, on utilise un
F -test [54] défini par
χ2 ({a1j }) − χ20 ({a0j })
1
≈ (N − M ) 2 0
Fχ = 2 0
χ0 ({aj })/(N − M )
χ0 ({aj })
y − f ({a0j }, x)
σ
!2
(107)
Plus Fχ est grand, plus le point ajouté a de l’intérêt.
Donc, pour des séquences ayant une grande sensibilité par rapport aux paramètres, Fχ va être
plus large que pour des oligomères courts pour lesquelles la transition est peu sensible aux paramètres. Ainsi, on a intérêt à incorporer des séquences type oligomères longs pour améliorer la
paramétrisation.
29
Références
[1] J.D. Watson and F.H.C. Crick, Nature 171, 737 (1953)
[2] http ://www.coll-outao.qc.ca/bio/Imagebiologie/
[3] C. Calladine, H. Drew, B. Luisi and A. Travers. Understanding DNA ; the molecule and how it
works, Elsevier Academic Press (2004)
[4] M. Peyrard and A.R. Bishop, Phys.Rev.Lett. 62, 2755(1989)
[5] D. Poland and H.A. Scheraga. Theory of Helix-Coil Transition in Biopolymers, Academic Press,
New York (1970)
[6] D.M. Crothers and B.H. Zimm, J.Mol.Biol. 9, 1 (1964)
[7] H. DeVoe and I. Tinoco, Jr., J.Mol.Biol. 1, 500 (1962)
[8] J. SantaLucia, Jr., Proc. Natl. Acad. Sci. U.S.A. 95, 1460 (1998)
[9] R. Owczarzy et al, Biopolymers 44, 217 (1998)
[10] D. Poland and H.A. Scheraga, J.Chem.Phys. 45, 1456, 1464 (1966)
[11] O. Gotoh and Y. Tagashira, Biopolymers 20, 1033 (1981)
[12] M.J. Doktycz et al, Biopolymers 32, 849 (1992)
[13] J. SantaLucia, Jr., H. Allawi and P.A. Seneviratne, Biochemistry 35, 3555 (1996)
[14] H.T. Allawi and J. SantaLucia, Jr., Biochemistry 36, 10581 (1997)
[15] A.L. Oliver, R.M. Wartell and R.L. Ratliff, Biopolymers 16, 1115 (1977)
[16] B.R. Amirikyan, A.V. Vologskii and Y.L. Lyubchenko, Nuc. Acids Res 9, 5469 (1981)
[17] R.D. Blake and S.G. Delcourt, Nuc.Acids.Res. 26, 3323 (1998)
[18] http ://www.geneticengineering.org/chemis/Chemis-NucleicAcid/Graphics/
[19] Y. Zeng, A. Montrichok and G. Zocchi, J.Mol.Biol. 339, 67 (2004)
[20] Y. Zeng and G. Zocchi, Biophys. J. 90, 4522 (2006)
[21] D.D. Shoemaker, E.E. Schadt et al, Nature 409, 922 (2001)
[22] N.C. Seeman, Biochemistry 42, 7259 (2003)
[23] A.Fire, M.K Montgomery, S.A. Kostas, S.E. Driver and C.C. Mello, Nature 391, 806 (1998)
[24] B. Daneholt. Advanced Information on The Nobel Proze Generally in Physiology or Medecin
2006 - RNA Interference, The Nobel Assembly at Karolinska Institutet (2006)
[25] R. Everaers, S. Kumar and C. Simm, Phys.Rev.E 75, 041918 (2007)
[26] R.A. Dimitrov and M. Zuker, Biophys.J. 87, 215 (2004)
[27] R. Owczarzy et al, Biochemistry 43, 3537 (2004)
[28] M. Rubinstein and R.H. Colby. Polymer Physics, Oxford University Press, Oxford (2003)
[29] M.S. Causo, B. Coluzzi and P. Grassberger, Phys.Rev.E 62, 3958 (2000)
[30] C. Vanderzande. Lattice Models of Polymers, Cambridge University Press (1998)
[31] T. Garel and H. Orland, Biopolymers 75, 453 (2004)
[32] N.R. Markham and M. Zuker, Nuc.Acid.Res. 33, W577 (2005)
[33] M.E. Fisher, J.Chem.Phys. 45, 1469 (1966)
[34] Y. Kafri, D. Mukamel and L. Peliti, Eur.Phys.J.B 27, 135 (2002)
30
[35] Y. Kafri, D. Mukamel and L. Peliti, Phys.Rev.Lett. 90, 159802 (2003)
[36] R. Blossey and E. Carlon, Phys.Rev.E 68, 061911 (2003)
[37] P.-G. de Gennes. Scaling Concepts in Polymer Physics, Cornell University Press, Ithaca NY
(1979)
[38] M. Fixman and J.J. Freire, Biopolymers 16, 2693 (1977)
[39] R.D. Blake et al., Bioinformatics 15, 370 (1999)
[40] G.S. Manning, Biopolymers 11, 937 (1972)
[41] D. Erie et al., Biochemistry 26, 7150 (1987)
[42] M.T. Record and T.M. Lohman, Biopolymers 17, 159 (1978)
[43] M. Frank-Kamenetskii, Biopolymers 10, 2623 (1971)
[44] A. Vologodskii, B. Amirikyan, Y. Lyuchenko and M. Krank-Kamenetskii, J.Biomol.Struct.Dyn.
2, 131 (1984)
[45] R.M. Wartell and A.S. Benight, Physics Reports 126, 67 (1985)
[46] L60B36 : CCGCCAGCGGCGT T AT T ACAT T T AAT T CT T AAGT AT T AT AAGT AAT AT GGCCGCT GCGCC .
L19AS2 : AT AAT AAAGGCGGT CCGCC .
[47] Cette séquence est un complexe de 4660 bp composé par pBR322 mélangávec une
séquence répétitive de 245 bp. pBR322 est associé au numéro d’accession primaire J01749
(http ://www.ebi.ac.uk).
[48] S.T. Smale and J.T. Kadonaga, Annu.Rev.Biochem. 72, 449 (2003)
[49] E. Yeramian and L. Jones, Nuc.Acids.Res. 31, 3843 (2003)
[50] J.F. Marko and E.D. Siggia, Science 265, 506 (1994)
[51] J. Yan and J.F. Marko, Phys.Rew.Lett. 93, 108108 (2004)
[52] W.H. Press, S.A. Teukolsky, W.T. Vetterling and B.P. Flannery. Numerical Recipes in fortran
77 : the Art of Scientific Computing, Cambridge University Press, Cambridge UK (1996).
http ://www.nr.com
[53] B. Efron and R. Tibshirani. An Introduction to the Bootstrap, Chapman&Hall, London (1993)
[54] P.R. Bevington and D.K. Robinson. Data Reduction and Error Analysis for the Physical
Sciences, chapter 11.4, McGraw-Hill, New York (1992)
Remarques :
– Le travail effectué pendant le stage a abouti à la rédaction d’un article qui va être soumis à la
revue scientifique Proceedings of the National Academy of Sciences USA (PNAS) .
– Ce stage de M2 va se poursuivre sur une thèse (allocation couplée) au Laboratoire de Physique
de l’ENS Lyon sous la direction de Ralf Everaers. Le but de la thèse sera d’appliquer le modèle
sur réseau à la molécule d’ARN afin de s’attaquer à l’épineux problème du repliement de l’ARN.
Remerciements :
J’aimerai remercier particulièrement Ralf Everaers pour sa disponibilité, sa gentillesse ainsi que pour
ses remarques contructives sur mon travail. Un grand merci également à Jordi pour m’avoir trouvé
et installé si rapidement un ordinateur, et à Sophie pour avoir relu attentivement ce rapport afin
d’y traquer les nombreuses répétitions et autres fautes d’orthographe.
31