Université du Québec INRS-Eau MODÉLISATION ADDITIVE PAR

Transcription

Universitédu Québec
INRS-Eau
MODÉLISATION ADDITIVE PAR POLYNÔNNBSLOCAUX
POUR LA RÉGIONALISATION DES QUANTILES DE CRUE :
APPROCHE OPTIMALE DE NÉCNNSSIONPAR NÉCTON D'INFLUENCE
Par
Marco Latraverse
M.Sc.Mathématiques
Thèseprésentée
pour I'obtention
doctorat(Ph.D.)
du gradede Philosophiæ
de I'eau
en Sciences
Juryd'évaluation
Présidentdu jury et examinateurexterne
PascalSarda
Laboratoirede statistiqueet probabilités
UniversitéPaul Sabatier
Examinaûeur
externe
BelkacemAbdous
Départementde mathématiqueset d' informatique
Universitédu Québecà Trois-Rivières
Examinateur
interne
TahaB.M.J.Ouarda
INRS-Eau
Codirecteurde recherche
PeterFunderRasmussen
Departmentof Civil andGeologicalEngineering
Universityof Manitoba
Directeurde recherche
BemardBobée
INRS-Eau
Thèsesoutenue
le 14avril2@0
@ droitsréservésde MarcoLatraverse,2000
lll
Résumé
territorialeset du coût associéà f installationet au maintiende
En raisondesgrandesétendues
stationsde mesures,il arrivefréquemmentque les hydrologuesdoiventproduireune estimation desquantilesde cruede périodede retourdonnéeT, notésQr, en un site nonjaugéoù ils
Danscettesituation,uneapprocheemployée
nedisposentd'aucuneinformationhydrométrique.
afindetransférerI'informationdisponibleen
derégionalisation
consisteà utiliserdesprocédures
dessitesjaugésversle sitenonjaugéoù I'on désireproduireuneestimation.De manièrsgénécomportedeuxétapesdistinctesqui consistentà (l) choirale,uneprocédurede régionalisation
sir les sitesjaugésà partir desquelss'effectuerale transfertd'informationet (2) appliqueraux
siteschoisisun modèlede transfertd'informationrégionale.Aux États-Unis,desingénieursdu
tlnited StatesGeologicalSurvey(USGS)ont proposérécemmentI'utilisation d'une nouvelle
procédurede régionalisation,la régressionpar région d'influence (Tâskeret al., 1996)qui
consisteà (l) choisirles sitesjaugésà I'aide d'uneapprochede régiond'influenceet (2) utiliser
pour le transfertd'informationrégionale.
uneapprocheclassiquederégression
Danscettethèse,nousreformulonsI'approchede la régressionpar régiond'influencedansun
Nous montronsen effet queI'approchede régression
contextede régressionnon paramétrique.
parrégiond'influenceappartientà uneclasseparticulièredemodèlesderégressionnonparamélocale.Nousutilisons,dansun premiertemps,les conceptsde
trique,lesmodèlesde régression
la régressionlocale afin de proposerune approchepermettantde choisir de manièreobjectiveet
étaient
qui ffaditionnellement
optimaleles paramètresde la régiond'influence,desparamètres
à la famille
choisisde manièresubjective.Nousmettonsaussienévidencele fait qu'appartenant
desmodèlesde régressionlocale,I'approchede la régressionpar régiond'influenceseheurte
au problème,bien connuen statistique,de la raréfactiondesdonnéesdansun espaceà grande
dimension.Nousproposonsalors,parle fait même,I'utilisationd'unenouvelleapprochederéparrégiond'influencequi nesoitpasaffectéeparceproblèmede
gionalisationnonparamétrique
dimensionalité,l'approchede la modélisationadditive par potynômeslocaux. Nouscomparonspar la suite,à I'aide dedonnéesréelles,I'approchedemodélisationadditivepar polynômes
ont étéestimés
locauxà I'approchede la régressionpar régiond'influencedont les paramètres
par régiond'influencedeTasker
de manièreobjectiveet optimale,à I'approchede la régression
du USGS.
et al. (1996)et à I'approcheclassiquede régressionrégionaleparamétrique
Modélisationadditivepar polynômeslocauxpourla régionalisation
desquantilesde crue...
Remerciements
m'ont soutenupendantmesétudesde doctorat.Mentionnonsd'abordmon
Plusieurspersonnes
Je tiensaussi
directeurde thèse,BernardBobée,ainsi que mon codirecteur,PeterRasmussen.
à remercierles autresmembresde l'équipe de la Chaireindustrielleen hydrologiestatistique
pour leur aide et pour avoir
CRSNG/ Hydro-Québec/ INRS-Eaupour leurscommentaires,
agrémentémon séjourà I'INRS-Eau.Merci Taha,Luc, Mario, Hugues,Alin, Fabriceet Mardes examinateursexternesont permis
tyne. Il me faut aussisoulignerque les commentaires
d'améliorerde façonsignificativela qualitéde ce document.
Les trois premièresannéesde mes étudesont été ûnancéespar les boursesde I'INRS et par
l'INRS-Eau via mon directeurde recherche.Je tiens enfin à remsrcierrna conjointeMarieNatachad'abordpoursonsoutienfinanciermaissurtoutpourm'avoir supporté,appuyéet avoir
su êtreprésente,malgrésonhorairechargé,lorsquej'avais besoind'elle.
vll
À la rnémoire de Georges-Étienne Latraverse
Modélisationadditiveparpolynômeslocauxpourla régionalisation
Table desmatières
ul
Résum6
Table desmatières
xlll
Liste desfigures
Liste destableaux
INTRODUCTION
t
de recherche.
1.1 Problématique
1
1.1.1 Le modèle de transfertrégional
3
1.I.2 Le choixdessites.
4
1.1.3 Approchesactuelles
6
de modélisationproposée
1.1.4 r--approche
9
1.2 Objectifsde recherche
L2
1.3 Plandela thèse
l3
LE LISSAGE PAR NÉCNNSSIONLOCALE
2.L L approchede modélisationnonparamétrique
15
15
18
18
t9
20
20
2L
22
23
24
25
26
27
28
2.2 Lesprincipalesméthodesde lissage
2.2.1 Introductionaulissage
2.2.2 Définitiondu lissage
2.2.3 Le régressogramme
médianeset droitesmobiles
2.2.4 Le lissagepar moyennes,
2.2.5 Le lissagepar noyau
2.2.6 Le lissagepar splines
2.2.6.1 Les splinescubiquesd'interpolation
delissage
2.2.6.2 Les splinescubiques
2.2.6.3 Les splinesderégression
2.2.7 Le lissagepar polynômesmobileslocalementpondérés.
2.2.8 Les principauxlisseursde surfaces.
et choix d'uneapprochede lissage
2.2.9 Comparaison
Modélisationadditiveparpolynômeslocauxpour la régionalisation
2.3 La modélisationpar régressionlocale
2.3.I
locale
Le modèlederégression
2.3.2 l.lestimationde la courbede régression
2.3.3 La modélisation
desdonnées
2.3.4 Définitionsrelativesaux lisseurslinéaires
2.3.4.1 Le lissagelinéaire
2.3.4.2 Le biais
2.3.4.3 La variance
moyenne
2.3.4.4 l-ierreurquadratique
2.3.4.5 Le nombrede degrésde liberté
2.3.5 L'ajustementdu niveaude lissage: un compromisbiais/variance.
2.3.5.1 La largeurde la fenêtrede lissage
2.3.5.2 Le degrédu polynômelocal
2.3.5.3 La fonctionde pondération
de lissage
2.3.6 La sélectionautomatique
desparamètres
2.3.6.1 La validationcroisée
2.3.6.2 La validationcroiséepour un lisseurlinéaire
2.3.6.3 La statistiqueCo de Mallows
30
30
31
32
34
34
35
35
36
37
38
40
41
4l
43
44
44
45
LA MODÉLISATION ADDITIVE
47
3.1 Llapprochede modélisationadditive
47
3.2 Læmodèleadditif
49
3.3 L'estimationdesmodèlesadditifs
50
3.3.1 L algorithmede bacffitting.
51
3.3.2 Définitionsrelativesaux modèlesadditifsde lisseurslinéaires
52
3.3.2.I
Desestimateurs
linéaires
52
moyenne
3.3.2.2 Le biais,la varianceet I'erreurquadratique
53
3.3.2.3 Le nombrede degrésde liberté
54
3.4 La modélisationdesdonnées
55
3.4.L Les mesuresde I'ajustement
de sélectiondu modèle
3.4.2 Les procédures
56
3.4.3 L'aspectgraphiqueet la linéaritédesmodèlesde régression
59
5'I
Tâbledesmatières
4 LA RÉGIONALISATION DES QUANTTLESDE CRIIE
4.1 Descriptiondela problématique
xl
63
64
hydrologiques
Lesincertitudes
66
4.2 L'analyselocalede la distributiondescruesannuelles
69
4.lJ
4.2.1 Lesobjectifs
69
4.2.2 Leshypothèses
69
4.2.3 l-lestimationde la distributiondescruesannuelles
non paramétrique.
4.2.3.1 LSapproche
7O
4.2.3.2 L'approcheparamétrique
4.2.4 Le choixd'une procédured'estimationlocale
4.3 L'analyserégionalede la distributiondescruesanrurelles
72
4.3.t
Lesobjectifs
4.3.2 Le choixdessites
de régionshydrologiques
4.3.2.1 Les méthodesde détermination
4.3.2.2 L'assignationde la stationcible auxrégionshydrologiques
4.3.2.3 La méthodedela régiond'influence
4.3.2.4 La méthoded'analysedescorrélationscanoniques
4.3.3 Les principauxmodèlesrégionaux.
4.3.3.1 La méthodedeI'indicedecrue
régionaledesquantiles
4.3.3.2 La méthodede la régression
4.3.3.3 Les principauxmodèlesalternatifs
70
74
77
77
?8
79
79
80
80
81
82
83
84
APPLICATIONS ET COMPARAISON
89
desdonnées
5.1 Présentation
89
d'évaluationet de comparaison
5.2 La méthodologie
de séparationde données
5.2.1 Les simulationsvs les procédures
91
5.2.2 Les critèresde comparaison
5.2.3 La calibrationdesdifférentsmodèles
5.2.3.1 Le modèlede régressionlogJinéaireet de régressionpar région d'influence
5.2.3.2 La modélisationadditiveparpolynômeslocaux
5.3 Applicationà la régiondu Texas
5.3.1 La modélisationpar régressionlogJinéaire
5.3.2 La modélisationpar régressionpar régiond'influence
92
93
93
94
95
96
97
99
xll
Modélisationadditivepar polynômeslocauxpour la régionalisation
5.3.3 La modélisationadditivepar polynômeslocaux
desrésultats
5.3.4 Synthèseet comparaison
5.4 Applicationà la régionde la Nouvelle-Angletene
log-linéaire. .
5.4.t Le modèlederégression
102
110
113
113
par régiond'influence
5.4.2 Le modèlederégression
5.4.3 Le modèleadditif par polynômeslocaux
lt4
desrésultats
5.4.4 Comparaison
118
5.5 Applicationà la régionde I'Arkansas
log-linéaire. .
5.5.1 Le modèlederégression
115
118
ll9
par régiond'influence
5.5.2 Le modèlede régression
5.5.3 Le modèleadditifpar polynômeslocaux
120
desrésultats
5.5.4 Comparaison
123
tzr
CONCLUSION
tzs
6.1 Motivationde l'étude
125
t26
t26
t28
130
131
6.2 Objectifs
6.3 Démarche
6.4 Résumédesrésultats
6.5 Contribution.
6.6 Travauxfuturs
Bibliographie
133
Annexes
t4s
Annexe A Estimation de Qr gar GEV/PWM
145
Annexe B Donnéeset résultats du Ïbxas
149
Annexe C Donnéeset résultats de la Nouvelle-Angleterre
t57
Annexe D Donnéeset résultats de I'Arkansas
169
Liste desfigures
2.1
2.2
2.3
2.4
entreunerégression
linéaireet un lissage
Comparaison
Exemplesde compromisbiais/variance
Effet du changement
de la largeurde la fenêtrede lissage
Effet du changement
du degrédu polynômelocal
18
39
40
42
(tiré de Hastieet Tibshirani(1990))
3.L Illustrationdu problèmede dimensionalité
48
3.2 Algorithmedebacffitting . .
51
3.3 Algorithmedebacffitting modifié
3.4 Visualisationde I'hypothèsede linéaritépour 2 régionshydrologiquesdéfinies
par le USGS
52
60
4.1 Variationrégionaledu CV en fonctionde l'aire (A) desbassinsversants(tiré de
Guptaet al., 1994)
87
5.1 LesrégionshydrologiquesAméricainesdu HCDN
90
log-linéairepour I'estimationde Q56 98
5.2 RMSE de différentsmodèlesderégression
101
5.3 Nombreoptimalde stationsdansla régiond'influencepour Qso
surle lissage105
5.4 Modélisationadditivede Qso: Effet du critèrede validation-croisée
5.5 Modélisationadditivede Qso: Effetdela fonctionnoyauet deI'utilisationd'une
106
fonctionde pondérationsur le lissage(c : 1)
-108
5.6 Modélisationadditivede Qz, Qs, Qn et Qzs: c I
109
5.7 Modélisation
additivede Qz,Qs,Qrc etQzsi c: 2
5.8 Modélisationde Qso: graphiqueenboîtedeserreurs(relatives)de prédiction(Vo)Ill
lt7
. . .
5.9 Modélisationadditivede Qso(Nouvelle-Angleterre)
L22
5.10 Modélisationadditive(c - 2) de Qro,Qzset Qso
5.11 Comparaison
deserreursdeprédiction(DRM) enArkansas(adaptédeTaskeret
al. (1996))
t24
8.1 RMSE de différentsmodèlesde régression
log-linéairepour l'estimation& Qz. 152
log-linéairepour I'estimationde Q5 152
8.3 RMSE dedifférentsmodèlesderégressionlog-linéairepour I'estimationde Qro L53
logJinéairepour I'estimationde Qzs 153
8.5 Nombreoptimalde stationsdansla régiond'influencepour Q2
8.6 Nombreoptimalde stationsdansla régiond'influencepour Q5
154
154
8.7
Nombre optimal de stationsdans la région d'influence pour Q1e
8.8
Nombre optimal de stationsdans la région d'influence pour Q25
C.l RMSE de différentsrnodèlesde régressionlogJinéairepourl'estimationde Q2
C.2 RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Q5
pourI'estimationde Q1s
log-linéaire
C.3 RMSE de différentsmodèlesde régression
C.4 RMSE de différenæmodèlesde régressionlog-linéairepourI'estimationde Q25
C.5 RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Q56
C.6 Nombreoptimalde stationsdansla régiond'influencepour Q2
C.8 Nombreoptimalde stationsdansla régiond'influencepour Qie
C.lO Nombreoptimalde stationsdansla régiond'influencepour Q5s
C.11 ModélisationadditivedeQz
C.12 Modélisationadditivede Qs
C.13 Modélisationadditivede 8ro
C.14 Modélisationadditivede Qzs
D.l
D.2
D.3
D.4
D.5
D.6
D.7
RMSE de différentsmodèlesde régressionlog-linéairepourl'estimationdeQ2
RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde 8s
RMSE de différentsmodèlesde régressionlogJinéairepour I'estimationde Qro
RMSE de différentsmodèlesde régressionlogJinéairepour I'estimationde Q2s
RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Qss
Nombreoptimalde stationsdansla régiond'influencepour Q2
Nombreoptimalde stationsdansla régiond'influencepour Q5
D.8 Nombreoptimalde stationsdansla régiond'influencepour Q1s
D.9 Nombreoptimalde stationsdansla régiond'influencepour Qzs
D.10 Nombreoptimalde stationsdansla régiond'influencepour Q5s
D.11 Modélisationadditivede Qz
D.12 Modélisationadditivede 8s
D.13 Modélisationadditive(c * 1) de 8ro, QzsetQso
155
155
160
160
161
161
162
162
163
163
164
164
165
166
167
168
176
I77
177
178
178
179
ll9
180
180
181
182
183
184
Liste destableaux
2.1 Lesprincipalesfonctionsnoyau(tiré de Loader(1999))
2.2 Efficacitéasymptotiqueponctuelledesfonctionsde pondérationutiliséespour
la régressionlocalelinéaire(tiré deLoader(1999)
22
4.1 Formulesde probabilitéempirique(tiré de Bob:eeet Ashkar(1991))
7ï
5.1 Lesrégionshydrologiquesdu HCDN : Analysepréliminairede la logJinéarité.
et climatologiques
5.2 Descriptiondesvariablesphysiographiques
91
97
5.3 Légendedesdifférentsmodèlesderégression
estimésdeséquationsde régressionffexas) . . .
5.4 Lesparamètres
log-linéaire(Texas) . . .
5.5 RMSEet DRM desmodèlesde régression
98
5.6 RMSEprédictif desfonctionsnoyaurectangulaireet triplementcubique
par régiond'influence(Texas)
5.7 Les modèlescalibrésde régression
par régiond'i.nfluence(Texas)
99
43
98
99
101
101
L02
5.9 RMSEprédictif pour différentesvaleursde k
de la modéli5.10 Modélisationadditivedu quantileQ5s: Influencedesparamètres
104
sationsur les capacitésprédictives
108
5.11 RMSEet DRM desmodèlesadditifsde polynômeslocaux: c=l
109
5.12 RMSEet DRM desmodèlesadditifsdepolynômeslocaux: c=2
111
deserreursdeprédiction: RMSE - Texas
5.13 Comparaison
dgserreursde prédiction: DRM - Texas
5.14 Comparaison
deserreursdeprédiction(sansextrapolation): RMSE - Texas
5.15 Comparaison
deserreursde prédiction(sansextrapolation): DRM - Texas.
5.16 Comparaison
111
112
lI2
estimésdeséquationsde régression(Nouvelle-Angleterre). . . 113
5.17 Les paramètres
log-linéaire(Nouvelle-Angleterre) 113
parrégiond'influence(Nouvelle-Angleterre)It4
5.19 Les modèlescalibrésde régression
5.20 RMSE et DRM des modèlesde régressionpar région d'influence(NouvelleIl4
Angleterre) . .
desmodèlesde régressionlog-Inéaire
5.21 Matricesde corrélationdesparamètres
5.22 RMSEet DRM desmodèlesadditifsde polynômeslocaux: c=l
5.23 RMSEet DRM desmodèlesadditifsde polynômeslocaux: c=2
deserreursdeprédiction: RMSE - Nouvelle-Angleterre
5.24 Comparaison
deserreursde prédiction:DRM - Nouvelle-Angleterre
5.25 Comparaison
115
116
116
118
118
xvi
Modélisationadditiveparpolynômeslocauxpourla regionalisation
s.26Lesparamètres
estimésdeséquationsde régression(Arkansas)
119
119
5.27 RMSE et DRM desmodèlesde régressionlog-linéaire(Arkansas)
5.28 Les modèlescalibrésderégressionpar régiond'influence(Arkansas)
r20
5.29 RMSE et DRM desmodèlesde régressionpar régiond'influence(Arkansas). . t20
5.30 RMSE et DRM desmodèlesadditifsdepolynômeslocaux: c=l
r2l
5 . 3 1RMSE et DRM desmodèlesadditifsdepolynômeslocaux: c=2
122
5.32 Comparaison
t23
deserreursde prédiction: RMSE - Arkansas
5 . 3 3 Comparaison
deserreursde prédiction: DRM - Arkansas
t24
8,1 Donnéesdu Texas
t49
C.1 Donnéesde la Nouvelle-Angleterre
r57
D.l DonnéesdeI'Arkansas
r69
I.. INTRODUCTION
1.L Problématiquede recherche
desécoulements
aux
uneconnaissance
La gestionet I'utilisationdeseauxde surfacenécessitent
sitesoù se posentles problèmesreliésà la prévisiondescrues,au contrôledesinondations,à
desouvrageshydrauliqueset d'une fala régularisationdescoursd'eau,au dimensionnement
hydriqueet à touteétuded'impactd'aménagement
çongénérale,à toutegestionde la ressource
d'un coursd'eau.Pourrésoudrecesdifférentsproblèmes,les hydrologuesdoivent(l) prévoir
l'évolutiondesdébitsd'unerivièreet (2) estimerI'amplitudeet la fréquencede débitsextrêmes
d'alerteen casd'inondation,on
(crues,étiages).Parexemple,pourl'établissement
de systèmes
doit pouvoirémettredesprévisionsà courttermedel'évolutiondu niveaudescoursd'eau.Pour
touslesproblèmesreliésà la gestiondesréservoirs,on doit aussiprévoir,non seulementà court
le niveaudes
maisaussià moyenet long terme,l'évolutiondu débit afin de gérerefficacement
réservoirs.Par contre,pour la planification,incluant la conception,desouvragesde conrôle
desinondationsou detout autreouvragesoumisaurisquede défaillanceparleseaux,leshydrologuessontplutôt amenésà effectuerdesestimationssoit (1) dela probabilité au dépassement,
aussiappeléela probabilité ou la fréquenced'une crue,c'est-à-direla probabilitéqu'unecrue
au coursd'uneannéedonnéeou (2) de I'amplide grandeurdonnéeseproduiseou soitdépassée
préalablement
définie.Dansce travail,
tudedela crueassociée
à uneprobabilitéaudépassement
auproblèmede I'estimationdesamplitudesde crue.
nousnousintéressons
spécifiquement
d'approcheset de méthodesd'analyse de fréLes hydrologuesdisposentd'une abondance
quencedes crues (AFC) permettantd'effectuerl'estimationdesamplitudesde crue. Les difen fonction,entreautres,(Cunnane,1987):
d'AFC peuventêtreregroupées
férentesprocédures
1. du nombreet dela naturedesdonnéesdisponibles:
(a) donnéesau sitejaugéseulement,ou
(b) donnéesau sitejaugéet donnéesrégionales,ou
(c) donnéesrégionalesseulement;et
2. du type de modèleutilisé:
(a) modèledessériesde débitsmaximumsannuels(DMA), ou
(ou sériespartielles).
(b) modèledessériesde dépassements
Dansle cadrede ce travail,nousproposons
unenouvelleméthoded'AFC baséesurI'utilisation
au problèmede I'estimation
du modèledessériesde DMA (2a) et s'attaquantspécifiquement
desamplitudesdecrueen dessitesnonjaugés(1c).
Avecl'approchedessériesde DMA, aussiappeléeapprochedescrues annuelles,on ne consià la valeurmaximaledu débit atteinteau cours
dèrequ'uneseulecruepar annéecorrespondant
decetteannée.On rait ensuiteI'hypothèsequele DMA d'uneannéequelconqueestunevariable
aléatoireX issued'unepopulationP ayantunefonctiondedensitédeprobabilité/ ainsiqu'une
I'amfonctiondedistributionstationnatreF tellequeF(r) * PrlX ( r]. Seloncetteapproche,
au
plitudeQo du débitde la crue ayantune probabilitépréalablement
définiep d'être dépassée
coursd'une annéedonnéecorrespondau (1 - p)ièmepercentile,aussiappeléquantile de la
distributiondesDMA soit
Qp: r-t(r - p)
(1.1)
où F-l(.) estla fonctionde répartitioninversede la variablealéatoireX. En hydrologie,il est
courantde mesurerI'amplitudedescruesenemployantla notionde périodede retour, notée?.
Pardéfinition,unecruedepériodede retourde ? années(T-yearflood),not&, Q7, correspond
au débit de la cruequi estdépassé,en noyenne (sur unelonguepériode)une fois toutesles T
années.AvecI'approchedescruesannuelles,il estpossiblede montrerquele débitde crueQ7
estp - L/T d'où trarelation
correspondà un débitdontla probabilitéau dépassement
Qr:
Qp : F' - t( l - p) - F- t( 1 - Ur )
(r.2)
et l'emploi du termequantile de crue pour désignerla quantiÉQr.
Dansle casoù desmesuresde DMA sontdisponiblesausiteoù I'on désireeffectueruneestimation,le problèmede I'estimationdu quantilede crueQ2'consistealorsà estimerla distribution
réellemaisinconnueF desDMA ou cruesannuellesou tout simplement,crues.De manièregénérale,I'analyseQocale)de la distribution descrues(ADC), consisteà ajusterunedistribution
d'enregistrestatistique
/("; O) à la série(rr, *r, ..., rn) desDMA (oùn estle nombred'années
ments).Unefois I'estimationpar Ô du vecteurdeparamètres
O de la loi / effectuée,l'équation
1.2permetd'obtenir
Qr:r'-t(l -Ur;ë)
(1.3)
En hydrologiestatistique,plusieursdistributionscombinéesà diversesméthodesd'estimation
desparamètres
ont étéutiliséespour estimerde manièreapproximativela distributionréelledes
cruesannuelles.
INTRODUCTION
teritoriales et du coût associéà I'installationet au maintiende
En raisondesgrandesétendues
stationsde mesures,il arrivefréquemmentqueles hydrologuesdoiventproduireuneestimation
de Qr en un site où ils disposentde peu ou d'aucuneinformationhydrométrique.Danscessituations,il est alorspossibled'effectuerune analyserégionalede la distribution des crues
(ARDC) afin de s'attaquerà cetteproblématiqueparticulière.Un projetderechercheaétêmené
(GREHYS,1996a,I996b)afin de comparécemmentpar uneequipede scientifiquescanadiens
rer les principalesméthodesd'ARDC utiliséesen Amériquedu Nord tant pour I'estimationen
jaugésqu'endessitesnonjaugés.Puisquedansce travailnousproposons
dessitespartiellement
unenouvelleapproched'estimationpour dessitesnon jaugés,nousréféronsle lecteurà (GREde I'estimationen des
HYS, L996a,1996b)pour une explicationdétailtéede la problématique
sitespartiellementj augés.
pour transférerI'information
ditesde régionalisation
L'ARDC consisteà utiliserdesprocédures
disponibleen dessitesjaugésversle site nonjaugé (sitecible)où I'on désireeffectueruneesticomportedeuxétapesdistinctes
mation.De manièregénérale,uneprocédurede régionalisation
qui consistentà (1) choisirles sitesjaugésà partir desquelss'effectuerale transfertd'information vers le site cible et (2) appliqueraux siteschoisisun modèlede transfertd'information
régionale.
1.1.1 Le modèlede transfert régional
Un modèlede fransfertd'informationrégionaleou tout simplement,un modèlerégional,est
de crued'une
un ensembled'équationsqui relient entreellesune ou plusieurscaractéristiques
derégionalisationont plus particulièrégion.Dansla littératurehydrologique,deuxprocédures
rementretenuI'attentiondeshydrologues: la méthodede I'indice de crue(Dalrymple,1960)et
la méthodede la régressionrégionaledesquantiles(RRQ)(Benson,1962).
Avec la méthodede l'indice de crue,on fait I'hypothèseque les donnéesaux différentssitesi
et suiventla mêmedistributionstatistiqueà un facteurd'échelle
d'unerégionsontindépendantes
le débit de crue moyenpt îu sito z (l'indice de crue).Le modèlerégional
près,généralement
intrinsèqueà la méthodeestalors (pour une périodede retourT frxée):
//'li
--:
lt;
Fo*et
(1.4)
le quantile
représentant
où Qi/ lt; estle quantiledecruenormalisédu sitei, Bs estuneconstante
d'erreurdu modèle.L hypothèseque
de cruenormalisérégionalmoyenet e6estla composante
et suiventla mêmedistribution
les donnéesauxdifférentssitesd'unerégionsontindépendantes
Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue...
statistiqueà un facteurd'échelleprèséquivautà supposerque le coefficientde variation(CV)
et tousles autresratiosde momentsd'ordresupérieursontégauxà chacundessitesrégionaux.
Ainsi, un autremodèlerégionalintrinsèqueà la méthodede I'indice de crueest
CV:eV + et
( 1.5)
d'erreur
le CV régionalmoyenet €6estla composante
où CV estle CV du sitei, CV représente
du modèle.
Avecla méthodede la RRQ, on fait plutôt I'hypothèsequele modèlelog-linéairesuivant:
los(Qh): 0o* Bl log(xï)+ futos(xi)+ ...+ B6tos(xf,)
+.,
( 1.6)
d'erreur,permet
où 80,0t,...,Éa sontles paramèresinconnusdu modèleet e la composante
de décrireadéquatement
la relationexistantentreles quantilesde crueQr et les variablesphysiographiques
et climatologiquesXr,Xz,...,Xa desdifférentssitesd'une régiondonnée.En
supposant
unetelle relationrégionale,il estalorspossibled'appliquerles techniquesde régressionlinéairemultiple traditionnellespour I'estimationdesparamètresdu modèlede mêmeque
pourle choix desvariablesexplicatives.
parfaitementla réalitêhydrologique,
Puisqu'enpratiqueaucunmodèlerégionalne représenæ
touteprocédurede régionalisationintroduit,pourI'estimationde Qy en un sitenonjaugé,outre
deserreursliées à I'estimationdes paramètresdu modèle,une erreurcauséepar la forme inexactedu modèleemployé.Moss (1979)a d'ailleursmontré,à I'aide de simulations,comment
donné,des
l'élaborationd'un meilleurmodèlepermetd'obtenir,pourun nombred'observations
plusprécises.SelonGreiset Wood(1981),le modèledetransfertconstitue
estimations
beaucoup
de régionalisation:
d'ailleursl'élémentmajeurlimitant I'améliorationdesprocédures
"The achievement
of an optimallevel of regionalinformationtransferhasbeen
frustratedby the lack of a satisfactorymethodologyfor regionalizingstatisticalflood
parameters
suchasflood recurrenceintervalsor quantilelevels.To a point,informaby moreintensivedatacollectionactivities,
tion transferdeficienciescanbelessened
but the ultimatelimitation is thetransfermodelitself, usuallyregression."
1.1.2 Le choix dessites
Avantde pouvoir transférerau site cible I'informationrégionaleprovenantde sitesjaugés,il
estprimordialde bien choisir les sitesjaugésà partir desquelss'effectuerale transfertd'informationrégionale.À cette étape,l'hydrologuedoit répondreà la questionsuivante: de quels
INTRODUCTION
sitesprovientI'information permettantd'estimerde la meilleurefaçonpossiblele modèlede
en
transfertapplicableau site nonjaugé? En ARDC, le choix dessitess'effectuegénéralement
en fonction(1) de
géographiques)
regroupantlesdifférentssitesen régions(pasnécessairement
le coefficientde vahydrologiques(généralement
d'une de leurscaractéristiques
I'homogénéité
riation (CV)) ou (2) de la similaritéde leur comportementhydrologique.Dans la littérature
hydrologique,les notionsde similaritéhydrologiqueet d'homogénéitêrégionalesontgénéraleDansce document,on distingueracependantclairementcesnotionsà I'aide
mentconfondues.
desdéfinitionssuivantesde Rossiet Villani (1994a):
"Regionalizationmodelsusethe conceptof hydrologic similarity by associafactors.As only
with climaticandgeomorphologic
ting basin'sflood characteristics
are usedas explanatoryvariables,resomeof the geomorphologiccharacteristics
gionalizationmodelsusuallyallow the other factorsto be constants,i.e. they are
In this sense,thebasinsin
combinedso asnot to influencethe flood characteristics.
a singleregionaredefinedtobe hydrologicallysimilar. The particularcasewhere
is definedas regionalhono basinfactor is seento affectthe flood characteristics
whichis thusconstant
considered,
mogeneiry,withregardto the floodcharacteristic
in theregion."
du modèlede transfert.
Le choix dessitesestavanttout unequestionde respectdeshypothèses
Parexemple,pour la méthodede I'indice de cruedont le modèlerégionalfait I'hypothèsed'un
d'avoir homogénéitérégionaleau sens
coefficientdevariation(CV) constant,il estsouhaitable
du CV et le choixdessitesconsistealorsà regrouperles sitesenrégionsayantdesCV similaires
pour uneméthodecommela RRQ,les sitesservantà
Cependant,
régionshomogènes.
appelées
du modèlerégionatdoiventplutôt avoir un comportementhydrologiquesimil'établissement
et les
laire, c'est à dire qu'une seuleet mêmerelationlog-linéaireavecles mêmesparamètres
mêmesvariablesexplicativesdoit s'appliquerà tousles sitesretenus.
De manièregénérale,la déterminationde régionshomogènesou de régionsayantun comportementhydrologiquesimilaires'effectuesoit (1) en déterminantdesrégionsdistinctes(géographiquesou non) de sitesjaugésou (2) en déterminant,pour le sitecible nonjaugé,sonpropre
ensemblede sitesjaugésappelévoisinage.Les voisinagespeuventêtredéfinispar une analyse
et al., 1995;Ouardaet a1.,1997;Ouarda,Haché,
descorrélationscanoniques(Ribeiro-Corréa
et Bobée,1998)ou à I'aide de la méthodede la régiond'influence(Burn, 1990a).Selonla méthodede la régiond'influenceproposéed'abordpar Burn (1990a)pour dessitesciblesjaugés
puispar Znnjiet Burn (1994)pourdessitesnonjaugés,chaquesitecible estconsidérécomme
le centrede saproprerégion.Le critèrepermettantalorsla sélectionde la régiond'influenceest
ladistanceeuclidiennean,:ffidansl,espacedesvariablesexplicatives
Êstune fonctionde pondérationpermettantla standardisation
des variablesexplica& où ?r,l1
tives.La région d'influenceau site'i est alorsdéfiniepar I'ensembledessitesj tels que d,ii est
inférieureà un certainpoint de coupure0y ov,lorsquece point de coupureest trop restrictif,
par I'ensembledes K sitesayantles K plus petitesdistancesd1j où y'( est le nombreminimum de stationsdésiré.Cetteméthodea d'abordétéproposéepourla déterrninationde régions
homogènesaveccommemotivationle fait qu'il soit raisonnable
de s'attendreà ce quedesbasphysiographiques
sinsversantsayantdescaractéristiques
et climatologiquessimilaires,au sens
de la distanced,;i,puissentavoir desréponsespluie-débitsimilaireset ainsi, desdistributions
de crue semblables(mêmeCV) (Burn, 1990a).Cependant,
d'un point de vue conceptuel,cette
méthodepeut tout aussibien s'appliquerdansun contextede déterminationde sitesayantun
comportement
hydrologiquesimilaire.
1-.L.3 Approchesactuelles
Aux États'Unis,le UnitedStatesGeologicalSurvey(USGS),I'organismeimpliqué dansle développementdesprocédures
de régionalisationpour chacundesÉtatsaméricainsa d'abordutilisé la méthodede I'indice de cruedurantles annéesquaranteet ce,jusqu'au débutdesannées
soixante.Cependant,aprèsquedesétudesde Dawdy (1961)et de Benson(1962)aientmontré
quepour plusieursrégionsdesÉtats-Unis,I'hypothèsed'un CV constantne pouvaits'appliquer
puisqu'empiriquement,
le CV tend à diminuer lorsquel'aire des bassinsversantsaugmente,
le USGS a remplacéla méthodede I'indice de crue par celle de la régressionrégionaledes
quantiles.Cetteméthodeest encoreemployéeaujourd'huipar le USGSqui produit et publie
régulièrement(voir par exemplele rapportnationalde Jenningset al. (1994)) deséquations
de régressionpermettantaux ingénieurset hydrologuesd'estimerfacilementet rapidementles
quantilesde crueenchacundessitesnonjaugésdesÉtats-Unis.
Durantles annéesquafie-vingt,la méthodede I'indice de crue a étéressuscitée
dansune version utilisant les L-momentsde Hoskinget al. (1985a).De nombreuses
étudesde type Monte
Carlo (Hoskinget al., 1985a;Lettenmaier,1985;Lettenmaieret Potter,1985)ont alorsmonfré
que cette versionde la méthodeaméliorela précisiondesestimateursde Q, (en termed'er'
reur quadratiquemoyenne)aux sitesjaugésd'une régionhomogène.
Parcontre,I'hétérogénéité
régionale,c'est-à-direle nonrespectde I'hypothèsed'un CV régionalconstant,nuit à la perfor(Lettenmaieret Potter,1985).Parle fait même,I'applicationde cette
mancede cesestimateurs
méthodepour I'estimationen dessitesnonjaugésdemeureproblématique
puisqu'il estsouvent
difficile d'assignerà un sitenonjaugéunerégionhomogène(Fill et Stedinger,1998).
INTRODUCTION
Au coursdesdernièresannées,de nouveauxmodèlesrégionauxsontapparusdansla littérature
Parexemple,réalisantqueI'hypoafin de comblercertainesdeslacunesde leursprédécesseurs.
aveclesrelationsconnuesentre
thèsedebasedela méthodede l'indice decrueestinconsistante
(1998)indiquentqueles méthodes
d'estiFill et Stedinger
le CV et l'aire desbassinsversants,
desquantilesde crueavec
la dépendance
mationrégionaledevraientfaire intervenirdavantage
Ainsi, ils
physiographiques
importantes.
I'aire desbassinsversantset les autrescaractéristiques
par
desquantilesnormalisés,développée
proposentI'utilisationde la méthodede la régression
régionale
Fill (1994),qui consisteà combinerles modèlesde I'indice de crueet de la régression
desquantilesafind'obtenirun modèledontla formeest :
ber*) :
+.u
+ ...+ Baros(X'à
Êa* Érlos(Xi)+ B2rog(Xi)
(r.7)
Cemodèlepermetd'appliquerla notiondescalingpropreà la méthodedeI'indice decrueendes
régionaledu quantilenormalisé
pasnécessairement
I'hypothèsedeconstance
sitesnerespectant
(ou CV) puisquecelui-ci se ffouve modéliséà l'échellerégionalepar régressionlinéaire.On
dela méthodedeI'indicedecrue
peutremarquerquecetteapprocheconstitueunegénéralisation
puisqu'enprésenced'un CV constant,I'estimationdevraitconduireà 0t : Êz - ... : Êa: 0.
Considérantqu'il n'existe aucunejustificationphysiqueà la sélectiond'une relationlinéaire
multiple entre le logarithme des quantilesde crue Qr et les différentesvariablesphysiographiqueset climatologiques
desbassinsversants,
Gingraset al. (1995)proposentplutôtI'utilisapour la modélisationde la relationrégionale.La régrestion de la régressionnon paramétrique
sion non paramétriqueest une techniquede modélisationdont la caractéristiqueprincipale est
qu'aucunehypothèsen'est faite a priori surla formefinaledu modèle.Le modèlede régression
nonparaméniques'exprimecommesuit:
los(Qh): s(Xi,Xl, ...,Xâ)+ et
( 1.8)
où s est une fonction (courbeou surface)de régressionlisse de forme non spécifiéea priori
d'erreur.La forme du modèlesedétermineà partir des
de dimensiond et q est la composante
ditesde lissagesontdisponiblesdansla
méthodesou techniques
De nombreuses
observations.
littératurestatistiqueafin de permettreI'estimationde s. Gingraset al. (1995)ont estiméle mole lissagepar noyau,pour desfonctions
dèlede l'équation1.4à I'aide d'une de cestechniques,
et d : 2 (surfacede régression).
de régressionde dimensiond,- | (courbederégression)
Lors d'une étuderécentedu USGS,Taskeret Slade(1994)ont proposéI'utilisation d'une approchedite interactivede régression
régionalepour I'estimationde Qr en dessitesnonjaugés
du Texas.Il s'agit en fait d'estimeren chacundes sitesnonjaugésdu Texasune équationde
régressionrégionaleà I'aide de la seuleinformationprovenantd'une région d'influencecomposéed'exactement50 sitessur les 251 disponibles.Cetteapprochea permisd'obtenirde bien
meilleursrésultatsque I'approchetraditionnelleemployéeaux États-Unisconsistantà séparer
à I'aide d'une analysedu signedesrésidusdes
l'État en régionshydrologiquesgéographiques
équationsde régression.Plus récemment,Taskeret al. (1996)ont testéplus exhaustivement
I'utilisationde cetteprocédurede régionalisationqu'ils nommentdésormaisla méthodede la
régressionrégionale par région d'influence. Ils ont comparéI'utilisation de cetteapproche,
pour la modélisationdu quantileQsoen Arkansas,aux autresprocédures
utiliséestraditionnellementsoit (1) I'ajustementd'un modèlede régressionlog-linéaireà tous les sitesde l'État
(2) I'ajustementde modèleslog-linéairesdifférentspour chacunedes sous-régionshydrologiquesgéographiques
decetÉtatet (3) I'ajustementdemodèleslog-linéairesendessous-régions
de leursbassinsversantsà I'aide
identifiéesselondescritèresde similaritédescaractéristiques
(clusteranalysis)et d'analysediscrimide techniquesmultivariéesd'analysederegroupements
nante(V/iltshire,1986a).Encoreunefois, les meilleursrésultatsont étéobtenuspar la méthode
de la régiond'influence.
Les résultatsobtenusparTaskeret Slade(1994)et par Taskeret al. (1996)indiquentqueI'approchede la régressionrégionalepar régiond'influencesembleêtredesplus prometteuses.
De
plus, cetteméthodefait intervenir,commele suggèrentfortementFill et Stedinger(1998),la
physiographiques/climatologiques
entreles quantilesde crueet les caractéristiques
dépendance
de I'hypothèsede linéaritédu moimportantes.
Enfin, cetteméthodeestrobusteau non-respect
soulevéeparGingraset al. (1995).
dèlederégression(Taskeret Slade,1994),uneproblématique
régionaleparrégiond'influenceestdû au
D'ailleurs,cet avantagede I'approchede la régression
fait quela combinaisond'un modèlederégressionlog-linéaireet d'uneapprochederégiond'inconnueen statistiquesousle nom
nonparamétrique
fluencerevientà uneapprochederégression
de régressionlocale (Clevelandet Loader,1996a)et dont un desmodèlesles plus populaires,
le LOESS(Cleveland,t979), s'estavéréêtreen hydrologieune méthodenon paramétriquede
entredeux variables(Lall,
et la recherchede dépendances
choix pour I'analysedestendances
1e9s).
INTRODUCTION
Bien queI'approchedela régressionrégionaleparrégiond'influencesoit desplusintéressantes,
delimiter sonapplication:
il subsistetoujoursquelquesfacteurssusceptibles
de
o On note une grandepart de subjectivitéen ce qui concernele choix desparamètres
la régiond'influence(le point de coupure|r,le nombreminimum K de stationsdésiré).
Nguyenet Pandey(1996)reprochentd'ailleursauxméthodespermettantle choixdessites,
pourI'analysedela similarité
tellela méthodedela régiond'influence,d'êtredéveloppées
hydrologiqueen utilisantdescritèresqui ne soientpasdirectementreliésauxobjectifsde
I'estimationdescruessoit,par exemple,de produireuneestimationdesquantilesqui soit
la plusprécisepossible.
o Puisquele modèlede régressionrégionalepar régiond'influenceappartientà la famille
de la
desmodèlesderégressionlocale,il seheurteauproblème,bien connuen statistique,
raréfactiondesdonnéesdansun espaceà grandedimension.Ce problèmeentraîneun ilcde la fonctionderégression
nonparamétriques
dela variancedesestimateurs
croissement
lorsquele nombred de variablesprédictivesaugmente.Par exernple,pour un échantillon
de taille n, la vitesseoptimale de convergence(en moyennequadratique)pouvantêtre
d'une fonctionde régression/ de classeC2
atteintepour I'estimationnon paramétrique
(i.e.pour laquelleon supposeI'existenceet la continuitédes2 premièresdérivées)estde
I'ordrede O(n-+/(4+d))(Vieu,I996).Dansle contextehydrologique,cetteproblématique
estd'autantplusimportanteen raisonde la faibletaille deséchantillons(nombrede sites
jaugés)généralement
disponibles.
(plusieursvariables
o Uneautredifficultérelativeà la régression
localemultidimensionnelle
explicatives)est ta difficulté d'interprétationde la surfacede régression.Il est en effet
estiméelorsqued > 2impossiblede visualiserla surfacede régression
t.1.4
L'approche de modélisation proposée
Dans le cadrede cettethèse,nousproposons,à l'instar de Gingraset al. (1995)et pour les
mêmesraisons,I'utilisation d'une approchede régressionnon paramétrique,c'est-à-direpour
laquelleon ne fait aucunehypothèsea priori sur la forme de la fonction de régressionà estimer,
et ce en raisonprincipalement
pour la modélisationrégionaledesquantilesde crue.Cependant,
du problèmede dimensionalitéassociéà I'estimationpar lissagepur d'une fonctionmultidimensionnelles(Xi, Xl,...,Xj), nousproposonsplutôt I'emploi du modèle additif (Hastieet
Tibshirani,1987;Buja et a1.,1989;Hastieet Tibshirani,1990)suivant:
: sr(xi)+ s2(xfi+... + s6(xi)+ e;
los(Qh)
(l.e)
10
lisses,de forme non spécifiéea priori, asscoù les s4sott desfonctionsunidimensionnelles
explicatives(X1,X2,..., Xa).Ce modèlesesitue
à chacunedesvariables
ciéesrespectivement
à mi-cheminentrela régressionlinéairemultiple (approcheclassiquede Benson(1962)et du
(approchede Gingraset al. (1995)et apUSGS)et le lissagede surfacesmultidimensionnelles
parle fait qu'il
prochemodifiéedu USGSde Thskeret Slade(1994)).Ce modèleestcaractérisé
En effet, Stone(1985)a étudiéla convern'est pasaffectépar le problèmede dimensionalité.
genced'estimateurssplinesdansle modèleadditif et a prouvéqueceux-ciatteignentla vitesse
de convergence
optimalepour un estimateurd'une fonction univariée(d - 1) et de classeC2,
de la modéc'est-à-dire
de I'ordrede O(n-als) (voir Stone(1982)).Une autrecaractéristique
lisationadditivequi distingued'ailleursle modèleadditif desautrestechniquesde régression
pour tenircomptedu problèmededimensionalité(e.g.le modèle
nonparamétrique
développées
pursuit regression)
de Friedmanet Stuetzle
de régressionsur directionsrévélatricesQtrojection
(1981),lemodèlede transformations
optimalesutilisantI'algorithmeACE (AlternatingConditional Expectation)deBreimanet Friedman(1985),etc.)estqu'il estplusfaciled'en interpréter
les résultats.En effet, tout commeen régressionlinéairemultiple, il est possibleavecun moI'effet dechacunedesvariablesprédictives,uneà la fois,
dèleadditifd'examinergraphiquement
conditionnellement
à la présencedesautresvariablesprédictives.Il devientalorspossibled'effectuerune validationdes hypothèsesde linéaritéassociéesau modèlede régressionlinéaire
multiple.
techniquesde lissagepermettentI'estimationde chacunedesfonctionssaet le
De nombreuses
modèleadditif ne requiertI'emploi d'aucunetechniqueparticulière.NousproposonsI'emploi
en recherche
d'une techniquede lissagequi gagneen popularitêtarûau niveaudesstatisticiens
que desstatisticiensen pratique,la régressionlocale polynomiale(RLP) (Loafondamentale
der, 1999).Avec la méthodede lissagepar régressionlocale, on ne fait globalementaucune
quantà la formede la fonctions. Toutefois,dansle voisinaged'un point d'estimation
hypothèse
r, on supposeques peutêtreestiméede manièreapproximativepar unefonctionparamétrique,
soit un polynômede degrép. En un point s, on définit alors la largeurde la fenêtrepar h(r)
et la fenêtrede lissagepæ (n - h(r),r + h(r)). Pour I'estimationde s(z), on n'utilise généralementque les observationsà I'intérieur de cette fenêffe.De plus, on assigneà chacune
décroîtà mesureque I'on s'éloignedu
de cesobservations
un poids qui, de manièregénérale,
point d'estimationselonune fonction de pondérationnomméefonction noyau. Mentionnons
qu'en n'utilisant,pour I'estimationde s(r), que les observationsà l'intérieur de la fenêtrede
lissage,on setrouveà faire I'hypothèsequela fonctionnoyauutiliséeestunefonctionnon nulle
à support[-1, 1]).
uniquement
surl'intervalle] - 1, 1[ (c'est-à-dire
INTRODUCTION
ll
du lissagepar noyau(lorsquep = 0), uneæchLa RLP peutêfe vuecornmeune généralisation
publicationstant en statistiquequ'enhydrologie
niquedelissagequi a fait I'objet denombreuses
(voir la revuehydrologiquede Lall ( 1995). La RLP (dedegrép supérieurà 0) produitcependant
moinsbiaiséesnotammentauxbornesdu domainede la variable
desestimationshabituellement
prédictive(effetsde borQ ou lorsquela courburede la fonction à estimerest prononcée(effets
de courbure)(pour plus de détails,voir Hastieet Loader(1993). On peut aussimonfferque
estemployée(voir, par exemple,Wandet
lorsquep : L et qu'unefonctionnoyaurectangulaire
Jones(1990), on retrouvele modèlede régressionrégionalepar région d'influencede Tasker
comme
et al. (1996)à uneseulevariableprédictive.Uutilisationde la RLP possèdecependant
les diversesformespossibles
pourreprésenter
entreautres,uneplus grandesouplesse
avantage,
de fonctionsderégressionà estimer.
puisqu'ellene
de modélisationadditivepar polynômeslocauxsembleprometteuse
r--approche
nécessiteaucunehypothèsea priori sur la forme finale de la relationrégionale.La forme du
au momentde I'estimation.En général,cette
à partir desobservations,
modèleestdéterminée,
techniquede modélisationest appropriéelorsqu'onpossèdepeu ou aucuneinformationsur la
formeexactede la relationqueI'on veutmodéliser.Or, pourla modélisationdescaractéristiques
decrue,il n'existeaucunejustificationphysiquea priori pourI'utilisationdu modèlelog-linéaire
régionaledesquantiles.
de régression
L'approched'analyserégionaletraditionnellenécessiteque I'on détermine,dansun premier
temps,les sitesjaugésà partir desquelss'effectuele transfertd'informationrégionaleafind'apde modélisationadditivepropliquer,par la suite,un modèlede transfertrégional.r-"approche
poséeestinnovatriceen ce sensoù l'étapedu choix dessitesse trouveintégréeà la procédure
d'estimationdu modèle.En effet, en utilisantuneapprochede régressionlocalepourle lissage
dansI'espacede chacunedes variablesexplicativesX1, X2,...,Xa, les paramètresde largeur
desvoisinages
de déterminerautomatiquement
desfenêtresâ(r1), h(rr),...,h(ra) permettent
Ainsi, avecI'approchede modélisationprodansI'espacedesdifférentesvariablesexplicatives.
posée,le modèlede transfertpeut êtreestiméà I'aide desdonnéesde tousles sitesdisponibles
puisqueseulel'information"importante"provenantdesdifférentsvoisinagesaurauneinfluence
sur I'estimationde la forrnedu modèle.
Puisquel'étapedu choix dessitessetrouve intêgê,eà la procédured'estimationdu modèlede
transfert,d'un point de vue opérationnel,la procédurede modélisationrégionaleest simplifiée.
baséessur descritèresobjectifs,
statistiques
Cetteapprochepermetenfin,à I'aide de procédures
du modèleadditif (parexemple,la taille desdifférentesfenêtres
uneestimationdesparamètres
12
de lissage)directementreliéeà I'objectif principal desprocéduresde régionalisation(i.e. I'estimationla plus précisepossibledesquantilesde crue).Ainsi, nousémettonset voulonsdonc
vérifier,dansle cadrede cettethèse,I'hypothèsequecetteprocédurede régionalisationpermet
desestimationsplus précisesde Qr en dessitesnonjaugés.
1..2 Objectifs de recherche
estd'évaluerI'utilisationd'uneapprochede modélisation
L objectifprincipaldecetterecherche
non paramétrique,
la modélisationadditivepar polynômeslocaux,cofirmeméthodealternative
d'estimationrégionaledesdébitsde crueQr en dessitesnonjaugés.Afin d'atteindrecet objectif, deuxétapesprincipalessontidentifiées:
de based'une approchede
1. présenterune descriptiondétailléedesdiversescomposantes
modélisationnon paramétriqueet plus particulièrementde I'approchede modélisation
il s'agit de discuterdes
additivepar régressionlocalepolynomiale.Plus spécifiquement,
lors du choix :
élémentsà prendreen considération
o desvariablesexplicativesà incluredansle modèle,
o du niveaude lissageassociéà chacunede cesvariablesexplicatives,
o du degrédesdifférentspolynômeslocaux,et
o de la fonctionnoyauà utiliser; et
2. évaluerles qualitésprédictivesdeI'approchede modélisationproposée:
o déterminerdesindicesdeperformance,et
. comparerI'approcheproposéeà d'auffesapproches
utiliséesprésentement.
Lesobjectifsplus particuliersde cetterecherchesontles suivants:
o présenterunerevuedestravauxreliésà la rnodélisation
localeet régionaledesquantilesde
particulièrede I'estimacrue.Cetterevuedevraitpemettredeprésenterla problématique
en régionalisation,
de mettre
tion régionale,de faire le point sur l'état desconnaissances
en évidenceles lacunesdesméthodesexistanteset ainside mettreen contextela méthode
proposée;
o présenterune synthèsedesprincipalestechniquesde régressionnon paramétriqueen inde la régressionlocaleet de la modélisationadditive;
sistantdavantagesur les approches
o proposerune méthodologiede modélisationrégionalenon paramétrique
desquantilesde
crue,c'est-à-direuneprocédureà employerpour (1) choisirles variablesà incluredansle
modèleet (2) effectuerla calibrationdu modèlede transfert;
INTRODUCTION
13
comparerI'utilisation de I'approcheproposée,à I'aide de donnéesréelles,à I'approche
de la régressionrégionalepar régiond'influencede mêmequ'à l'approcheclassiquede
régionalepæ un rirodèlelog-linéaire;et
régression
identifierles situationspour lesquellesla méthodeproposéeestpréférableauxautresmodèlesde transfertd'informationrégionale.
L.3 Plan de la thèse
au chapitre 2" cernousprésentotrlso
Afin d'atteindreles différentsobjectifsde cetterecherche,
Les principalesméthodes
tainsconceptsreliésà I'approchede modélisationnon paramétrique.
et I'approchedu lissagesimple(uneseulevariable
lisseurs)sontprésentées
delissages(appelées
explicative)par régressionlocalepolynomialeestdétaillée.Par la suitenousnousintéressons,
Nousdécriauchapitre 3, à la régressionnon paftlmétriquemultiple(ou multidimensionnelle).
vonsI'approchedemodélisationadditiveparpolynômeslocauxet proposonsuneméthodologie
par la suite,auchapitre 4, lesconcepts
permettantla calibrationde ce modèle.Nousprésentons
importantsde I'analysefréquentiellelocaleet deI'analyserégionaledela dismibutiondescnres.
régionaleet de siûlilaritéhydrologique,
Nousy traitons,entreautres,desnotionsd'homogénéité
une
desnotionssouventconfonduesdansla littératurehydrologique.De plus, nousprésentons
Au chapitre 5, nous
revuedesprincipalesméthodesd'estimationlocaleet régionaleexistantes.
appliquonsI'approchede modélisationadditivepar polynômeslocauxà desdonnéesde ditréNous discutonsenfin, au chapitre 6, desrésultatsobtenuspar
rentesrégionsdesÉ,tats-Unis.
I'approchede modélisationadditivepar polynômeslocauxet proposonscertainesperspectives
de recherchesfutures.
LOCALE
PAR NÉCNNSSION
2. LF.,LISSAGE
quelquesnotionsde basereliéesà I'estimationnon paraméDansce chapitre,nousprésentons
par distinguer,dansla section2.1,I'apNouscommençons
triquedescourbesde régression.
prochede modélisationnon paramétriquede I'approcheparamétrique.Avec I'approchenon
paramétrique,
la procédureutiliséepourproduireI'estimationde la forme de la fonctionde régression/ s'appelleun lisseur alorsquel'estimationsenosrmele lissage.Le lisseurest I'outil
la tendancede la variationdesvaleursde la réponse
utilisé pour refléter,mathématiquement,
Y en fonctiond'une ou de plusieursvariablesprédictivesXt, Xz,,...Xa. Dansce chapitre,on
ne s'intéressequ'au lissagedescourbesde régression,c'est-à-direau lissageunidimensionnel
avecune seulevariableexplicative(d : 1) puisquerappelons-le,I'approchede modélisation
sur chacune
additiveproposéedanscettethèseconsisteà effectuerun lissageunidimensionnel
desvariablesexplicativesdu modèleadditif.
Une grandevariétéde lisseursestdisponibledansla littératurestatistique.Une propriétécommuneaux différentesméthodesde lissageestle caractèrelocal de I'estimation,c'est à dire que
dansle voisinage
pourestimerla fonction/(r) en un pointt6, or n'utilise queles observations
communeà cesméthodesestqu'il estpossibled'ajuster
ders. De plus,uneautrecaractéristique
ainsi la prisede deuxdécisionsimportantes: comleur niveaude lissage.Le lissagenécessite
ments'effectueraI'estimationdansle voisinagedu point ro? Et, comments'effectueraI'ajustementdu niveaude lissage? Puisquece qui distingueprincipalementles différentslisseursest
leur façond'effectuerI'estimationdansun voisinagedonné,la questiondu type d'estimation
consisteà choisirla méthodeparticulièrede lissageà employer.Afin de faciliter le choix d'une
dansla section2.2,les principauxlisseursdisponiblesdans
de cesméthodes,nousprésentons,
la littératurestatistique.Quantà la questiondeI'ajustementdu niveaudelissage,elle serareportéeà la section2.3 où nousdécrironsde manièredétailléeI'approchede modélisationretenue,
1'approche
du lissagepar régressionlocale.
2.1 l/approche de modélisationnon paramétrique
Considérons
le modèleboîtenoire suivant:
x --+I*t
(2.1)
de variablesprédictives,Y représente
où X représente(en entrée)un vecteur(indépendant)
16
une associationqueldu modèleet la boîtenoirereprésente
la réponse(ou variabledépendante)
conque(une relation de causeà effet ou simplementune relationfonctionnelle)entreles variablesprédictivesX etlaréponseY. Un desobjectifsmajeursde la statistiqueestde modéliser,
à I'aided'un échantillondu couple(X,Y), cetterelationentreX etY.
est que la fonction/ qui minimiseE{Y - f (X)}2 (avec
Un résultatclassiqueen statistique
conditionnelle
deY étantdonnéX, soit
E(Y') < +oo) estI'espérance
/(x) - E(Ylx).
(2.2)
de
Cettefonctionqui permetla meilleureprédiction,au sensde I'erreurquadratiquemoyenneo
Y étantdonnéX senommela fonctionde régressionde Y surX.
Dansle casoù loonn'a qu'uneseulevariableprédictive,un desmodèlesles plus utiliséspour
résoudrece problèmeestle modèlede régressionlinéairesuivant:
E(YIX):a*0X
(2.3)
du modèle.Le modèlelinéaire(2.3) est un exemplede modèle
où a et B sontles paramètres
de régressionparamétrique puisqueI'on assumequela formede la fonctionde régressionest
connueà I'exceptionprèsdesvaleursdesparamètreso et B que I'on doit estimerà partir de
l'échantillondu couple(X,Y).
Il estfacile d'envisagerdessituationsoù le modèlelinéaireestinappropriécommepar exemple
entreE(Y) et X estnonlinéaire.Il estalorspossibled'ajouteraumodèle
lorsquela dépendance
un terme(par exemple,X2) maisil estsouventdifficile de déterminera priori la forme fonctionUne approche
nelle la plus appropriéeen ne se fiant qu'à un examenvisueldesobservations.
non paramétrique,peutalorsêtreemployéepourdéterdela régrrcssion
alternative,l'approche
miner cetteformefonctionnelle.Cetteapprocheestdite non paramétrique puisqu'ona enlevé
la restrictionselonlaquellela fonctionde régressiondevaitappartenirà unefamille de fonctions
non paraméhiqueestdéfini
préalablement
paramétriques
définie.Ainsi,le modèlederégression
par:
E(Ylx): 16)
(2.4\
où aucunehypothèsen'estémisesurla formedela fonction/(X). Le modèledel'équation(2.41
tv
LE LISSAGEPARRÉGRESSIONLOCALE
peutaussiêtregénéraliséau casoù l'on considèreplus d'unevariableprédictiveet devient:
E(YlXb X2,...,Xa) : T(Xr, Xz, ...,Xa)
(2.s)
Dansle casoù d : !, on appellecourbede régression,la fonctionde régressionJ alorsque
pour d ) 2, on utilise plutôt les termessurface de régression.Les techniquesde régression
dansce chapitreont pour objectif I'estimation(appeléedansce
non paramétriqueprésentées
contextelissage)descourbeset surfacesderégression/.
pour la régresUne motivationphilosophiqueà l'utilisation d'une approchenon paramétrique
sion concernela façon dont les donnéessont utiliséesdansun contextede modélisation.En
hydrologie,Adamowskiet Feluch(1991)résumentainsicettephilosophie:
"An important differencebetweenthe parametricand the nonparametricmethods is how the data are usedin model development.In the parametricmethod,
dataareusedasa guidein modelselectionandin parameterestimationof the selected model.Thus informationthat canbe extractedfrom the datais restrictedto what
canbe obtainedunderthe assumedpararnetricrnodel.Therefore,this methodis, to
a certainextend,a subjectiveone,especiallyconcerningthemodelselection.On the
otherhand,when little is knownaboutthe regtessionfunction,informationabout
it is containedin the dataratherthanthe personperformingthe study.As a result
of this, nonparametricmethodis preferable,where the data speakfor themselves
concerningthe actualform of theregressioncurve."
pourI'esrécentesde I'approchenon paramétrique
Lall (1995),dansunerevuedesapplications
estquantà lui beaucoupplusincisif enversleshydrologues
timationdefonctionshydrologiques
qui utilisentaveuglément
I'approcheparamétrique:
statisticiens
"The zealotryoften associated
with the advocacyof particularmodels (e.g.,
floods are LP3) and parameterestimationprocedures,hasservedto maskthe basic
questionfacedby statisticalhydrologists,which is, theestimationof somefunction
implicit in the data."
structuralrelationships
that summarizes
Ainsi, dansun contextede régionalisationdes quantilesde crue où il n'existe aucunejustification physiqueà I'utilisation d'un modèlede régressionlinéairemultiple, I'approchenon
paramétrique
estune avenuequi mérited'êtreexploréeplusprofondément.
18
2.2 Les principalesméthodesde lissage
2.2.1 Introduction au lissage
Afin de se faire une idée de ce que signifie "laisserles donnéesnous montrerla forme de la
La figure2.1 montreun exemplede grafonctionde régression",
examinonsquelquesdonnées.
phiquesde Y en fonction de X où en 2.Ia, on a ajustéune droite de régressionalorsqu'en
2.1b,on a effectuéun lissagepar régressionlinéairelocale.Les donnéesutiliséesproviennent
d'une étudesur le diabèteréaliséepar Sockettet al. (1987)et ont déjà été étudiéesde ma(voir par
parplusieursauteursdansun contextederégressionnoû paramétrique
nièreexhaustive
exempleHastieet Tibshirani(1990),Loader(1999)).L étudeinitiale avaitpour objectifl'étude
de facteurstels que l'âge et le déficit de base(unemesured'acidité) pouvantinfluencerle niveaud'un sérum,le C-peptide.À la figure2.L, on présentela relationentrele logarithmede la
concentration
de C-peptide(pmoUml)et un desfacteursexplicatifs,l'âge.
o o
o
o
B
À
o
+
g
o
o
o
o
o
ooo
o
o
o
o
o oo/
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
5
1
0
1
5
5
r
0
1
a9e
a)
b)
Ftc. 2.1: Comparaison
entrea) unerégressionlinéaireet b) un lissage
5
LE LISSAGEPAR RÉGRESSIONLOCALE
19
ne s'ajustepasaux
Il sembleclair, en examinantla figure2.1a, que la droitede régression
Cependant,le lissagede la figure 2.lb permetd'améliorerI'apparencevisuelle
observations.
de la relation et ainsi d'observerune certainetendance.Pour effectuercette estimation,on a
effectuéun lissagepar droite mobile localementpondéréeselonles étapessuivantes:
aux valeursde X les plus voisines
1. au point Xs, on détermineles 11pointscorrespondant
de Xo
2. on assigneà chaqueobservationun poids qui dépendde la distance(X - X0) - plus la
distanceestfaible,plus le poidsestgrand
et par la rnéthodedesmoindrescares pondérés,
3. on estimeà I'aide de ces11observations
une droite de régressionpour obtenirÛs,I'estimationde la droitede régressionde Y sur
X aupointXs.
4. on répète1,2et 3 pour touslespointsen X
deuxobjectifsprincipaux,le premierest d'ordre descriptif,le
Le lissagepoursuitgénéralement
secondprédictif. Ainsi, le lissagepeut être utilisé pour améliorerI'adéquationd'une relation
sur le graphiqlredu lissage,appôlé
enfreY et X et permettreainsi I'observationde tendances
aussitout simplementle lissage.Le secondobjectifconsisteen I'utilisationde f pour la prédicprédictiveX. Pourla
tion Yi de E(YIX) étantdonnéunevaleurparticulièreXa dela variabLe
desquantilesdecrue,le lissagedesrelationsentr quantilesde crueset variables
régionalisation
devrait dans un premier tempspermettre,en examinantles
I'hypothèsede linéaritéinhédifférentslissages,de détecterles régionsà I'intérieurdesquelles
On devraitalors s'attendreà ce
renteau modèlede régressionlog-linéairesembleinadéquate.
soit préférableet permettede
qu'en cesrégions,une approchede régressionnon paramétrique
produire,dansun deuxièmetemps,de meilleuresprédictionsdesquantilesde crue en dessites
nonjaugés.
2.2.2 Définitiondu lissage
en ordre
de la variableprédictiveX classées
Soitx : (rt, ...,rn) un vecteurde n observations
alorsle lissagedesobcroissantet y - (At,...,yn) le vecteurdesréponsesconespondantes,
(rt,yt),(rr,yz),...,(ro,y,,) consiste
à estimerE(YIX : oo),la moyennede Y au
servations
s(cs), le lissagede x et y évaluéau point os.
point r - ss. On note,S(gl"o),ou simplernent
Habituellement,la procédure,appeléeIe lisseur, qui définit s(rs) est définie pour tout point
16. Cependant,il arrivequelquefoisque la fonction s ne soit définieque pour les valeursdes
d'interd'effecfueruneprocédure
ï1, r.2,...trn. Danscecas,il estalorsnécessaire
observations
polationafin d'obtenirdesestimations
en d'autresvaleursde r.
20
2.2.3 Le régressogramme
està I'estimationd'une fonctionde régressionce que I'histogrammeestà
Le régressogramme
l'estimationd'unefonctionde densité.Il consisteà définirdespointsde coupuresurI'axedesr
et à effectuerla moyennedes3rà I'intérieurdela partitionainsiobtenue.Plusformellement,on
<...( c6oùe: -oo etcTç- *oo,puisondéfinitlesindices
choisitlespointsdecoupurec0
R*:
{i;"u < fr;<-cpa1}; k:
0 r . . .K
: - l,
(2.6)
qui définissentla partition. On a alors :
si xs € lck,cr+rl.
s(rs) : ?rloUrcat"(yr)
(2.7)
2.2,4 Le lissagepar moyennesomédianeset droites mobiles
on peut alors
Si I'on veut produireune estimationau point ri où on a plusieursobservations,
prendrela moyennedesvaleursde y en cespointspour estimers(r;). Si on a une seuleobservationau point ï4, ofi peutalorsprendreplutôt la moyennedesvaleursde y aux pointsvoisins
de xa.Le choix despointsvoisinsde c; peuts'effectuerenprenantles r pointsà la gaucheainsi
que les r points à la droite les plus près de 16. Cetteméthodes'appellela méthodedesplus
prochesvoisinssymétriqueset on noteles indicesde cespointspar Ns(r;). Dansle casoù il
estimpossiblede prendrer points à droite ou à gauche,on en prendalorsautantquepossible
(aveccetteméthodeparticulière).Une définitionformelledesindicesdu voisinagesymétrique
est
N " (" 0 ) - {ma x(i ,- r, 1) ,...,i - ' J,,i,i + L,...,mi' n(*i r ,n) } .
(2.8)
On peutalorsdéfinirla moyennemobile par
s(ra) : rno! iç1çs
(rù(A).
(2.e)
Et de manièreéquivalente,lamédianemobile par
s1rù(A).
s(rr) - med,içN
(2.10)
Une approchealternativeà la méthodedesplusprochesvoisinssymétriquesconsisteà définirle
voisinageà I'aide desÀ pointsles plus prèsde o;, pouimportele fait qu'ils setrouventà droite
ou à gauche.Cetteméthodes'appellela méthodedesk plus prochesvoisins.
2l
Pour I'estimation en un point 16 où on n'a aucuneobservation,il est possible d'utiliser la méthode des /c plus prochesvoisins.On déterminealors les valeursfii. at ï;1.1les plus voisinesde
cs telles euê s; ( rs (
c'est-à-dire,
ri41 at on effectueune interpolationlinéaire entre s(r;) et s(r6a1),
s(rg):m'("n)+#*,'(r,*')pouru;1rg1xi11.(2.ll)
Une généralisationsimplede la méthodede la moyennemobile est la méthodede la droite
mobileoù I'on ajusteunedroitede régression,à l'aide de la méthodedesmoindrescarrés,dans
le voisinagedu point d'estimation.On définit ainsila droite mobile par
s(rs):ô(ro)*B@ùrs
(2.12)
estimésà I'aide desobservations
dela droitederégression
où ô(c6) et B@ù sontlesparamètres
du voisinageNs(rs).
danscette section,le nombred'observationsdansle
Pour chacunedes méthodesprésentées
voisinagedu point d'estimation(la grandeurdu voisinage)contrôleI'apparencede la courbe
obtenuepar I'une ou I'auffede cesméthodes.Plusle voisinageseragrand(petit),plusla courbe
obtenueseralisse (irrégulière).La grandeurdu voisinageconstitueainsi le paramètre,appelé
ajusteren fonctiondu
paramètrede lissage,de la modélisationque l'on devraéventuellement
niveaude lissagedésiré.Il est souventplus pratiquede penseren terme de grandeurrelative
du voisinage(GRV) (span),c'est-à-direen terrnede proportiondesobservationsutiliséespour
l'estimation.Ainsi, pourla méthodedesk plusprochesvoisinsGFiY=k/n.
2.2.5 Le lissagepar noyau
par
produite,aupoint s0, par la méthodede lisslge parnoyaupeutêtrereprésentée
I-3estimation
dansle voisinagede rs. Pour l'estimationen un point
unemoyennepondéréedesobservations
16,le poidsaccordéà I'observationen u3 estdéfinipar :
,Soj :
i,(ry)
(2.13)
déoù d(t) est unefonction,appeléefonction noyau (lcernel),symétriqueet qui généralement
croît en fonctionde lf l. Le paramètre) contrôlel'étenduedu voisinage,aussiappeléela largeur
de la fenêtrede lissage,et cs est une constantepermettantde rendreunitaire la sommedes
pondérations.
la moyennede n valeursde g pondéréepar la foncPuisqueI'estimationau point r0 représente
tiondepoidsS, on a :
')f g )
s ( r s:=k\4m7"
(2.14)
puisenremplaçantSorpar (2.I3) on obtient:
d(s#) vi
s,( r\o ) :Di='
tt@
(2.1s)
Pour le lissagepar noyau,deux paramètressont susceptiblesd'affecter le niveaude lissage
obtenu: le paramètreÀ qui contrôlel'étenduedu voisinageet la fonctionnoyaud(t). On présente,au tableau2.1, les principalesfonctionsnoyauutiliséespour le lissagedesfonctionsde
régression.Les étudesréaliséesjusqu'à présentsuggèrentque le choix du type de noyau est
relativementpeu impotranten comparaisondu choix de la largeurde la fenêtreÀ (Hastieet Tibshirani,1990).On peutaussiremarquerquele paramètre) possèdeici la mêmefonctionqueles
paramètres
k ou r desméthodesdesplusprochesvoisinset sertà déterminerle voisinage.Alors
qu'avecla méthodedu noyau,on déterminele voisinageen fonctiond'une métrique(distance),
on le fait plutôt selonunedistancede rangpourles plusprochesvoisins.
Tns. 2.1: Les principalesfonctionsnoyau (tiré de Loader (1999))
Rectangulaire
Triangulaire
E p a n e ch n i k ov
Doublemenrquadratique
Triplementcubique
pondéré
Triplement
Normal
d(t) :1
d(t)-1-ltl
d( t) - L- t2
d(t) - (1 - t')t
d(t) : (1 - ltlu)t
d(t)
d
( t )- - ((1t --t )t')"
'
d(t) : erp(-(2.ït)"
dft)
erp(-(2.5t)2
/2
lrl < 1
ltl <1
ltl <1
ltl < 1
|tl < 1
ltl < 1
t l< 1
2.2.6 Le lissagepar splines
Unespline estune longuelamellede bois utiliséedansle domainede la construction.Anciennement,lesarchitectes
navalsutilisaientlessplinespourla conceptionet le dessindescoquesde
navires.La formede la coqueétaitobtenueen attachantdespeséesde plomben certainspoints
le nombredepesées
et en faisantvarierleur position,il était
le long de la spline.En augmentant
à I'avance.(IVegmanet Wright, 1983)
possiblede fairepasserla splineendespointsdéterminés
23
LOCALE
LE LISSAGEPARRÉGRESSION
Par analogie,une spline mathématique,notéero(") estune fonction polynomialepar morla positiondesdifférentspoints,appelésnoeuds,
ceauxoù A : {(r, e2,...,(r} représente
qui séparentchacunde ces morceaux.En fonction desdiversescontraintesque I'on impose
aux splines,elles peuvent,en analysenumérique,permettrel'interpolationentredeuxnoeuds
quelconques
ou en statistique,permettrele lissagede fonctionsde régression.Deux approches
retenuI'attention desstatisticienssoit
de lissageà I'aide dessplinesont plus particulièrement
l'approchedessplinescubiquesde lissageet l'approchedessplinesde régression.Aprèsavoir
cesdeux
montrécomments'effectuele calculdessplinescubiquesd'interpolation,on présenæ
de lissage.
approches
2.2.6.1 Les splinescubiquesd'interpolation
Le problème de I'interpolation consiste à ajuster une courbe passant par les points
que les noeudssoientpositionnésaux valeursobservées
{(UAù,,i : !,2,...,n}. Supposons
queA : {(r : frrtez: rzr...oC* - ro| et qu'enchacundes
enr {r1, fi2,...,r,r},c'est-à-dire
cubiquede la formesuivante:
intervalles
[G,Ç+t],i: L,2,...,n - 1,on ait un polynôme
ar: ar(r - cr)3* bi(æ- ,u)' + q(n - rù * da
(2.16)
On appellealorsspline cubique d'interpolation, notéesa{r), la fonction (dontles deuxpres'6 (r) et ri (r) sont continues)forméede polynômes
mièresdérivéesnotéesrespectivement
- 1-qui interpole{(*r,An),i:
grien chacundesintervalles
cubiques
[Ç,G+r],i :1,2,...,fl
lr2r"'rn\'
Le calcul de la fonction spline consiste à estimer les différents paramètres ai,bi,q et d; pour
r , t + t - 1 6 a t M ; * s ' L @ ' i p) o u r i : 1 r 2 , . . . , n . 8 n p r e n a n t l e s
. o s o n sh t :
i = 1,2r...,flP
premièresdérivéesde 96et en évaluant aux noeuds,on peut montrer que
a,; ::
(Mu+t-Mà)l6hi
b,i :
Mp
n.
At+t
v'ù
- At
h;
d,; :
2(h;Mt * h,iM*t)
6
Q.l7)
Ut
Le problèmeconsistealors à trouver les valeurs desM;. En utilisant le fait que la première
dérivéedela splineestcontinueet lesrésultatsde (2.17),on peutobtenirles équationssuivantes
M6:
qui reliententreeux,pouri :2,3,...,n - 1, lesdifférents
: u (W#
h*tM*t + z(hà-r+ hùMr * hiM6,y1
æ)
(2.r8)
24
Enfin, en posantMr : Mn - 0, on obtientun systèmed'équationslinéairestridiagonalqui
serésoutfacilernenten O(n) opérationspar éliminationde Gauss.On nommespline cubique
naturelle,cettesplineayantcommeconditionqueM1: Mn: 0.
2.2.6.2 Les splinescubiquesde lissage
Les splinesd'interpolationsontutiliséesprincipalementen analysenumériqueet ont génêralementpeu d'intérêt en statistique.Cependant,dansun contexted'estimationstatistiquepar
lissage,on a développédesméthodesde lissagebaséessur les splines.On a cherchéà obtenir
dessplinesqui pouvaientpasserprèsdesobservationssanstoutefoisavoir commecontrainte
leur interpolation.La méthodedessplinescubiquesdelissagesatisfaitcettecondition.
précédemment
où le lissageau point rs
Conffairementaux méthodesde lissageprésentées
consistaità appliqueruneprocéduredéfiniede manièreexplicite,le lissagepar splinescubiques
estplutôt le résultatd'un problèmed'optimisation.Ainsi, parmi toutesles fonctionss(r) ayant
leurdeuxpremièresdérivéescontinues,le lissagepar splinescubiques,aussiappeléeI'approche
de pénalitéde la rugosité(Greenet Silverman,1994),consisteà calculercellequi minimisela
sommepénaliséesuivantedu carrédesrésidus:
, s - f { o n- s ( n ù } 2 f*u^{s" (t)}2dt
d=l
(2.te)
" tt
où À estuneconstante
et a ( 11 ( ... 1 xn {qb.
Le termede gauchede l'équation(2.19)constitueune mesurede la proximitédesobservations
avecla courbes alors que le termede droite pénalisela rugositéde la fonction s. Avec cette
méthodede lissage,le paramètre) permetd'ajusterle niveaude lissagedésiré.De grandes
valeursde À produisentdescourbesplus lissesalorsque de plus petitesvaleursproduisentdes
À ta timite,lorsqueÀ -+ oo,le termede pénalitédomine
courbesplusondulées,plusrugueuses.
ce qui oblige s" (*) : 0 partoutet ainsi,la solutionde (2.19)est la droite de régressionqui
minimiseles moindrescarrés.D'un autrecôté, lorsqueÀ -+ 0, le termede pénalitédevient
négligeableet ainsi,la solutiontend versla fonction doublementdérivablequi interpoleles n
soit la splinecubiqued'interpolation.
observations,
importanteayantfavoriséI'utilisation de cetteapprocheest I'unicité de la
Une caractéristique
splinecubique.En effet,parmitoutesles fonctionss(r) doublementdérivablesayantleur deux
premièresdérivéescontinues,cellequi minimise(2.19)estuniqueet deformeexplicite' il s:agit
d'unesplinecubiquenaturelledontlesnoeudssontplacésauxpointstrtï2,...,rn. Ce résultat,
25
combinéà I'utilisationde I'algorithmede Reinsch(1967)permetI'estimationde s en O(n)
(voir par exemplela section2.3 de Greenet Silverman(1994)ou 2.10de Hastieet
opérations
Tibshirani(1990)).
2.2.6.3 Les splinesde régression
L approchedes splinesde régressionconsisteà faire I'hypothèseque la forme de la courbe
de régressionest une spline, c'est-à-direune fonction polynomialepar morceauxsa(r) où
despolynômes
la positiondesdifférentsnoeuds.Lesmorceaux,
A : {(r, Ç2,...,(6} représente
attachésde manièreà ce qu'il y ait continuitédesm - L prede degré7æ,sontgénéralement
constitueun exempled'une splinede régression(nz : 0).
mièresdérivées.Le régressogramme
précédemment,
le résultatobtenuici ne mipar splinesprésentées
auxapproches
Contrairement
la courburede la fonctionde régression,n'interpolepas les observations
nimise aucunement
D'ailleurs,en
avecles observations.
et la positiondesnoeudsne coincidepasnécessairement
pratique,on auragénéralement
beaucoupmoinsde noeudsqued'observations.
Au sensstrict, l'approchedes splinesde régressionest une approcheparaméniquepuisquela
forme fonctionnellede la fonction de régressionest connueà I'exceptionprèsdesvaleursde
contrairement
à la régressionpolynomialeoù I'ajustementdespaCependant,
sesparamètres.
ramèûesesteffectuéeglobalement,on conserveavecla méthodedessplinesde régressionune
soit le caractèrelocal de I'estimation.En effet,
de I'approchenon paramétrique
caractéristique
du modèle)tels
de la modélisation(versusles paramètres
en faisantvariercertainsparamètres
le degrém delaspline,le nombredenoeudsK etlapositiondesdifférentsnoeudsÇ, on réussit
à effectuerun certainlissagedesobservationsmêmesi aucunparamètreparticulier ne contrôle
directementle niveaude lissage.
possibleOesf,)(rs), la splinede degrém
Soit A : {(1, C2,...,(6}, alorsune représentation
ayantK noeudsauxpositionsdonnéespar A et évaluéeau point ro est:
,f)(ro) : Ë
Êoido+ÉË o*i@s-(o)'*
j=0
(2.20)
k=l j=0
ou
, \
l U ) - r -:
( " siu)0
[ 0 autrement
(
(2.2r)
puisqu'ellepermetd'exprimerle problèmede I'estimation
estintéressante
Cettereprésentation
multipleordinairepouvantêtrerésoluparla méthode
d'unesplineenun problèmederégression
26
traditionnelspermettentde testerI'hypodesmoindrescarrés.De plus,les testsparamétriques
de diminuerle degréde certainspolynômesréduisantainsile
thèseB6i : 0 afin éventuellement
du modèle.
nombretotal de paramètres
en raisonde la facilité de sonestimation
La méthodedessplinesde régressionest intéressante
lorsqueles noeudssontdonnés.Cependant,une difÊcultémajeurede I'utilisation de cetteméthodeconcernele choix du nombrede noeudset de leurspositions(Hastieet Tibshirani,1990),
qui doiventd'abordêtrefixéespour estimerlesparamètresde la régression.
descaractéristiques
De plus, cetteméthodene pennetpasde faire varierglobalementle niveaude lissageà I'aide
d'un paramètreuniquede lissage.
2.2.7 Le lissagepar polynômesmobiles localementpondérés
Dansla littératurestatistique,on retrouvela méthodedu lissagepar polynômesmobileslocalementpondéréssousdiversesappellations: lissagepar ajustementlocal (Clevelandet Loalocale
der,L994),par polynômeslocauxde type noyau(Wandet Jones,1990),par rrégression
polynomiale(Opsomer,1995),par régressionlocalementpondérée(Cleveland,7979)ou tout
simplementpar régressionlocale(Loader,1999).Par soucide clarté,on privilégiera,dansce
document,l'emploide la terminologierégressionlocale.
quant
Avecla méthodedu lissageparrégressionlocale,on nefait globalementaucunehypothèse
à la forme de la fonctions. Toutefois,dansle voisinaged'un point d'estimationr, on suppose
soitun polynômede degrép. En un
ques puisseêtreapproximéeparunefonctionparamétrique,
par(n-h(r),n+h(r)).
parh(r) etlafenêtredelissage
pointc,ondéfinitlalargeurdelafenêne
à I'intérieurde cettefenêtre.De
PourI'estimationde s(r), on n'utilise alorsquelesobservations
décroîtà mesureque
un poidsqui, généralement,
plus,on assigneà chacunede cesobservations
I'on s'éloignedu point d'estimation.De manièreformelle,on assignelespoidsselonla formule
suivante:
wt(r):*(ffi)
(2.22)
oùW(u) est une fonctionnoyausymétriquede support[-1, 1Jqui satisfaitles conditionssui0 et W décroîtsurI'intervalle[0,1] (etcroîtsur
vantesde Loader(1999):W(0) :l,W(L):
[-1,0]).
27
Uneméthodeparticulièred'estimationpar régressionlocaleconsisteà estimerun polynômede
degrép = L (unedroite) à I'aide d'une fonctionnoyautriplementcubiqueen choisissanth(r)
(les k plusprochesvoisins)pourI'estimationau
demanièreà obtenirexactement
& observations
pointr. Cetteméthode,proposéepar Cleveland(1979)estconnueen statistiquesousle nomde
par
successivement
Iowessou loessen raisondu nom desprocédures
d'estimationdéveloppées
Clevelandpour le langagede programmation
S (Beckeret al., 1988).
Unedesparticularitésintéressantes
de I'approchede la régressionlocaleestla facilité de traitegénéralernent
associée
auproblèmedela régiomentde I'hétéroscédasticité,
unecaractéristique
nalisationdesquantilesde crue.Dansle casd'un modèlede régressionrégionaleavechétérosdu rnodèleen
cédasticité,
une approcheutiliséeen statistiqueconsisteà estimerles pararnètres
utilisantla méthodedesmoindrescarréspondérés(voirparexempleStedingeretTasker(1985)).
Avecla régressionlocale,puisquela fonction*{r) estdéjàunefonctionde pondération,I'approcheemployéeconsistetout simplementà modifiercettefonctiont4(r) en la multipliantpar
:wetrJ/4.CeconceptdereponI'inversedelavarianceo?,c'est-à-direenredéfinissant'uj(r)
dérationestaussiemployépour perrnetfed'obtenir desestimationsplus robustesde la courbe
de régression.Par exemple,Cleveland(ï979) proposed'effectuerd'abord une premièreestimation de la courbede régressionpuis de repondérerde manièreà diminuer le poids accordé
auxobservations
ayantobtenueslesplusgrandeserreurs(ou déviations).Cetteapprochepermet
pouvantêtre considérées
d'accorderautomatiquement
un poids presquenul aux observations
commedesoutliersproduisantpar le fait mêmedesestimationsplusrobustes.
2.2.8 Les principaux lisseursde surfaces
précédemment
peuventse généraliserau casmultidimenLa plupartdesméthodesprésentées
de déterminerle voisinageen
sionnel(plusieursvariablesexplicatives).Il suffit généralement
utilisantune distancemesuréedansun espacede dimensionp. Parexemple,I'approchedu lispour I'estimationpar lissage
sagepar une droite mobile de la section2.2.4peut segénéraliser,
aupoint xo : ("1, 18,...,r!), en ajustantplutôtunedroitede dimensionp au point x0 à I'aide
desk plusprochesvoisinsselonunedistanceeuclidienneséparantdeuxpointsparticuliersxi et
xj définiepar :
d,ii:
(xi - *i)t(*o
- xr).
(2.23)
qu'il s'agit ici de I'approchede
où ? est I'opérateurde transpositionde matrice.Remarquons
régressionpar région d'influenceproposéepar Taskeret al. (1996) à la seuledifférenceque
28
Tâskeret al. (1996)ont plutôt utilisé unedistancede "Mahalanobis"
dil:
(xi - xi;rD-t1*r - xr)
(2.24)
où E est la matricede variance-covariance
des variablesexplicativessupposéediagonalepar
Taskeretal. (1996).
Les splinescubiquesde lissageainsi que les splinesde régressionse généralisentaussiau cas
: approchedes"splinespar
multidimensionnel.
senommentalorsrespectivement
Cesapproches
plaquesminces" (thin-platesplines)et approchedes "splinesde produits tensoriels"(tensor
productsplines).Pourunedescriptiondétailléede cesméthodes,le lecteurestréféréà Greenet
Silverman(1994).
2.2.9 Comparaison et choix d'une approche de lissage
présentés
danscettesectionpoursuiventtousun objecLes différentslisseursunidimensionnels
possibleunereprésentation
approchée,
tif communqui estd'obtenirle plusprécisément
à I'aide
unerelationexistant(ou
desdonnéesd'un échantillon,de la fonctioninconnue/ qui représente
dont on supposeI'existence)entreunevariabledépendanteYet une variableexplicativeX. En
d'étudesthéoriquesportantsurle comportestatistique,on dénombreunequantitéconsidérable
(consistance,
desdifférentslisseurs
mentasymptotique
biais,variance,vitessede convergence)
(voir parexemplela section2.L0de Hastieet Tibshirani(1990). Les résultatsde cesétudessont
constamment
utiliséspourla comparaison
desdifférentslisseursentreeux et pourle choixd'une
méthodeparticulièrede lissage,Par exemple,Mûller (1987)a démontrél'équivalenceasymptotiquede la méthodedu noyauavecla méthodede la droitemobile localementpondéréealors
que Silverman(1984)a réussià exprimersousla formed'un noyau,appelénoyau équivalent,
équiune splinecubiquede lissagede manièreà ce quecesméthodessoientasymptotiquement
valentes.À la lumièrede cesrésultats,Hastieet Tibshirani(1990)indiquentd'ailleurs:
"Somerecenttheoricalresults(e.g. Silverman(1984),Mûller (1987))suggest
that for appropriatelychosensmoothingparameters,thereare not likely to be large
andkercubicsmoothing-splines
differencesbetweenlocally-weightedrunning-line,
nel smoothers."
dispoEn pratiquecependant,
notammenten raisonde la taille deséchantillonsgénéralement
de nepas
et il est alorssouhaitable
nibles,il existedesdifférencesnotablesentrecesapproches
29
puisquecommeI'indiquentCleveland
trop accorderd'importanceà cesrésultatsasymptotiques
etLoader(1994):
"Asymptotictheoryfor srnoothinghasin mostcasesnot beenhelpful asa guide
for choosingamongdifferentprocedures,sincethe frameworkthat governsmost
asymptoticwork is not very realistic.Methodshavebeenput forwardwith a label
of "optimal" thatprovideoptimalityin no sensethat is meaningfulfor practice."
Il est possibled'interpréterla plupartdes lisseursprésentésdanscette sectioncommeétant
Alors
despolynômesmobilespondéréspar unefonction quelconquedesdonnéesavoisinantes.
que I'approchede la régressionlocaleest généraleet pennetunemodélisationpour différents
Ie degrépestfixé dernanièreexplicite
degréspdespolynômeslocaux,aveclesautresapproches,
de la moyennemobile et du noyaupeuvents'exprimer
ou implicitement.Ainsi, les approches
La droite mobile constitueun
à I'aide de moyennesmobiles(p : 0) localementpondérées.
casparticulierde régressionlocalelorsquep : I. Avec les différentesapprochespar splines
cubiques,il s'agit implicitementd'ajusterun polynômede degrép : 3.
I'objectif principal de la modélisationconsisteà ajusterun
En régressionnon paramétrique,
modèlede manièreà ce que I'on obtienneun compromisadéquatentrele biais d'estimation
B=E{i} - I et la variancede I'estimateurV=var{,f} (cf. 2.3.5).L ordredu polynômelocal
De manièregénérale,un
constitueun desfacteursqui influencentce compromisbiais/variance.
dégrép élevéproduitdesestimationsmoinsbiaiséesmaisplusvariablesqu'un degrêppetit.La
questionqu'on est alorsamenéà seposerest : peut-ona priori déterminerle degréoptimalp du
polynômelocal à utiliser?
en r dansla pentede /,
Le niveaude courburede /, mesurépar I'intensitédeschangements
constituele premierfacteurà prendreen considérationpour le choix du degrép du polynôme
local. Plus la fonction / est composéede pointeset de vallées,plus le degrép doit êtreélevé
pourenpermettreuneestimationqui nesoitpastrop biaisée.En pratique,lorsquela courbe/ est
d'obtenirde bonsrésultats.Les
assezlisse,un polynômede degrép : l permetgénéralement
méthodesbaséessur la notionde moyennemobilepondéréep:0, tellesla méthodedu noyau,
ne s'avèrentquant à elles que très rarementêtre le meilleurchoix en pratique(Clevelandet
puisquele voisinageestasymétrique
auxbornesdu domaine
Loader,L996a).Aveccesméthodes,
de la variableprédictive,I'estimationest alors fortementbiaisée(avecun biais fonctionde la
pentede /). Il peut aussiy avoir un problèmede biais à I'intérieurdu domainesi la dispersion
possèdeunecourbureprononcée
desdonnéesn'est pasuniformeou si la fonctionde régression
(Hastieet Loader, 1993).
30
En régressionrégionaledesquantilesde crue,puisqueles variablesprédictivessontgénéralepar unefonctionlogarithmique,on devraits'attendreà ce queleur courbure
menttransformées
ne soit pastrop prononcée.
Parconffe,il sembledifficile a priori de déterminersi, pourchacune
desvariablesprédictivescomposantle modèle,un degrép : L suffit ou si l'on doit plutôt opter
ponr un degtésupérieur.Ainsi, nouscroyonsqu'il estpréférabled'opter pour uneapprochede
p n'estpasfixé apriori et deplutôtdéterminer
modélisationparrégression
localeoù le paramètre
les différentesvaleursdep à I'aide de testsdiagnostiques.
La régressionlocaleestunevieille méthodede lissagequi a d'abord été développéeversla fin
du 19ièmesièclepardesactuairespour la graduationde donnéesde mortalité(voir Clevelandet
de nombreux
Loader(1996a)pour unerevuehistoriquedétaillée).La régressionlocalepossè.de
pointsforts dont certainssontdiscutésen détailpar Hastieet Loader(1993):
l. La méthodes'adaptebien aux problèmesde biais aux borneset dans des régionsde
grandecourbure;
2. Elle estfacileà comprendreet à interpréter;
3. Desméthodesproduisantdescalculsrapidesont étédéveloppéspour sonestimation;
4. En raisonde sasimplicité,elle peut s'adapterpourprendreen considérationdiverseshypothèsesdedistribution(avechétéroscédasticité,
par exemple);
5. Elle nerequièrepasla présenced'hypothèses
strictessurle niveaude lissagedela courbe;
6. Elle appartientà la famille deslisseurslinéaires;et
7. Le fait d'avoir un modèlelocal (plutôtqu'uneseuleestimationponctuelleÎ@D, permet
de développerdesméthodespour choisir directementla largeurde la fenêtrede mêmeque
I'ordredu polynômelocal à I'aide desréponses(prédictions)obtenuespar le modèle.
SelonClevelandet Loader(1996a),aucunde cespointsforts ne procure,à lui seul,uneraison
évidentepour choisir cetteapprocheplutôt qu'uneautre; il s'agit plutôt de la combinaisonde
ceux-ciqui rendI'approchederégressionlocaleattrayante.
2.3 La modéIisationpar régressionlocale
2.3.1 Le modèle de régressionlocale
La régressionlocaleestutiliséepour modéliserunerelationenffeune variableprédictive(ou indépendante)X et la variable de réponseY (ou variable dépendante)qui est reliée à
31
cette variable prédictive. Supposons qu'on ait un ensemble de n paires d'observations
localeest :
{(rn,Uo),i: 1,2,...,n}, alorsle modèlede régression
yu: f (16)*e,i
(2.2s)
où /(r) est une fonctioninconnueêt €; est un termed'erreuraléatoire.On supposeaussique
de moyenneO; E(e;) : 0, et de
les erreursé; soûtindépendantes
et identiquementdistribué,es
variancefinie ; nk) : 02.De plus,bienqu'on ne fasseglobalementaucunehypothèsequantà
la formede la fonction/, on supposenéanmoinsque,dansle voisinaged'un point d'estimation
r, / puisseêtreapproximéepar un polynômede degrép.
2.3.2 L'estimation de la courbe de régression
Commeon I'a déjàmentionnéà la section2.2,|'estimation/(r) de la courbede régression
en un point r consisteà ajuster,à I'intérieurde la fenêtrede lissage(r - â(r), u * â(r)), un
16de la
polynômede degrép en accordantune pondérationw6{r) à chacunedesobservations
fenêtrede lissage.Ainsi, soit P(u) le polynômede degrép ayantla forrnesuivante:
P(u)Êo+r.t(u-s)+
kry+...+ ory
(2.26)
: (Ê0,...,Ê)' peutêtreobtenu
lorsquelu*rl < h(").Alors, levecteurdeparamètt"sp
en appliquantlocalementla méthodedesmoindrescarréspondérés,ce qui consisteà obtenirle
vecteurde paramètresp qui minimise
ta
L*o(r)
i=l
(
o'^ -\ o('t-")'l'
- Êo- Ê{q
P t t ' ' t '-6 -r)
'r')-"'-*
7yo
Pl
I
\
(2.27)
wt(r):*(ffi)
En faisantI'hypothèseque la matriceXl'WrX, est inversible(dansle cas contraire,on peut
faire en sortequ'elle le devienneen modifiant à.),on peut montrerque la solutionde (2.27)
donnéepar la théorieclassiquedesmoindrescarréspondérésest(Wandet Jones,1990):
ô: (x|w,x,)-ixT\i!/,Y
où:
Y _ (yr,...,grr)" estle vecteurdesréponses,
(2.28)
x1-r
I
x":
1
L
ù
æ
n
- &r
@çx)n
--T-
I
It
estla matricede conceptionde dimensionn x (p + 1) et
:
I
(æv-x)e I
--7!-J
de dimensionrùx n,despondérations.
W" : diag{tu1(r),...,wn(r)} estla matricediagonale
par leursestimateurs,
En posantu, : r dansl'équation(2.26)et en substituantles paramètres
on obtient:
f @): 0o
(2.2e)
î@): "TÊ: eflxfw,x')-1xl\M"Y
(2.30)
ou en notation matricielle
(p + 1) x L tel quee1 : (1,0,0,...,0)r.
où e1estun vecteurde dimension
2.3.3 La modélisation des données
De manièregénérale,lorsquooneffectueune régressionlinéaire(simpleou multiple),on porte
du modèle.On supposequele modèleestimé
principalement
notreattentionsur les paramènes
est appropriépuis on se demandecommentles estimateursdes paramètresajustentbien les
puis on construitdes
vraisparamèfres.
On calcule,par exemple,la variancede cesestimateurs
On nes'intéresseà peuprèspasà la fonction(droite)
intervallesdeconfiancesurcesparamètres.
localeou, demanière
coûlmetelle.Avecl'approchedemodélisationparrégression
derégression
plus générale,avec une approchenon paramétrique,il en est tout autrement.Au lieu de se
du modèle,on s'intéresseà la courbede régression/ estimê'e.La
concentrersur lesparamètres
que I'on doit alorsseposerest : quel estle niveaude précisionapporté
questionfondamentale
pat Î@) pour I'estimationde la vraie courbef @)? Ainsi, dansla plupart des applications,
I'objectif principalde la modélisationlocaleconsisteà obteniruneestimationde / qui permette
de produiredesestimationsqui soientlesplusprécisespossibles.
JJ
Avec en main une mesurequelconquede ce que désignela précision,un objectif de la modélisationconsistealorsà maximisercetteprécision.Soit eu: i @o)- f @ù I'erreurponctuelle
utiliséescommemesuredeprécisionde
d'estimationaupoint fi;, unedesmesuresgénéralement
aussiappeléeI'erreur quadraI'estimationau point 11estI'espérance
de I'erreurquadratique,
tique moyenne(EQM) :
EQM(rr): E{i@ù-r@ù}'
: [r{i("n)}-f(nù12+var{i(r1)}
(2.3r)
Remarquonsque le termede gauchereprésentele carrédu biais alors que celui de droitereprésentela variancede I'estimatewi@). Une autrequantitéqui ne diffère de I'EQM quepar
une constante,la variancede I'erreur 02, estI'espérancede l'erreur quadratiquede prédiction
appeléetout simplementI'erreur quadratique de prédiction (EQP).L'EQP mesureI'efficaPourlesmodèles
cité desmodèlesà effectuerdesprédictionsà partir de nouvellesobservations.
I'espérancedu carréde la différenceentreune réponsefuture
de régression,I'EQP représente
Y* et sa prédictionà partir du modèlei1r;. fuisque par hypothèseYf : f @ù + ef avecei
de ê6,on obtientalorsque :
indépendant
EQP(r;)_ E{Yr.-i@u)}'
: E{Y.- r@ù+ l@ù- î@o)},
:_ E{ei - ê6}2
_
o2 + EQM(r;)
(2.32)
coûlmuneauxdifférentslisseursestqu'il estpossibled'ajusterle niveaude
Une caractéristique
lissagedésiré.Avecl'approchedessplinesde lissage,on utilisele paramètreÀ pour déterminer
on peutfairevarierle nombreK de noeuds,
ce niveaude lissage.Pourles splinesde régression,
leur position A ainsi que le degrérn desdifférentessplines.Avec I'approchede la régression
locale, le lissageest influencépar la taille du voisinage(en valeur absolueâ ou en nombre
I,7 utiliséeainsiquepar le degrép des
k), parla fonctionnoyauou depondération
d'observations
polynômeslocaux.Cesparamètres
contrôlentce qunonappelleen régressionnon paramétrique
le compromis entre le biais et la variancepuisqu'enfaisantvarierchacunde cesparamètres,
soit une diminutionde la variancede I'estimateuti@) combinéeà
on observegénéralement
unediminutiondu biais combinéeà une
du biaisde celui-ciou inversement,
une augmentation
consistealors
dela variance.Un desobjectifsdela modélisationnonparamétrique
augmentation
entrele biaiset la variancede I'estimateur.
à trouverun compromisacceptable
En pratique,deux approchessont principalementutiliséesafin de déterminerce compromis
biais/variance:
1. I'examenvisueldesdifférentslissagesproduitspar régressionlocalepour différentesvaleursde h, p etW afrnde retenir le lissagequi semblele plus approprié,c'est-à-direni
plusendétail,à la section2.3.5,comment
ffop biaisé,ni trop variable.Nousexaminerons
l'estimationae f(r).
de lissage(h,W et p) influencent
lesdifférentsparamètres
(Stone,1974),lavalidation
2. l'optimisationdecritèresde sélectiontelsla validation-croisée
(Cravenet Wahba,1979)ou la statistiqueCo de Mallows (Mallows,
croiséegénéralisée
1973)adaptéepourla régressionlocalepar Clevelandet Devlin (1988).Nousdiscuterons
aussiplus en détail, à la section2.3.6, de la sélectionautomatiquedes paramètresde
lissage.
2.3.4 Définitions relatives aux lisseurslinéaires
2.3.4.1 Le lissagelinéaire
Par définition,un lisseurest linéaire si I'estimationpar lissageau point r peut s'écrirede la
manièresuivante:
î@) :Ltn(r)ro _LTy
(2.33)
i=1
où tf : (11(r),Ir(r),...,1"(r)) est un vecteurnomménoyau équivalentou diagrammede
pondération qui ne dépendpas des Ar En examinantl'équation(2.30), on peut voir que le
lisseurde régressionlocaleestun lisseurlinéaireavec:
LT: ef(xfw,x,)-1xfw,.
(2.34)
En s'intéressantplus particulièrementà I'estimationde / pour les observationsï1, fr2,...,itrr,,oll
obtient:
i@,)
LT,
LT,
At
Uz
r@")
L.E.
Un
f @')
(2.3s)
ou en notation matricielle.
f:SrY
(2.36)
35
nxn quel'on nommematrice
oùSr :
LT^ "rt onematricededimension
tî, Lî"
fr
I
de lissageutilisépour
desparamètres
le ou I'ensemble
) désigne
de lissageet le sous-indice
I'estimation.
2.3.4.2 Le biais
Pourun lisseurlinéaire,le vecteurde biaisestdéfini par :
b.r: f -E{SÀY}:
f - Srf
(2-37)
biaisés.Par
Pourune fonctionarbitraireet inconnue/, les lisseurslinéairessontgénéralement
contre,ils peuventêtre non biaiséspour une classeparticulièrede fonctions.Par exemple,le
lissagepar splinescubiquesde lissagereproduitsansbiais les fonctionslinéaires(Buja et al.,
localeà I'aide d'un polynômede degrép, on peutdémon1939).Pourle lissagepar régression
trer, en supposantque la vraie fonction /(r) est p * 2 fois dérivable,que le biais ponctuel,
b(r) : E{i@} * f @),estégalà (Loader,1999):
- ry$fL ) .
b(r)
lp+
*... (2.3s)
,,{')t"i-r)b+r;
.##D,,OA.-r)@+z)
i=r
La régressionlocale par un polynôme de degrép permet ainsi d'estimer sansbiais une fonction
danscecas,1b+t)1r) : 7@+z)(r)- . . . - 0.
polynomiale
I @)d'ordrep puisque
2.3.4.3 La variance
La variancede I'estimateurlinéairedel'équation(2.33)est :
v(z): "'ftn@)' : o2LTL,
(2.3e)
i=l
et enremplaçantLl pat(2.34),onobtient:
v(r) : o2ef(xfw,x")-t(Xfwlx,l 1xf'w'x,;-le'.
Q.4a)
desvaleursajustéesf : SrY est:
Pourun lisseurlinéaire,la matricede variance-covariance
COV(f): o2S,rST.
(2.41)
la normalitédeserreurs,il estpossibled'utiliser (2.41)pourformer desintervalles
En supposant
pasconsidérercesintervallesd'écartponctuelsd'écart-typepourle lissage.Il ne faut cependant
type commeétant des intervallesde confiancepuisqu'ils ne contiennentaucuneinformation
36
pour ce que le lisseurestime,c'est-à-dire
sur le biaisde i; il s'agitd'intervallesde confiance
qu'il s'agitici dela mêmeproblématique
rencontrée,
E{S)Y} (Bujaet a1.,1989).Mentionnons
par exempleen hydrologie,pour I'estimationdesintervallesde confiancedesquantilesde crue
Les intervallesde confiancedesquantiles
estiméspar une loi à deux ou à trois paramètres.
plus petitsmaisseulement
parcequ'ils
estiméspar uneloi à deuxparamètres
sontgénéralement
ne tiennentpascomptedu biais de modélisationintroduiten utilisantuneloi à deuxparamètres
plutôt qu'à troisparamètres.
avecune hypothèsed'homogénéitéde la variance.
Les résultatsprécédents
ont été développés
le modèlede régressionlocalepeut s'adapterau
commeon I'a vu précédemment,
Cependant,
problèmede variancesinégales;E(ef) : o? < oo. Rappelonsqu'avecla régressionlocale,
puisquela fonctionw{r) estdéjàunefonctiondepondération,I'approcheemployéepourchanger la procédured'estimationconsistetout simplementà modifier la fonction,r(r) en la multipliant par I'inversede la varianceof , c'est-à-direen redéfinissantw'n@): w,i(r)lo?. Ainsi,
enposantVr: diag{llol,Llol,...,Ilo'*},onobtientlenouveaudiagrammedepondération
suivant:
L'T: ef(xfw,v,x,)-1xï'w,v,.
(2.42)
La variancede I'estimateurlinéairede l'équation(2.33),pour un modèleavecvariancesnon
(NH), devient:
homogènes
vNn(r) : I
- L'Tv;'L',
t6(n)2o!
(2.43)
à=L
et en remplaçaûV| par sonexpression
en(2.42),onobtient:
vNn(r): ef (xfw,v,x,)-l(xlw3v"x") (xT\M,v,x,)-1e1.
(2.M)
2.3.4.4 Llerreur quadratique moyenne
À la section2.3.3,nous avonsprésentéles notionsd'erreur quadratiquemoyenne(EQM) et
d'erreurquadratique
deprédiction(EQP)pourle lissageenun point particulierri.Enrégression
d'avoir unemesureplus globalede ceserreurs.On
non paramétrique,
il estsouventnécessaire
s'intéresseainsi à la moyennede ceserïeurspour I'ensembledes valeursajustéesi@6). Var
37
analogieavecles équations(2.31)et (2.32),on obtient:
EeM(À):
:1
n
1
n
* ; I b(rn)'
f r tvar{i(r;)}
x--L
u:!
tr(SiSf)_,
" +, lbTb^
E Q M ( À: )
(2.4s)
où tr(.), I'opérateur matriciel de trace, représentela somme des élémentsde la diagonale de la
matrice (i.e. ici, des variances).On obtient aussi :
f
tr(S1si)l
':-:zt o'*
_, , bTb^
EQP(À)
I
ï
tl
I
(2.46)
puisqu'ellespermettent
Ceséquationssontd'une grandeutilité en régressionnon pararnétrique
"optimal" de lissageÀ*.En
d'ajusterle niveaude lissage,à I'aide de À, et de choisir un niveau
effet,puisqu'il sembleêtreappropriédechoisir,parmiun ensembledernodèles,celui possédant
la plus petite erïeur quadratiquede prédiction,un des objectifsde I'ajustementdu niveaude
lissagedesmodèlesestd'obtenirla valeurÀ* qui minimiseEQP(À),notée
À*: âr Bmîn{ EQP( À) } .
(2.47)
le niveaude lissageÀ, on devraits'attendreà observerune
De manièregénérale,en augmentant
du biaisdu lissage.Il s'avèrequecela
diminutionde la variancecombinéeà une augmentation
est généralementle cas puisqu'en augmentantle niveau de lissage ), la quantité
tr(S1S{) a tendanceà diminuer,alorsque les élémentsde b1 ont plutôt tendanceà augmenter (Hastieet Tibshirani,1990).
2.3.4.5 Le nombre de degrésde liberté
Afin de permettreune comparaisondesdifférentslisseurslinéairessur un mêmebase,il serait
intéressantde savoircombiende degrésde liberté (une notion empruntéeà la régressionlinéaire)ont étéutiliséspour le lissage.Buja et al. (1989)ont proposétrois définitions,obtenues
linéaire,dela notiondedegrédeliberté,aussiappelée,
paranalogieavecle modèlederégression
le nombre de paramètreseffectifsd'un lisseurlinéaire.
Définition 1 : le nombre de degrésde liberté z1 d'un lisseur linéaire
zr : tr(S.lST)
var(y;) : po2,où le nombrededegrés
linéairemultiple,on a !!,
Pourle modèlederégression
de liberté p est le nombrede paramètresou de variablesprédictivesdu modèle.La définition
analoguedu nombrede degrésde libertéd'un lisseurlinéaire(cf.éq. 2.45) estdonctr(S1Sf).
Définition 2 : le nombre de degrésde liberté v2 d'un lisseur linéaire
vz: tr(ZSr- SrST)
Pour un lisseurlinéaire,I'espérancede la sommedu carrédeserreursSCE = (f - i)"(f est:
E{SCE}: [n -tr(2S1 - SÀST)]cr2
+ bful
i)
(2.48)
Encoreunefois, le nombrede degrésde liberté= tr(2S,1- S.IST)est égalà p pour I'espérance
de la SCEdu modèlede régressionlinéaireà p variablesprédictives.
Définition 3 : le nombre de degrésde liberté z3d'un lisseur linéaire
Ya: tr(S.l)
Une interprétation de la statistique C, de Mallows est qu'elle corrige la SCE de manière à ce
qu'elle soit non biaisée pour I'estimation de l'erreur quadratique de prédiction en ajoutant la
quantité 2p û2,où â2 est un estimateurnon biaiséde o2 etp représentele nombre de paramètres
du modèle de régressionlinéaire. Dans un contextede lissagelinéaire, la quantité que I'on doit
alors ajouter est 2 tr(S1) ô2, d'où la définition 3.
2.3.5 Ltajustement du niveau de lissage: un compromis biais/variance
la largeurdela fenêtredelissageestun desprincipauxfacteurs
En régressionnonparamétrique,
qui contrôlentle compromisentrele biais et la varianceae i(r). On présente,àlafigure2.2,
le lissagedes donnéesdécritesen 2.2.1pour différenteslargeursâ de la fenêtrede lissage.
Lorsquela fenêtrede lissageest trop étroite(h=l), un nombreinsufÊsantd'observationsest
utilisé pour I'estimationde la courbe.Il en résulteun lissagetrès inégulier avecbeaucoupde
bruit et unegrandevariabilité(variance).À I'inverse,unefenêtrede lissagetrop grande(â=15)
de la courbesoientperdues.Le lissageest
peutfaire en sortequede véritablescaractéristiques
examinons
ce phénomène,
d'un fort biais. Pour illustrermathématiquement
alorsaccompagné
l'exempledu lisseurpar moyennemobileprésentéà la section2.2.4.
En choisissantla fenêtrede lissageà I'aide de la méthodedes (r) plus prochesvoisinssymé'
triques,on peutécrire(cf. équation2.9) :
î@o)-
T
ie
Nf,(tr )
yj
2 r* I
(2.4e)
39
h=1
h=15
h=5
o
oo
oo
o
o
o
o
o
o
OO
g '
\"
+
-
o
vl
o o
oo
o , /
o
o
o
o o
o
o
o
o
o
o
o
o o
o
o o
o
o
o
o
o
o
o o
o
o
o
o
o
5
1
0
ag3
1
5
5
1
0
1
5
5
1
0
1
5
â9e
a9e
Ftc. 2.2:Exemplesde compromisbiais/variance
Il s'agitici de la moyennedesvaleursde y aupoint 15ainsiqu'auxr plusprochesvoisinsà droite
:
et à gauchede n6.La moyenneainsiquela variancede cetestimateursontrespectivement
S
L
.r
r@i)
n{î@n)}-sff}-,
var{f(r;)} -
02
(2.s0)
(2.s1)
2r*L
la largeurde la fenêtrede
On peut remarquerqu'en augmentant
r (ou de manièreéquivalente,
le biaisa plutôt tendanceà augmenter
lissage),la variancede l'estimateurdiminue.Cependant,
puisqueI'espérance
en (2.50)comportealorsplus de termes/0 dontla valeurdiffèrede /(r;).
De rnanièreéquivalente,
en diminuantr, on augmentela variancede I'estimateuralorsque son
desestimateursseproduit aussipour les
biais à tendanceà diminuer.Ce mêmecomportement
différentsautreslisseurs.Parexemple,pour les splinesdelissage,le biaisdiminueet la variance
augmentelorsqueÀ + 0, et I'inversese produit lorsqueÀ + oo (Hastieet Tibshirani,1990).
Pourla régressionlocale,la largeurde la fenêtrede lissageh,le degrédu polynômelocal p de
mêmeque la fonction de pondérationu influencentle comprornisbiaidvariance"
Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue ...
2.3.5,1 La largeur de la fenêtre de lissage
ExaminonsI'effet causépar un changement
de la fenêtrede lissageh à I'aide d'un exemple.
Reprenons
les donnéesdécritesen 2.2.1et estimonspour différentesvaleursde â unedroite en
utilisantunefonctiondepondération
triplementcubique,c'està direutilisonsle /oess(cf.2.2.7).
le résultatde ceslissages.
Pourla pluspetitelargeurde fenêtre,h:2,La
La figure2.3présente
/r : 4 et h : 8,la
courbeestiméesembleun peutrop ondulée.Pourleslargeursintermédiaires,
courbesemblerefléterassezbien I'allure généraledesdonnées.Parcontre,lorsqueh : 16, on
peutobserverce qu'on appelledu surlissage,c'est-à-direuneestimationtrop lisseet par le fait
mêmebiaisée,notammentdansI'intervalled'âgesà la limite inférieurede la courbe.
h=2
h=4
o
a
R - o
o
o
+
o o o
o
. 9 ï
a
o
a9e
a9€
h=8
h=16
@
@
F -
o o o
a
a
o
a
dela largeurde la fenêfrede lissage
Ftc.2.3: Effetdu changement
De manièregénérale,I'estimationaux limites est un problèmeassociéà I'estimationnon papeu élevéde
ramétrique.Une partie de ce problèmeest causéepar le nombregénéralement
donnéesobservéesen æs endroits.Pour faire faceà cette problématique,une approcherecommandéeconsisteà choisir une largeurde fenêtrequi puissevarieren fonctionde la densitédes
observations
disponibles.L'approchedes,t plus prochesvoisinspermetcettevariation.Avec
cetteapproche,plutôt que de déterminerunelargeurde fenêtrefixe /r.(r) : â, on la choisitde
LOCALE
LE LISSAGEPAR RÉGRESSION
4t
à la /cièmeplus petitedistanced(r,r) : tn - r;l entre
manièreà ce que h(r) corresponde
que cettedéfinitionde h(r) permet
le point d'estimationr et les observationsn4.Remarquons
I'obtentiond'une fenêtrede lissagesymétrique,une contrainteet hypothèse(cf. 2.3.2)de la
modélisationpar régressionlocale.Notonsd'ailleursque la méthodedesplus prochesvoisins
des
symétriquesn'est pasapplicableen régressionlocalepuisqu'onobtientalorsgénéralement
de la forme (n - h1(r),r * h2(r)). Enfin,une auftefafenêtresde lissagenon symétriques
çon de choisir /r,(c)consisteà utiliser le maximumentrela valeurâ(r) obtenuepar les k plus
déterminéeâ. Cetteapprochepermetderéglerdes
prochesvoisinset unevaleurpréalablernent
problèmesde biaisreliésà I'utilisation de trop faiblesvaleursde h.
2.3.5.2 Le degrédu polynômelocal
Tout commela largeurde la fenêtrede lissage,te degrédu polynômelocal utilisé influence
le biais et la variancede I'estimateurf. WanOet Jones(1990)ont montréque la performance
Ils notenttoutefoisquepuisque
asymptotiquede / s'améliorelorsquela valeurdep augmente.
pourqu'il
la variancede / augmenteavecp, detrèsgrandséchantillonspeuventêtrenécessaires
Certainsauteurs(e.g.Wand
de la performance.
y ait, en pratique,uneaméliorationsubstantielle
ainsid'utiliser,au plus,un polynômecubique.
et Jones(1990),Loader(1999))recommandent
La figure 2.4 montredesrésultatsde lissagepour desdegrésde p - 0 à p : 3. Notonsquele
paramètreh aétê,choisidemanièreà ce quechaquelissageait un nombredeparamètreseffectifs
similaire,au sensde la définition I (cf.2.3.4.5).En agissantainsi,on se trouve à équilibrerla
variabilité desestimateurs.On peut remarquerque mêmeen ayant choisi ainsi le paramètreh,
I'estimationlocalepar uneconstantep: 0 demeuremoinslisse.Ce résultatestcaractéristique
de l'utilisation du lissagepar régressionlocalelorsqueP : 0, En effet,dansce cas'un biaisest
introduitpar la pentede la vraiefonctionde régression(Loader,1999).Plusla penteestélevée,
plus I'estimationestbiaisée.De plus,avecI'estimationlocalepar constante,notonsle problème
de biais d'ajustement,dont on a discutéà la section2.2,prèsde la limite inférieure(à gauche).
En raison du peu de différencesvisiblesentreI'ajustementpar polynômesde degrésP = L,
p : 2 êt p - 3, l'examenvisuel de la figure 2.4 suggèreque I'utilisation d'un polynômede
la courbef @).
degrép : I suffitpourestimercorrectement
2.3.5.3 La fonction de pondération
La fonctionde pondérationI4r(u) influencele compromisbiais/variancernaisbeaucoupmoins
que la largeurde la fenêtrede lissageou que le degrédu polynômelocaL.I-a' fonction de
42
P=0
@
P=1
@
o
&
a
q
a
q
o
o
o
age
age
9=2
P=3
@
o
$ o
+
o
@
o
o
o
o
Ftc.2.4: Effet du changement
du degrédu polynômelocal
pondérationa cependantplus d'effet sur le niveaude lissagede la courbeajustée.Parexemple,
I'utilisationd'une fonction rectangulaireproduitun ajustementcomportantdesdiscontinuités
alorsqueles autresfonctionsproduisentgénéralement
un ajustementbeaucouppluslisse.
Au tableau2.2, on peut remarquerque les diversesfonctionsde pondérationrencontrées
dans
la littératureont à peu prèstoutesla mêmeefÊcacitéasymptotique
ponctuellepour I'estimation
lorsquep : I (pourplus de détails,voir le chapire 13 de Loader(1999). Bien quela fonction
d'Epanechnikovsoit la plus efficace,il estpréférabled'utiliser les fonctionsdoublementquadratique,triplementcubiqueou triplementpondéréepuisqu'ellesdemeurentfortementefficace
tout enproduisantun meilleurlissagequela fonctiond'Epanechnikov(Loader,1999).De plus,
il estimportantde rappelerqueles statisticiens
s'entendentsur le fait quele choix dela fonction
de pondérationWest relativementpeu importanten comparaisondu choix de la largeurde la
fenêtrede lissageâ.
LOCALE
43
Ttn.2,2z Efficacitéasymptotiqueponctuelledesfonctionsde pondérationutiliséespour la
régressionlocalelinéaire (tiré de Loader (1999)
1.000
Epanechnikov
0.998
Triplementcubique
Doublementquadratique0.994
0.987
Triplementpondéré
0.986
Triangulaire
0.951
Normal
0.930
Rectangulaire
2.3.6 La sélectionautomatique desparamètres de lissage
Rappelonsquepuisqu'il sembleappropriédechoisir,parmiun ensemblede modèles,celuipossédantla plus petiteerreurquadratiquede prédiction,un des objectifs de I'ajustementdu niveaude lissagedesmodèlesest de rechercher,parmi I'ensembledesparamètresde lissageÀ,
À* tel que À* - argminl{EQP(À)} (cf. éq.2.a7).Pourle modèlede
le vecteurde paramètres
optimauxÀ* : (h*,p*,W*).
régressionlocale,on doit alorsobtenirle vecteurde paramètres
puisseêtreapplicableen pratique,il estd'abordnécessaire
Pourquela sélectiondesparamètres
de produireune estimationde I'EQP définieen (2.46).Intuitivement,on pourraitêtreportéà
utiliserla moyennedu carrédeserreurs(MCE) :
:*i*,MCE
î(,ù\"
(2.s2)
maiscettemesureestbeaucouptrop "optimiste"puisqueleserreursproviennentd'observations
qui ont d'abordété utiliséespour I'estimation.Efron et Tibshirani(1993)nommentd'ailleurs
de
ce typede mesureI'erreurapparentede prédiction.En statistique,de nombreuxestimateurs
statistiqueCo
I'EQP ont étéproposés: Jacklmife,Bootstrap,Bootstrap.632,validation-croisée,
les
de Mallows (voir par exempleEfron et Tibshirani(1993)).En régressionnon paramétrique,
ainsiqu'àl'aide
de I'EQP par validationcroisée,par validationcroiséegénéralisée
estimateurs
d'uneadaptationde la statistiqueCode Mallowsconstituentles méthodeslesplusgénéralement
utilisées.
2.3.6.1 La validation croisée
La validation croisée (VC) est un outil standardutilisé pour I'estimation de I'EQP. En régression
non paramétrique,I'approche consisteà laisser de côté, I'un aprèsI'autre, chacun des n couples
- 1 couples restants.Le
@t,g) puis à estimerpar lissagela courbeau point 16 à I'aide des n
couple mis de côté est alors considérécomme une nouvelle observationau sens de l'équation
(2.32). On obtient alors que I'estimateur par validation croiséede I'EQMP est :
:*D*,vc(À)
Î;o(,u)\'
(2.s3)
etf ^t(r;) indiquel'estimationparlissage
oùÀ: (h,p,W) représentelesparamètresdelissage
de côté.L utilisationde cetteprocédured'estimation
aupoint rr en laissantla iièmeobservation
peutêtrejustifiéeparle fait queE{VC(À)} = EQP(À) (Hastieet Tibshirani,1990).
2,3.6.2 La validation croiséepour un lisseur linéaire
d'effectuern,estimationsparlissagepour le calculdes
En principe,le calculdeVC(À) nécessite
pourun lisseurlinéairef.r : S,rY, on a la relationsuivante:
n valeursae fli(r;). Cependant,
î-ôr ,
Ut-ft@ù
Ut.-Ix-\rt.): I _,Sdm
d'effectuern lissagespuisquechacunedesestimationslli(r;)
Il n'estdoncplusnécessaire
On a doncquepourun lisseurlinéaire:
êtreobtenueà partir de fi(r;) et de ,96;(À).
:*E{t=*gî}'
vc(,)
(2.s4)
peut
(2.ss)
on rencontreaussila méthodede la
Dansla littératuretraitantde régressionnon paramétrique,
validationcroiséegénéralisée(VCG). Avec cetteméthode,on obtientune approximationdes
élémentsSre(À)de la diagonalede la matricede lissageS.rParla moyennede ceux-ci,c'est-àdire par la tracede la matrice51 diviséparn et ainsi,2.55s'écrit :
(2.s6)
Cetteapproximationa permis,pour I'approchedessplinesde lissage,la réductiondu tempsde
calculpuisqu'onne savaitpas,jusqu'à tout récemment,commentcalculerles éléments,Sa(À)
(Hastieet Tibshirani,1990).
enO(n) opérations
LOCALE
45
2.3.6.3 La statistique Co de Mallows
En régressionlinéaire multiple traditionnelle avecp variablesprédictives,la statistiqueCo (Mallows, 1973)constitueun estimateurde I'EQP.On définit alors cette statistiquepar:
cp : MCE+2pû2ln
(2.s7)
où ô2 estun estimateurde la variancedesrésidus.La statistiqveCp, un casspécialdu critère
d'informationd'Akaike, s'obtienten ajustanttaMCE de manièreà ce qu'elle soit approximativementnonbiaiséepour I'erreurdeprédiction: E{CÀ æ EQP (Efron et Tibshirani,1993).En
on obtient
régressionnon paraméhique,en effectuantla mêmecorrectionque précédemment,
pourun lisseurlinéaire:
co(À): MCE(À)+ 2tr(s5jô2fn.
(2.s8)
Mentionnonsqu'ence qui concemeI'estimationdeà2,un estirnateurnonbiaisédeo2 estdonné
par:
ô2:
scE(À)
rl - v1
(2.se)
où z; peut représenterI'une ou I'autre destrois définitions du nombrede paramètreseffectifs
(cf. 2.3.4.5).Une autreapprocheconsisteà calprécédemment
d'un lisseurlinéaireprésentées
culer I'estimateuren (2.59)en utilisantun paramètrede lissageÀ*, différentde À, de manière
à n'effectuerqu'un faible niveaude lissage.D'autresestimateursont aussiétéproposés(pour
plusde détails,voir par exemplela section3.5de Opsomer(1995)).
3. LA MODÉLISATIONADDITIVE
Dansle chapitreprécédent,nous avonsprésentéles notionsde basereliéesà l'estimationnon
avec
c'est-à-direle lissageunidimensionnel
paramériquepar lissagedescourbesderégression,
une seulevariableexplicative(d : 1). Bien que les différentestechniquesde lissagepeuvent
pour I'estimationde surfacede régression(d > 1), cette façonde faire est
être généralisées
souventproblématiqueen raisonnotammentdu problèmede la raréfactiondesdonnéesdans
un espaceà grandedimension.Dansce chapitre,nollsproposonsune approchedemodélisation
qui ne souffrepasdeceproblèrne: la modélisationadditive.Nousintroduisons
nonparamétrique
formellementle modèleadditif dansla
cetteapprochedansla section3.1 pour ensuiteprésenter
section3.2.Parla suite,nousmontronsdansla section3.3 comments'effectuel'estimationdes
modèlesadditifspour enfin discuter,dansla section3.4, de la modélisationdesdonnées,c'estlors du choix : (1) desvariablesexplicativesà
à-diredesélémentsà prendreen considération
incluredansle modèleet (2) du niveaudelissageassociéà chacunedecesvariablesexplicatives.
3.L I/approche de modéIisationadditive
Rappelonsle résultatclassiqueselon lequella fonction / qui minimise E{Y - /(X)}2 est
l'espéranceconditionnellede Y étantdonnéX, soit
r8): E(Ylx).
(3.1)
Dansle casoù I'on considèreplusieursvariablesprédictives,un desoutils les plusutiliséspour
linéairemultiple suivant:
représenter
cettefonctionestle modèlederégression
E ( Y I X LX
, 2 , . . . , X a: ) a * f u X 1* Ê z X z +. ' . + g a X a
(3.2)
les paramètres
du modèle.Dansle modèlelinéaire(3.2),on fait une
où o et 0t.ç=t-.a1sont
est
de E(Y) surX1, . . . ,Xd,,soit quela dépendance
hypothèseforte à proposde la dépendance
non
À I'inverse,avecl'approchederégression
linéairepourchacunedesd variablesprédictives.
paramétriqueprésentéeau chapitreprécédent,aucunehypothèsen'est faite quantà la forme de
la surfacede régressionsi ce n'est le fait qu'elle soit lisse.Rappelonsqu'on a alorsle modèle
suivant:
E(YlXb X2,...,Xù : f (Xt, Xz, ...,Xa)
(3.3)
48
de lissageprésentée
à
où la fonction/(X1, X2,...,X6) peutêneestiméepar unedestechniques
la section2.2.8.
de locaUn problèmecommunaux différentslisseursde surfaceconcernela caractéristique
lité de l'estimationen grandesdimensions.Ce problèmede dimensionalitéest bien connuen
régressionnon paramétriquesousle nom de curse of d.imensionality: les voisinagesavec
un nombrefixé d'observationsdeviennentde moins en moins locaux lorsquela dimension
que les observaaugmente(Bellman, 1961).La figure 3.1 illustre ce phénomène.Supposons
tionssoientrépartiesuniformémentà I'intérieurd'un cubeunitairede dimensionp et que nous
voulionsconsffuireun voisinageen formede cubedébutantpar I'origine de manièreà capturer
(enmoyenne)(100 x GRV)7odesobservations
la grandeurrelativedu voisioù GRV représente
devraitavoir
nage(i.e.le span)(cf.2.2.4).On peutalorsmontrerquela dimensiondu sous-cube
unearêtede longueurGRVl/p. Pourp=l et GRV=0,1on obtientunearêtede 0,1. Par contre,
pourp=lQ (et GRV=O,1)on obtientenviron0,8 ce qui n'est plus vraimentlocal (mêmeavecun
sous-cube
composéd'arêtesde longueur0,8, on ne réussit,en dimensionp, qu'à capturerque
l07o desobservations).
c
p€
9-2
q
o
E
P
.9
g
'ii
-
@
P-t
o
q
o
N
ci
ê
o
0.4
0.6
span
Frc. 3.1: Illustrationdu problèmede dimensionalité(tiré de Hastieet Tibshirani(1990))
techniquesde régressionnon paraméAu coursdesdeux dernièresdécennies,de nombreuses
(e.g.le modèledela
afinderepondreà ceproblèmede dimensionalité
triqueont étédéveloppées
poursuitepar projectionde Friedmanet Stuetzle(1981),le modèled'alternancede I'espérance
conditionnellede Breimanet Friedman(1985),le modèleadditif généraliséde Hastieet Tib-
LA MODÉLISATIONADDITIVE
49
shirani(1990),etc.)(pourune descriptiondesprincipalesméthodes,voir, par exemple,Hârdle
(1989)).Un de cesmodèlesqui sesitueà mi-cheminentrela régressionlinéairemultiple(équa(équation3.3), a plus particulièrement
tion 3.2) et le lissagede surfacesmultidimensionnelles
retenuI'attentiondespraticiens,il s'agit du modèleadditif (Hastieet Tibshirani,1987;Buja
et al., 1989;Hastieet Tibshirani,1990):
E ( Y l & , X 2 , . . . , X a ) :a + f { X ) + f z ( X r )+ . . . + f a ( X a )
(3.4)
lisses,de forme non spécifiéea priori, associées
où les fi sontdesfonctionsunidimensionnelles
par le
à chacunedesvariablesexplicativesXl(l=r...a).Ce modèleestcaractérisé
respectivement
En effet, Stone(1982)a étudiéla
fait qu'il n'est pasaffectépar le problèmede dimensionalité.
pouvant
desmodèlesadditifs et a prouvéque la vitesseoptimalede convergence
convergence
êtreatteinte(pour/ declasseCz) estde I'ordredeO(n-t/s), soitla mêmequepourI'estimation
de la modé(d - 1) (cf. 1.1.3).Une autrecaractéristique
d'une fonctionunidimensionnelle
lisation additivequi distingued'ailleurs le modèleadditif des autrestechniquesde régression
estrelativeà la facilité d'interprétationdesrésultats.En effet,tout commeen
non paramétrique
régressionlinéairemultiple, il est possibleavecun modèleadditif d'examinergraphiquement
à la présencedes
I'effet de chacunedesvariablesprédictives,une à la fois, conditionnellement
autresvariablesprédictives.Il devientalorspossibled'effectuerune validationdeshypothèses
de linéaritéémisespar le modèlede régressionlinéairemultiple. De plus, I'implantationde la
contriet Hastie,L992)a grandement
modélisationadditivedansle logiciel S-PLUS(Chambers
buéà sonessor.
3.2 Le modèleadditif
unerelationentred variablesprédictives
La modélisationadditiveest utiliséepour représenter
qui
(ou indépendantes)
Xr, Xz, . . . , Xa et une variablede réponseY (ou variabledépendante)
est reliée à ces variablesprédictives.Supposonsqu'on ait I'ensembled'observationssuivant
du modèleadditifest:
{((Xi, X;,..., Xl),Y),'i : I,2,...,n}, alorsla formegénérale
...+ fa(X'o)+ et
Yr: a+ f1(xi) + fz(J {'â)+
(3.s)
distribuéesde moyenneE(e6): g,
desXj etidentiquement
où les erïeurs€1sontindépendantes
de varianceE(ril : o2 etoù chacunedesfonctionsfi telle que E(/3) : 0 estunefonctionde
forme non spécifiéepouvantêtre estiméepar lissageunivarié.Dansce document,noussupposeronsque les lisseursutiliséspour I'estimationdesfonctions,f3sontlinéaires.De plus,nous
relaxeronsI'hypothèsede varianceconstanteo2 et permettronsqueE(el) : o7.
3.3 Llestimation desmodèlesadditifs
on peutnoterle vecà I'ajustementd'un modèleadditif aux valeursobservées,
En s'intéressant
teurdesvaleursestimées:
(3.6)
î:d*Îr+Îz+...+Îa
où ô : Y et Î1,Îr,...,ia sontdeslisseurslinéairesunivariéstels que fi : SiYli=r...a; (cf.
pourle lissagedans
2.3.4.1)où Sr,Sz,...,Sasontlesmatricesdelissageutiliséesrespectvement
X1, X2,...,Xa.Pourdeslisseurslinéaires,il estpossiblede
l'espacedesvariablesexplicatives
Îr,îr,..., Î6 constituentles solutionsdu système
montrer(Buja et a1.,1989)queles estimateurs
d'équationsnormalessuivant:
I S1
Sz r
t,
...
Sa ...
::l
:'t
s'l
f
î,
I J
(Y-ô)
f,
De plus,si la matrice
M:
I
S1
Sz
r
Sr
. . . Sz
t, S a . .
(3.7)
(3.8)
;
estinversible,alorsles estimateursîr,îr, ...,Î6 existentet
f1
î,
î
: M-l
Sr
Sz
(Y-ô)
(3.e)
t,
sontdedimensionzl x rzet quechacunedeslignes(et colonnes)
Puisqueles matricesS; 16=1,...,d;
de M est composéede d de ces matrices,M est de dimensionnd x nd^ En théorie,il est
possiblede résoudrele systèmed'équations(3.7) à I'aide d'une méthodenon-itérativetelle
1améthodede la décompositionQR (Burdenet Faires,1989).Un problèmepratiqueest que
(3.7) est un systèmede dimensionnd x nd et que desméthodestellesla décompositionQR
requièrentO(*') opérationspourrésoudreun systèmede dimensionrn x rn, ce qui signifieici
5l
Uneméthodeitérative,I'algorithme debackfitting,peutalorsêtreutilisée
O((nd,)3)opérations.
à I'estimation.L'algorithmede backfining,
afin de diminuerle nombred'opérationsnécessaires
(Burdenet Faires,1989),ne requied,lorsqueles
uneméthoded'itérationde type Gauss-Seidel
lisseurspeuventêtreestimésen O(n) opérations(c'estle caspour la régressionlocalelinéaire),
queO(np) opérations(Hastieet Tibshirani,1990).
3.3.L
I/algorithme de backfi.tting
: ; , X ? , . . . , X T ) ' , t j : ( f j ( X ; ) , f i 6 î ) , . . . , f t $ i ) ) e t S il a
P o ujr : 7 , 2 , . . . , d , n o t o n s X r(.X
(cf. section2.3.4.1)aux
depondération
matricedelissagedontleslignessontlesdiagrammes
les
àla figure3.2,estime
Xl,Xl, ...,Xi.L algorithmedebacffitting,présenté
observées
valeurs
(3.4)E(Ylh,Xz,...,Xa):a+h(Xù+fz(Xz)+...+fd(Xd).
fonctions/3dumodèleadditif
il est nécessaire
de définirdesvaleursinitialespourfr0.Hastieet
PourdébuterI'algorithme,
n'estdisponiblea priori surla forme
information
lorsqu'aucune
Tibshirani(1990)suggèrent,
de ces fonctions, d'utiliser les fonctions linéaires obtenuespar régressionde Y sur les variables
explicatives.
1.Initialiserfi -- fl, i : 1,2,...,d, ù : *
2. Furepourj : L,2,...,d
fi:Si(Y-a-Du*rfo)
3. Répéter2. jusqu'àce quelesfonctionsQ convergent
Fta. 3.2:Algorithmedebacffitting
baséessur la notion de rétrécissement
Buja et al. (1939)ont donnédesconditionssuffisantes,
(shrinking).garantissant
la convergence
de I'algorithme.Pardéfinition,pourtoutenormematricielle ll.ll,on noûrmelisseurrétrécissantla matriceS, si pour tout vecteury,llsyll S llyll.
Pourun lisseurstrictementrétrécissant,on a llsyll < llyll pour tout y. Buja et al. (1989)
la convergence
ont montréque si tousles lisseursutilisésdansI'algorithmesont rétrécissants,
versune
alorsla convergence
estgarantieet si deplus,les lisseurssontstrictementrétrécissants,
solutionuniqueestassurée.Dansle casdeslisseurspar régressionlocale,il n'y a pasgarantie
soientdifficilesà trouver.
bienqueles contre-exemples
de convergence
52
peut
obtenupar Hastieet Tibshirani(1990),estqu'un lisseurrétrécissant
Un résultatintéressant,
ce qui garantitI'unicité de la solution,en
êtretransforméen un lisseurstrictementrétrécissant,
effectuantun centrage,c'est-à-direen remplaçantles matricesde lissageSr' par deslisseurs
centrésS; : (I - LLT ln)S; où 1 estune mafficeunitairede dimensionn x n. Notonsqu'en
procédantainsi,nousnoustrouvonsalors à employerI'algorithmede backfittingmodifré,présentéà la figure3.3,qui estimeplutôt les fonctions/i du modèleadditif sansconstantesuivant:
E ( Y I X L , X 2 , . . . , X a ) :/ r ( X t ) + f z ( X z )+ . . . + f a ( X a ) .
fi : fr9,i : I,2, ...,d
1.Initialiser
2.Fwepourj:t,2,...,d
fi: Si(Y -Luaofo)
3. Répéter2. jusqu'à ce queles fonctionsfj convergent
Flc. 3.3: Algorithmede baclfittingmodifié
3.3.2 Définitionsrelativesaux modèlesadditifs de lisseurslinéaires
à la section2.3.4surles lisseurslinéaires,nousprésenParanalogieaveclesrésultatsprésentés
pour un modèleadditif composéde lisseurslinéaires.
tonsici desdéfinitionsanalogues
3.3.2.1 Desestimateurslinéaires
Notonsd'abord que le fait d'effectuerun centragedeslisseurslinéairesrevient à estimernon
pasle systèmed'équations(3.7)maisplutôt le systèmesuivant:
f r sî
I
I:T
Lt,s; .:
En supposantquela matrice
si
s;
f1
î2
:li;
L';
fa
;
-.:l*
si
si
r . . . si
s; ...
(3.10)
;
(3.11)
53
est inversible, alors les estimateursf1, f2, . . . ,f 4 e x i Stentet sontuniques;ils sontdonnéspar :
lï1"
L: L',1
- M*-1
(3.12)
Lléquation(3.L2) permetd'observerque les estimateurssont linéairesen Y. Les estimateurs
estatteinte,sontaussilinéaires
produitspar la procédurede baclstting,lorsquela convergence
enY.Il estdoncpossibled'obtenirû : RrY' iz : RzY, et ainside suited'où :
Î:ô1+t+îz+...+ia:RY
( 3.13)
où i est le vecteurdes valeursajustées.Avec la procédurede baclfittircg,les matricesR3
et IÙ peuventêtre obtenuesen applicantI'algorithmeà la séquencede vecteursde réponses
€1 : (1,0,0,...,0)",êz : (0,1,0,...,0)1,...,ên : (0,0,...,L)" (pourplusde détails,voir
Hastieet Tibshirani(1987)).
3.3.2.2 Le biaisr la varianceet I'erreur quadratique moyenne
quelesestimateurs
du modèleadditif sontlinéairesenY, on obtient,paranalogie
En considérant
du vecteurde biais :
avecl'équation(2.37),commeexpression
b:f-E{Ry}:f-Rf
(3.14)
Mentionnonsque pour une fonctionarbitraireet inconnue/, les modèlesadditifs sontbiaisés
bienqu'ils puissenttoutefoisêtrenonbiaiséspourune classeparticulièrede fonctions.
et devariance
distribuées
identiquement
quelesobservations
sontindépendantes,
En considérant
desvaleursajustéesi : RY est :
constanteo2, alorsla matricede variance-covariance
Cov(î) : o2RR?.
(3.1s)
la normalitédeserreurs,il estpossibled'utiliser (3.15)pourobtenirdesintervalles
En supposant
du modèleadditif. De plus,il estpossibled'obtenir
ponctuelsd'écart-typepour les estimateurs
desintervallesponctuelsd'écart-typepourchacundeslisseursunivariésiy enutilisantle fait que
COV(ij) : ozp-ip.T.
(3.16)
54
pasconsidérercesintervallesd'écart-typecommeétantdes
Rappelonsqu'il ne faut cependant
aucuneinformationsurle biais
intervallesdeconfiancepuisqu'ilsnecontiennentrespectivement
de confiancepourcequi estestimé(cf.23.a3).
deî et de ii ; il s'agitd'intervalles
d'homoscédasticité.
Lesrésultatsprécédents
avecunehypothèse
Cependant,
ont étédéveloppés
le modèleadditif peut s'adapterau casdesvariances
commeon I'a mentionnéprécédemment,
au
inégales; E(ef) : o?. La procédure
consistealorsà ramenerceproblèmed'hétéroscédasticité
eneffectuantlestransformations
suivantes: Y' : l/L/zY
castraditionnelavechomoscédasticité
e t f j - Y L / z fi o ù V :
d i a g {L l o l ,L /o3,...,I/o?}( pour plusdedétails,voir lasection5.4de
Hastieet Tibshirani(1990).
En ce qui concernelesnotionsd'erreurquadratiquemoyenneet d'erreurquadratiquedeprédiction, il estaussipossibled'obtenir,par analogieavecles équations(2.45)et (2.46) :
EeM -
tr(RRr)
oz*brb
n
n
(3.r7)
et
EeP-{'.ry\u.*
( 3.18)
3.3.2.3 Le nombre de degrésde liberté
en 2.3.4.5a son analoguenaturel ici : u1 : tr(R^R"),
Chacunedes 3 définitionsprésentées
vz : tr(2R - R,Rî) et vs - tr(R). Deux facteurslimitent cependantI'utilisation pratiquede
cesdéfinitions.D'abord,le calculde cesdéûnitionsesttrèsexigeantdu point de vuedu nombre
d'opérations.De plus,un inconvénientmajeuraveccesdéfinitionsest qu'ellesne déterminent
quele nombretotal de degrésde liberté (ou de paramètreseffectifs) de la modélisationadditive.
En pratique,il estplutôt souhaitable
deconnaîtrele nombrededegrésde libertéassociéà chacun
deslisseurs,c'est-à-direà chacunedesvariablesexplicatives.En ce sens,Hastieet Tibshirani
(1990)suggèrent
d'utiliser:
fz:tr(25,.-sjsï) -1
(3.1e)
4:tr(Sr')-1
(3.20)
ou
55
commemesuredu nombrededegrésdelibenéassociéà la variableprédictiveXi. Cesdéfinitions
sontbaséesrespectivement
sur les approximations
suivantes:
p
uz: ft(2r"- n,Rt)æ1*
- sjsT)- 1}
IJ = t {r.tzsj
(3.2r)
e1
p
vs: tr(R) ry 1 * f
{tr{s3)- t}
(3.22)
;-r
Ainsi, le nombre total de degrésde liberté est représentépar la somrnedes degrésde liberté
associés
à chacunedesvariablesexplicativesà laquelleon rajouteun polr tenir comptede I'esde bonsrésultatssaufdans
timationde la constante.Cesapproximations
donnentgénéralenoent
le casde fortes corrélationsentreles variablesprédictivesou lorsquede très petits paramètres
de lissagesontutilisés(Hastieet Tibshirani,1990).
3.4 La modélisationdesdonnées
Au chapitreprécédent(cf. 2.3.5,2.3.6),nousavonsdiscutéde I'ajustementdu niveaude lissagedesmodèlesde régressionlocaleà une seulevariableprédictive.Rappelonsquedanscette
situation,une approcheretenuepour la sélectiondu modèlefinal consisteà choisir,parmi un
la plus petiteerreurde prédiction,c'est-à-dire
ensemblede modèlesÎ : SrY, celui possédant
parmiI'ensembledesparamètres
qu'il s'agitderechercher,
delissage), le vecteurdeparamètres
À* tel que À* - arg minl{EQP(À)}. Rappelonsaussiquepour quela sélectiondesparamètres
et ont
puisseêtre applicableen pratique,desmesures(estimations)de I'EQP sontnécessaires
(cf. 2.3.6).
d'ailleursétéprésentées
De manièreéquivalente,pour un modèleadditif, il sembleappropriéde choisir, parmi un ensemblede modèlesÎ : S.rrY * SlrY + ... + SrrY, celui possédantla plus petite erreurde
prédiction.Il s'agit ici de rechercher,parmi I'ensemblede vecteursde paramètresde lissage
À* tel queÂ* - argminl{EQP(Â)}. Encore
Â : (Àr, À2,...,Àa),
puisseêtreapplicableenpratique,desmesuresde
unefois, pour quela sélectiondesparamètres
I'EQP pour un modèleadditif sontnécessaires.
Modélisationadditiveparpolynômeslocauxpourla régionalisatondesquantilesde crue...
3.4.1 Lesmesuresde l'ajustement
Rappelonsqu'intuitivement,on pourraitêtreportéà utiliser,cornmemesurede I'ajustement,la
moyennedu carrédeserreurs(MCE) :
MCE(^):
:>,{,,-f,î,,^,a,,t\'
(3.23)
"optimiste"puisqueles erreursproviennentd'obsermais que cettemesureest beaucouptrop
de I'EQP par validaton
vationsqui ont d'abordétéutiliséespour I'estimation.Les estirnateurs
ainsiqu'à I'aide d'uneadaptationde la statistiqueC,
croisée,par validationcroiséegénéralisée
nonparamétriqueconstituentaussides
dansun contextede régression
de Mallows développées
utiliséesen modélisationadditive.
méthodesgénéralement
Pourun modèleadditil on peutdéfinir,par analogieà l'équation(2.56),le critèrede validation
(VCG) par :
croiséegénéralisée
vcc(^): (1-MCE(^)
rr(R^)1")"'
(3.24)
Gu et V/ahba(1988)ont développéun algorithmepermettant,pour des splinesde lissage,le
en raisonde la difficultéà calculerde manièreefÊcacele dénocalculde VCG(Â). Cependant,
O(nt) opérations.Ilestcependant
minateurdel'expression(3.24),lecalculdeVCG(Â)requiert
possible,afin de réduirele tempsde calcul,d'utiliserl'approximation(3.22)afin d'obtenir:
vcc-(^)-
MCE(^)
(1- [1*Doi=r{tr(S1,;- t}11"),
(3.2s)
qui ne requiert que O(n) opérations.
Dans le contexte de I'utilisation de I'analyse discriminantepour la sélection de modèles,Hastie
et al. (1993) ont proposé,comme mesurepermettantla discrimination, l'utilisation de
VCG.(c,À) :
MCE(A)
(1- [1+"DI=r{tr(s1,;-t}11")"
(3.26)
où c représenteun facteurde pénalité(une fonction de coût) associéau nombrede paramètres
d'un modè1eadditif. Notonsque VCG* implique un facteurde pénalitéunitaire alorsque de
que
nombreuxauteurs(e.g.Friedman(1991),Owen(1991),Hastieet al. (1993))mentionnent
c:2
constitueplutôtunevaleurappropriée.
57
Unedernièremesure,connuedansla littératuresousle nom de AIC (AknikeInformationCriterion) de Hastie(Hastieet Tibshirani,1990),esten fait la statistiquede Co de l'équation(2.58)
adaptéeà la modélisationadditive.On définitcettestatistiquepar :
Arc(A): MCE(A
) +2l{tr1s1,; - t} a2ln
(3.27)
j:l
où ô2 est un estimateurde la variancedesrésidus.Mentionnonsqu'il s'agit de la mesureemployéedansle logiciel S-Pluspour la discriminationde différentsmodèlesadditifs.En ce qui
sontdisponiblesdont par exemple,I'esconcerneI'estimationde à2, de nombreuxestimateurs
timateurnonbiaisésuivant:
scE(^)
^, -"'-""-'-:-'
Ç- :
Il-ut
(3.28)
en 3.3.2.3,du nombretotal de
où z; peutreprésenter
I'une ou I'autredesdéfinitions,présentées
paramètres
effectifsd'un modèleadditif.
3.4.2 Les procéduresde sélectiondu modèle
queI'on ait à sélectionner
un modèleoptirnal,au sensde I'un descritèresénumérés
Supposons
précédemment,
parmi I'ensembledesmodèlesadditifscomposésde polynômeslocauxdont la
forme généraleest :
E(Ylh, Xz, ...,Xa): SÀrY* SlrY + ...+ S.\dY
(3.2e)
= (hr,,pa,W;).supposons
où I'on a pourun lisseurcomposéde polynômeslocaux,Àl(,i=r...a)
maintenantqueI'on déterminea prtort et Vala fonctionde pondérationW;employée,que I'on
qu'auxfonctionspolynomiales
d'ordreL et2 (i.e.pt € {1,2}) et qu'enfin,I'on
ne s'intéresse
déterminela largeurde la fenêtrede lissageà l'aide de la méthodedesk plus prochesvoisins
(i.e.quepourun échantillondetaillen, ht € {I,2, ...,n}). Supposons
deplusqueI'on permette
quechacundestermesdu modèlepuisseêtresoitignoréou remplacéparun teffneparamétrique
linéairede la forme/iXi, alorsun exerciced'analysecombinatoirepermetd'obtenirquepour
un échantillonde taille n, le nombretotal de modèlespotentielsestégalà (2n + 2)d.Ainsi, par
exemple,pour un échantillonde taille n : 49 et d : 5 variablesexplicativespotentielles,il
existeenviron1005: 1010soit 10 milliards de modèlesdifférents.Cet exercicemontrebien
que danscette situation, il serait en pratiquetrop exigeant,en temps de calcul, de tenter de
déterminerle modèleoptimal en estimantchacunde cesmodèlespotentielset en calculantpour
chacund'entreeux le critèreretenu.
58
Puisqu'enpratiqueil sembleirréalisabled'examinerchacundesmodèlespotentiels,de nomet/ou proposéesdont les
ont été développées
breusesprocéduresplus ou moins automatiques
par en avant,par en arrièreou dansles deuxdirections(Hastieet
procéduresde type pas-à-pas
I'algorithmede baclfitting
employantde manièreadaptative
Tibshirani,1990)et lesprocédures
tellesl'algorithmeBRUTO(Hastieet Tibshirani,1990)ou la méthodede sélectionautomatique
desparamètres
de lissagede Opsomer(1995).Bien quecesdernièresapprochessoientplusefficacesau niveaudu nombred'opérationsà effectuer,leur utilisationpratiqueest généralement
limitée par le manqued'outils informatiquesconviviauxpermettantleur application.De plus,
d'êûetestéeen profondeur(Hastie
I'algorithmeBRUTO estunenouvelleméthodequi nécessite
et Tibshirani,1990)alorsque la méthodede Opsomer(1995)estune méthodede typeplug-in,
obtenus
un type de méthodeamenéà disparaîtreen raisondesmauvaisrésultatsgénéralement
et Loader(1996b):
commel'indiquentCleveland
"Plug-inmethodsshouldbe consideredan ideathat failed,andallowedto die a
naturaldeath."
Dansce travail,et ce en raison,entreautres,de la disponibilitéd'outils informatiquesefÊcaces
dansles
uneprocédurede type pas-à-pas
et conviviauxdansle logiciel s-Plus,nousadopterons
deuxdirections.Afin de pouvoirutiliser,en pratique,uneprocédurede type pas-à-pas,l'ondoit
de lissageassociésà chacunedes
desparamètres
d'abordeffectuerun certainordonnancement
selonl'échelle desdegrés
s'effectuegénéralement
variablesexplicatives.Cet ordonnancement
de libertéen utilisantla relationdirecteexistantentrela notionde paramètrede lissage(via 51)
et la notion de degréde liberté,notéedésormaisdl, (unefonctionde S1).Ainsi, pour un modèle
quel'on permetteque chacundestennes
additif composéde polynômeslinéaires,en supposant
du modèlepuisseêtre soit (l) ignoré (i.e. d,l - 0), (2) remplacépar un terme paramétrique
linéairede la forme ÊiXi Q.e.dI : 1) ou (3) lisséà I'aide de sesk plus prochesvoisins(i.e.
natureldesparamètres
de k), alors,un ordonnancement
dl > | et est unefonctiondécroissante
de lissagepotentielspourla variableprédictiveX3'estle vecteur:
* 'î)* t ,
L j _ ( ^ 1 , ^ ? , . . . , ^ : i , . . . , X ^] ,iÀ
:
((1 ,1 ,w ), (2 ,!,w ),. . . , ( ii,l,w) , . . . , ( r ,l,w) , ( n, 1,r ect) ,( 0,1,tl) )
( 3.30)
quelconque
et rect estla fonctiondepondérationrectanguoù urestunefonctiondepondération
queI'emploi de {+1 : (n,1, rect) équivautà estimerle termelinêaoire
laire.Remarquons
BiXi
alorsque I'emploi de \i+2 : (0, 1,ar) équivautà ignorerla variableexplicativeXi (puisque
À: 0).
59
La procédurede type pas-à-pasconsisteà estimer,dans un premier temps,le modèlecorau vecteurde paramètres
de lissage1(o) - (ôl,^!;,...,^'f). On estimeensuite
respondant
de lissagediffère 6s ^(o) d'une seuleposition
tous les modèlesdont un seul des paramètres
aux vec(selonI'ordonnancement
établi en 3.30).Il s'agit ainsi des modèlescorrespondant
(ÀI, ÀT,...,^:f-t), (Ài', À?, ...,^7*t). On choisitensuitele meilleurdetouscesmodèlesque
I'on compareaumodèleinitial. Si le modèleinitial estle meilleur,la procédures'arête. Sinon,
avecle meilleurdecesmodèlescommenouveaumodèle
les étapesprécédentes
on recommence
vers la soluconvergence
initial. Notonsqu'aveccetteprocédure,il n'y a pasnécessairement
tion optimale;il peut s'agir d'un maximumlocalet I'atteintede cet optirnumestalorsrelié aux
en pratique,d'effectuerla procédureavecdifféconditionsinitiales.Il est donc recommandé,
rentsparamènesinitiaux. Mentionnonsaussiqu'aveccetteprocédure,il n'est paspossiblede
qui tiennecomptedu degrédespolynôrneslocaux.Nousrecornmancréerun ordonnancement
donsainsid'analyserles graphiquesobtenuspar la modélisationadditivea6ndevérifierqueles
polynômesde degré1 décriventbienlesobservations.
3.4.3 l/aspect graphique et la linéarité des modèlesde régression
Rappelonsqu'en pratique, l'utilisation d'une approchede modélisationnon paramétrique,
deux objectifsprincipaux,le premier
commela modélisationadditive,poursuitgénéralement
d'ordre descriptif,le secondprédictif.Ainsi, I'utilisation d'une approchede modélisationadditive permetnon seulement(1) d'effectuerune modélisationdes donnéesobservéesafin de
produireun lisseuradditif pouvantêtre utilisé pour la prédiction,mais aussi(2) de suggérer
Par exemple,un examenvisueldu graphique
I'emploi d'un modèleparamétriquequelconque.
de la figure3.4apourraitsuggérerI'emploid'unedroitede régression.
Mentionnonsque pour la régionalisationdesquantilesde crue, le lissagedes relationsentre
quantilesde crueset variablesphysiographiques
/ climatologiquesdevraitpermettre,dansun
premiertemps,en examinantles différentslissages,de détecterles régionsà I'intérieur desquellesI'hypothèsede linéaritéinhérenteau modèletraditionnelde régressionlog-linéaireest
inadéquate.
On devraitalorss'attendreà ce qu'en cesrégions,une approchede régressionnon
paramétrique
commeI'approchede modélisationadditivesoit préférableet permettede produire,dansun deuxièmetemps,de meilleuresprédictionsdesquantilesde crueen dessitesnon
jaugés.La figure3.4 constitued'ailleursun exempledu lissagede la relationenEele logarithme
décimaldu quantilede crue Qsoet le logarithmedécimalde I'aire (A) des bassinsversants
pourdeuxrégionshydrologiquesdesÉtats-Unis.La figure3.4asuggèrequepour la région 1, le
modèlelog-linéairetraditionnelpeutêtreadéquatalorsquepour la région L2 (fig.3.4b),le graphiquede droite,I'emploi d'unemodélisationadditivepeutpermettreI'obtentionde meilleures
prédictions.
Région12 du USGS
Région01 du USGS
(|
q
Ë o
P < t
I
a:
T
€
q
o
o
9 a
Ë
ç
6
ç
c
q
q
rl
1
2
3
r.s
2.o
2.5
3.0
3.5
4.O
4.5
A
A
^\
b)
4)
Frc. 3.4: Visualisationde I'hypothèsede linéaritépour 2 régionshydrologiquesdéfiniespar le
USGS(cf. 5.1 pour unedescriptiondétailléedesrégions)'
c'est-à-direen modélisationlocale et en modélisationaddiEn régressionnon paramétrique,
tive, des testsd'hypothèsespeuventêtre utilisésafin de validerl'hypothèsequ'un lisseurest
supérieurà un aufrelisseur.PourtesterI'hypothèse:
significativement
f/o tfrro : RroY
contre I' hypothèsealternative
H1:înr:
RlrY
il faut d'abord calculer la statistique:
n
t :
(SCE(A9)- SCE(ÎDlQrot - vr0:))
(3.31)
6t
le nombrede
r/(0),SCE(40)etv$),SCE(Î) respectivement
où n estle nombred'observations,
degréde libertéet la sommedu carrédeserreursdeslisseursÎ1o et Î1r. On utiliseensuitele fait
queF estapproximativement
distribuéeselonuneloi Fr.rll-,<rr,n-;o)et on rejètefls à un niveau
lorsqueF" > IL).
de confiance
o lorsqueo(.F) < o (c'est-à-dire
Une façonpossiblede validerI'hypothèsede linéaritéconsisteà utiliser le testprécédentavec
: d,* 1oùdestlenom br edeva r i abl es
' i : P Y p o u rl aquelleonar ' ( 0)
I ' h y p o th è se Ifo
explicativesdu modèlede régressionlinéairernultiple.L applicationde tels testspour valider
les hypothèsesde linéaritédes lissagesde la figure 3.4 ont donnécommerésultats,selonle
logiciel S-Plus,que o(F) : 0,289 pour la région01 (cf. frg. 3.4a)et a(F) - 0,017 pour
la région T2 (cf. fig. 3.4b). Ces résultatsindiquent,tels que I'on devrait s'attendre,que pour
linéaire,diminuesignificativement
la région 12,I'applicationd'un lisseurplutôt qu'un modètre
la variancerésiduellealors qu'aucunediminution significativen'est observéepour la région
de bons résultatspour deslisseurspar
01. Le testF approximatifen 3.31 donnegénéralernent
plus
polynômeslocauxde degréI (Hastieet Tibshirani,1990)(pour d'autresapproximations
précisesvoir, par exemple,Clevelandet Devlin (1988)).
4. LAnÉCTONALTSATIONDESQUANTTLESDE CRUE
par lequelon déduit des caractéristiques
en
La régionalisationhydrologiqueest un processus
dessitesoù ellesne sontpasmesurées.
En hydrologiede surface,on s'intéresse,par exemple,
à la régionalisationdesdébitsde crue, des étiages,des précipitations,etc. Dans le cadrede
plusparticulièrement
desquantilesde crue,c'estcettethèse,on s'intéresse
à la régionalisation
à-dire à I'estimation,en un site non jaugé, d'un quantileparticulier,le quantilede périodede
retourT, notéQr, dela distributionde fréquencedescruesannuelles.Mentionnonsquedansce
document,nousne traitonsquede la régionalisation,
conçuepour I'estimationen dessitssnon
jaugés,quenousdistinguonsde I'analyserégionale,conçuepour I'estimationen dessitesnon
jaugésmaisaussien dessitespartiellementjaugéscontenantpeu d'infornrationhydrologique.
Nous référonsle lecteurà (GREHYS, 1996a,1996b)pour une descriptiondu problèmeplus
génêxalde I'analyserégionaleet de I'estimationen dessitespartiellementjaugés.
Dansle casoù desmesuresdeDMA sontdisponiblesausiteoù I'on désireproduireuneestimation, le problèmede I'estimationdu quantilede crueQ7 consisteà approxirnerla distributionde
("r,rr,...,r,n)desDMA
fréquencecumuléeF,puisque
Qr: ^F"-t(1-LlT),àl'aidedelasérie
(où n est le nombred'annéespassées
pour lesquelleson connaîtle débit maximumannuel).I1
s'agit alorsde modéliserla relationexistantentrelesquantilesde crueet leur périodederetour.
Dansla littératurehydrologique,on qualifiegénéralement
de temporelle ce type de modélisation aux sitesjaugés(locale).Lorsqu'aucune
informationhydrométriquen'est disponibleausite
où I'on désireproduireuneestimation,I'on se doit de s'intéresserdavantageà la modélisation
spatiale(régionale)descaractéristiques
de crue.
Le but de ce chapitreest de présentercertainsconceptsde baseliés au problèmede la régionalisationdesquantilesde crue.Il s'agit d'effectuerune revuede la littératuredesapproches
de
de modélisationjugéespertinentespour le travailen courssoientles approchesstatistiques
modélisationtemporelle(locale)et spatiale(régionale)desquantilesde crue.Aprèsavoirdécrit,
dans la section4.l,La problématiquehydrologiqueétudiée,nous présentonsrespectivement,
localeset régionalesde modélisation.
dansles sections4.2 et4.3,lesprincipalesapproches
64
4.1 Descriptionde la problématique
En pratique,desestimationsde quantilesde crueQ1 sontrequises,entreautres,pour la gestion
pourle dimensionnement
desstructuresde protectionet de contrôledes
desplainesinondables,
cruesde mêmeque pour le dimensionnement
de touteautrestructuresoumiseà un risquede
défaillance(parexempledébordement).
Ainsi, auxÉtats-Unis,en matièrede gestiondesplaines
inondables
I'achatd'unepoliced'assurance-inonProgramoblige
,le NationalFtood.Insurance
dation aux genshabitantles zonesdont le débit Q1e6(débitde périodede retourT = 100ans)
est susceptiblede causerdesdommages.
On sedoit alorsd'obtenirI'estimationde Qlss afin de
déterminerles zonesà risque.Un autreexempled'utilisationde Qy est le calcul du débit de
permettantle dimensionnement
desouvragesconstruitsenrivière.On
conception,un paramètre
ici tout particulièrement
à cetteproblématique.
s'intéressera
de façon à pouvoirrésisterà
En général,les ouvragesconstruitsen rivière sontdimensionnés
une crue que I'on nommecrue de conception(designflood) ou crue de projet. La crue de
conceptionestdéfiniecommeétantle débitmaximumqu'unestructurepeutsupportersansqu'il
en résultedesdommages
appréciables.
En hydrologie,il estde pratiquecourantede dimensionner les ouvragesde manièreà ce qu'ils puissentrésisterà une crue d'une périodede retourT
donnée,notéeQr. On peutd'ailleursmontrerquele risqueannuelde défaillancep (c'est-à-dire
la probabilitéaudépassement)
d'un ouvrageconçupourrésisterà unecruede périodede retour
T estp : t/T (Bobéeet Rasmussen,
1994).Parexemple,le risquequ'un ouvragedimensionné
pour résisterà une cruecentennale(7 : 100)soit détruitau coursd'une annéedonnéeestde
unechancesur 100.
À t'étapede la planificationdesouvrages,on doit d'abordûxer le niveaude risquequeI'on est
prêt à accepter.Idéalement,une analysedu risque,une analysesupportantla prisede décision
par la quantificationdesconséquences
ainsi quede leur probabilitéd'occurrenceOIRC, 1988)
devrait être effectuéeafin de déterminerle niveaude risqueà accepter(pou plus de détails
sur I'analysedu risque,voir par exempleDucksteinet Parent(L997)).Cependant,en pratique,
a priori en
lorsqu'aucunenormen'irnposele niveaude risque,on le déterminegénéralement
dommageables
d'une défaillance.Ainsi, on
intégrantintuitivementI'ampleurdesconséquences
peutaccepterqu'unpont desservant
soit submergéunefois tousles 10
uneroutehèssecondaire
ans; les pontsd'autoroutessontplutôt conçuspour résisterà unecrue survenantunefois toutes
(destruction
peuventêtre désastreuses
les 50 ou 100 années.Enfin, lorsqueles conséquences
d'une usinenucléaireou du barraged'un grandréservoir),on utilise plutôt la cruemillennale
(7 - 10 000)afin de concevoircesouvrages.
(T : 7 000)ou mêmela cruedécamillennale
LA RÉGIONALISATIONDES QUANTILES DE CRUE
&5
Pourun niveaude risquespécifié,il estimportantd'obtenirI'estimationla plusprécisepossible
de Qr en raisond'une part, descoûtsde constructioninjustifiésqu'entraîneune surestimation
du débitde conceptionet d'autrepart,de I'augmentationdu risqueréel de défaillanceet par le
qu'enffaîneune sous-estimation
de Qr.En règle généde dommages
fait même,dnoccurrence
I'hydrologuen'estpasla personne
décisionnel,
rale,bienqu'il soit impliquédansle processus
qui prendles décisionsen matièrede dimensionnement
desouvrages.L'hydrologueest plutôt
techniquesdansles domainesde I'hydrologie
le détenteurdes informationset connaissances
et de I'hydraulique(Bernier, 1997).Les décisionssont quant à elles prisesà un niveauplus
élevépar ùn gestionnaire(ou décideur)qui demandeà I'hydrologuede lui foumir I'information
à sonanalyse.Généralement,
cetteinformationconsisteen uneestimahydrologiquenécessaire
tion de Q7 accompagnêe
d'un intervalledeconfiance,c'est-à-dired'unemesuredeI'incertitude
reliée à son estimation.Le gestionnairea par la suite commetâchel'évaluationdes diverses
qu'hydrologiquessusceptibles
stratégiques
incertitudestant économiques,
socio-économiques,
d'affectersaprise de décision,c'est-à-direle choix du débit de conceptionqui ultérieurement,
serviraà la constructionde l'ouvrage.
Pour le gestionnairede projet,le problèmedu choix du débit de conceptionest un problème
d'analysede la décisionen avenirincertain.Diversesthéoriestant économiques(théoriede
(théorieBayesienne
dela décision(Fortin, 1997))
I'utilité (Bowerset al., 1986))questatistiques
permettentla prisede décisionen environnement
incertain.Cunnane(1987)a déjà mis en évides
dencele fait qu'en pratique,en dépit du caractèreéconomiquerelié au dimensionnement
séparéedu problèmedécisionnelde natureplus
ouvrages,I'estimationde Qr estgénéralement
économiqueque constituela conceptiondesouvrages.De plus, Bernier(1990)a montréI'intérêt d'utiliser une approchepennettantune analyseintégréedesproblèmesd'estimationhydes
de planificationen tenantcompterationnellement
drologiqueet desproblèmesdécisionnels
pas
diversesincertitudesintervenantdanscesproblèmes.L'objectif de ce travailn'estcependant
Il s'avèretoutefoisessentield'insistersurI'effet des
l'étudedesdiversesthéoriesdécisionnelles.
incertitudessur la prisede décision.En effet,peu importela théorieretenue,uneréductiondes
plus réalistes.
la prisede décisionséconomiquement
diversesincertitudespermetgénéralement
desouvrages,une approcheclassiquede prise en
Parexemple,en matièrede dimensionnement
ouvragesenprenantnonpasI'estimation
comptedesincertitudesconsisteà surdimensionnerles
de Qr commedébit de conceptionmaisplutôt la limite supérieurede I'intervallede confiance
à95Vode cetteestimation(voir, par exemple,Bernier(1990)).Il estdoncclair qu'unedirninution def incertitudeentourantI'estimationdeQr (doncde I'intervalledeconfiance),incertitude
de I'estimation,permetde réduire
quantifiéedanscet exemplepar la variabilitééchantillonnale
66
desouvrageset par le fait même,les coûtsde constnrctionde ceux-ci.
le surdimensionnement
qu'à la réductiondesincertitudeshyDansle cadrede ce travail,nousne nousintéresserons
incertitudestechnologiques(Bernier,1990)entourantI'estimation
drologiques,aussiappelées
deQr-
4.1.L Les incertitudes hydrologiques
en eau,unegrandeconfusionexisteconcernantla difféPuisquedansle domainedesressources
renceentreles notionsd'incertitude,d'imprécision,d'erreuret d'aléaqueI'on regroupesouvent
sousle termeincertitude(Abi-Zeid, t997), il s'avèreimportantde définir cesnotionsdansce
document.On emploiele termeincertitudepour traduirenotre faible degréde connaissance
d'un phénomène.L'incertitudepeut découlerde I'ereur ou de I'imprécisionmaisn'est synonymed'aucunde ies termes.L'erreurestunedéviationpar rapportà une valeurcorrectetandis
que I'imprécisionfait plutôt appelà la notion de "vague"où I'affirmation n'est pasen terme
queparmiles nombreuses
incertitudessusclair (Abi-Zeid, t997). On mentionnegénéralement
ceptiblesd'affecterla prise de décisiond'un gestionnairede la ressourceeau,on retrouveles
incertitudesnaturellesou aléasprovenantdesfluctuationstemporelleset spatialesdesphénonotredéfinitionde I'incenituden'inclut pascettenoCependant,
mèneshydrométéorologiques.
tion d'aléa.On a choisidedistinguerles aléasdesauhessourcesd'incertitudesen raisonde leur
la stochasticité
inéductibilité.En effet,puisqueles aléashydrologiquesreflètentgénéralement
de phénomènes
soumisaux forcesde la nature(précipitation,écoulementen rivière),I'hydronaturels;il ne peut que les mesurer.
logue n'a pasde moyend'intervenirsur cesphénomènes
Il a cependantcommetâchela modélisation,sousdiversesincertitudeshydrologiques,de ces
phénomènes
aléatoires.
L'incertitudehydrologiquecomporteffois sourcesdistinctesd'incertitude(Bernier,1990):
1. I'incertitude échantillonnaleprovenantde donnéesennombreinsuffisantou comportant
deserreursde mesure,
et
2. I'incertitude d'estimationprovenantde méthodesd'estimationmal adaptées,
3. f incertitude de modélisationprovenantde la difficulté à modéliserdes phénomènes
complexes.
Mentionnonsqu'en ce qui concerneI'estimationde Qy en un site non jaugé, desincertitudes
hydrologiquesse retrouventtant au niveaude la modélisationlocaleet de l'estimationlocale
decrueauxsitesjaugés(voir la section4.2) qu'auniveaude la modélisation
descaractéristiques
spatialeet de I'estimationdesrelationsrégionales(voir la section4.3).
61
La littératurehydrologiqueabondede modèleset de méthodesd'estimationtant localesque
régionalespermettantI'estimationde Qy. Cependant,commeI'indiquent d'ailleursde nombreuxauteurs(e.g.Potter(1987),Bobéeet al. (1993),Fortin (1994)),peu a étéfut au niveau
(évaluation)desdiversesprocédures
d'estimation.L objectifici n'est pasde
de la comparaison
maisbien de clariûerdeuxélémentsgénéraleproposerunenouvelleprocédurede comparaison
fondamentauxpour l'évaluationdesdiverses
mentignoréspar les hydrologuesmaiscependant
de I'incertiprocédures
d'estimation: la distinctionentre(1) la formed'un modèle,responsable
et
tudede modélisationet (2) I'estimationde ce dernier,reliéeaux incertitudeséchantillonnale
d' estimation.En hydrologie
Puisquenotreobjectifprincipaldansce travailestla réductiondesdiversesincertitudeshydrologiquesentourantI'estimationde Qy en dessitesnonjaugés,I'on sedoit aussideproposerune
Dansla littératurehydrologique,la
mesurede cesincertitudescommecritèrede comparaison.
qu'aux problèmesdebiaisd'estimagénéralement
majoritédesétudespubliéesne s'intéressent
c'est-à-direqueI'on négligeI'incertitudede modélisation.
tion et de variabilitééchantillonnale,
moyenne(EQM)
utiliséeestI'erreurquadratique
alorscouramment
Unemesuredecomparaison
(ou laracinecarréede celle-ci):
pQvr(Qr)- n{r|}' - E{Qr - QrI':
[b(Qr)]' + var(Q1)
(4.1)
où efl : 8r - Qr représenteI'erreurd'estimationentrela valeurréelleinconnueQ1 et l'esle biaisd'estimationet var(Qr) : E{Qr timationùr,b(Qr) - E{Qr * Qr} représente
la variancede I'estimateur.Puisqu'enpratique,la waie valeurde Qa est
n{Qrl],." représente
employéepour le calculde I'EQM consiste,par exemple
inconnue,uneapprochegénéralement
pour une estimationparamétriqueaux sitesjaugés(voir la section4.2), à simulerdeséchann à partir d'une distributionparentequelconqueD (on connaît
tillons de taille prédéterminée
alors8r) et à estimerQ11à l'aide d'uneméthodeparticulièred'estimationM et dela loi parente
D utiliséepour les simulations.En procédantainsi,on setrouveà négligerle biais(ou I'ereur,
i.e. I'incertitude)de modélisationet à ainsine s'intéresserqunauxerreurs(incertitudes)d'estiPar analogieaux mesuresde précisionprésenmation(incluantl'incertitudeéchantillonnale).
téesà la section2.3.3,1'EQMcalculéeainsine constituequ'unemesuredescriptivepermettant
de comparerdifférentesprocéduresd'estimation.Cettefaçonde faire s'estd'ailleursattiréede
critiquesen hydrologe (e.g.Landwehret al. (1987),Bobéeet al. (1993),Fortin
nombreuses
(1994)) et ce notammentpuisqueI'on fait alorsI'hypothèsenon vérifiableet doncdifûcilement
justifiableque les débitsde cruesappartiennent
à une distributionparenteconnueD. Dansce
document,nousemploieronsla notiondeprécisionde I'estimation pour faire référenceà toute
mesured'incertituden'incluantpasI'incertitudede modélisation.
68
unemesuredeI'incerplusopportund'avoir ennotrepossession
En pratique,il estgénéralement
titudehydrologique,c'est-à-direunemesurequi n'inclut passeulementles incertitudeséchantillonnaleet d'estimationmais aussiI'incertitudede modélisation.Une revuesommairede la
littératurehydrologiqueindiqueque V/eberet al. (1973) ont été les premiersà discuterde
I'importancede tenir comptede I'incertitudede modélisationlors de l'évaluationdesmodèles
importantde se rappeler
hydrologiques.Ces auteursmentionnentainsi qu'il est extrêmement
quetouteprédictionà partir d'un modèleest conditionnelleà la formedu modèle(responsable
de I'incertitudede modélisation)ainsiqu'à la méthoded'estimationdesparamètres(reliéeaux
et d'estimation)de ce modèle.
incenitudeséchantillonnale
Weberet al. (1973)indiquentqu'un modèleest sujetà deux sourcesdistinctesd'erreur : une
ou biais et uneerreuraléatoireou variance.Ils utilisentle termeaccuracy
erïeursystématique
(exactitude)pour faire référenceà la qualitéqu'un modèlea de produiredes estimationsnon
biaisées(sansbiais de modélisation)alorsqueletermeprecision(précisionde I'estimation)fait
plutôt référenceà la qualité de produireces estimationsavecune faible variabilité.Un point
importantà prendrealors en considérationest qu'il est possibled'améliorerla précision(de
la taille de l'échantillonservantà sacalibrationou en
I'estimation)d'un modèleen augmentant
alorsqueI'exactitudede ce modèlene peut
utilisantdesméthodesd'estimationmieuxadaptées
êtreamélioréequ'en changeantla forme de celui-ci. Il estdoncimportantet mêmenécessaire
lors de l'évaluationde modèlesde tenir comptede cesdeuxsourcesd'erreur(aléatoireet systévarierla précision
matique)puisquedesméthodesd'estimationdifférentesferontgénéralement
deI'estimationdu modèle(partiealéatoire)alorsquedifférentesformesdemodèlesferontplutôt
varierI'exactitudede celui-ci (partiesystématique).
à la section2.3.3,nousproposonsI'emploi,
Par analogieaux mesuresde précisionprésentées
à I'estimationde Qr, de I'erreurquadracommemesurede l'incertitudehydrologiqueassociée
tiquede prédiction(EQP):
pQp(ôr) : n{ri]t' : E{Qr - Qr}t
(4.2)
I'erreurdeprédiction.Mentionnonsquela différenceentreI'EQR
où €Ë: Qr - Qr représente
deI'erreuren4.1 estcalculéepour
définieen4.2,et IJEQM, définieen4.1,estqueI'espérance
le
deserreursobtenueslors de I'estimationdeQy sousI'hypothèsequeI'on connaîtexactement
de l'erreur en 4.2 estplutôt calculéepour desereurs
modèle(sa forme) alors que I'espérance
obtenues
sousl'hypothèsequele modèleestinconnuou inexact.En hydrologie,unetellemesure
de I'EQP peutêffe obtenue,par exemple,en simulantdeséchantillonsà I'aide d'une loi parente
possiblesde lois parentes
généraleD maisen estimantplutôt à I'aide de diversescombinaisons
w
LA RÉGIONALISATIONDESQUANTILESDE CRUE
D' (différentesde D) et de méthodesd'estimationM. Dansla littératurehydrologique,on quad'estimationpossédantles plus faibles
lifie alors de robustes(Kuczera,I9SZ) les procédures
constitueprésentement
unepropriétéqui reçoit une attentionbien méritée
EQP.La robustesse
de la part deshydrologuespour la comparaisonde diversesprocéduresd'estimationparamétriques.Dansce document,nousprivilégieronsI'emploi du termeprécision prédictive,plutôt
pour faire référenceà cettemesurede I'incertitudehydrologique(i.e. incluant
que robustesse,
l' incertitudede modélisation).
4.2 Llanalyselocale de la distribution des crues annuelles
4.2.1 Les objectifs
L objectif premierde I'analyselocale (au sitejaugé)de la distributiondescruesannuellesest
la plusprécisepossibledela distributiondefréquenceréellecumud'obteniruneapproximation
à I'aide de la série(rr,rr,...,rn) desDMA disponibleau sitejaugé
LéeF descruesannuelles,
où I'on désireproduireune estimation;n est le nombrede valeursdu débit maximumannuel
dansl'échantillon.De manièregénérale,cetteestimationa pour objectif I'estimation,au site
jaugé,desquantilesde crueQr ou, dansun contexted'analyserégionale(voir la section4.3),
de paramènesde cettedisnibution.
4.2.2 Les hypothèses
Avec I'approchede modélisationdes cruesannuelles,on ne considèrequ'une seulecrue par
annéecorrespondantà la valeur maximale du débit atteinteau cours de cette année.On fait
ensuiteI'hypothèseque le débit maximumannueld'une annéequelconqueest une variable
aléatoireX issued'une populationP ayantune fonction de densitéde probabilitécumulée
stationnaireF telle que :
.F(r)-PrlX<rl
(4.3)
Seloncetteapproche,l'amplitudeQ7 du débit de la crueayantune probabilitéau dépassement
au coursd'une annéedonnéecorrespondau
préalablement
définiep : 1/T d'être dépassée
(1 - p)ièmequantilede la distributiondesdébitsmaximumsannuels,soit :
Qr: F-'(1 - p) - F-'(1 - Vr)
(4.4)
Aprèsavoir extraitd'une sériede débitsjournaliersmesurésles débitsmaximumspour chaque
hypothèses
de
il estnécessaire
de vérifierquela série(r1, 12,...,r,r) respectecerfaines
années,
70
Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesdecrue...
baseafinqueI'analysedefréquencelocalesoitthéoriquement
acceptable.
On doit alorss'assurer
que(Bobéeet Ashkar,1991;Roy, 1993):
l. le débit est naturel, c'est-à-direque les fluctuationsdesobservationssont naturelleset
non induitesartificiellement(réservoircontrôlé,rivière régularisée,etc).
2. lesobservationsde l'échantillon (ordonnéeschronologiquement)sont indépendantes.
maissi,
Généralement,
les valeursmaximumsannuelsde débitsne sontpasautocorrélées
par exemple,une crue(au senslargedu terme)se produisaità la fin d'une annéedonnée
ne serait
et sepoursuivaitjusqu'audébutdeI'annéesuivante,I'hypothèsed'indépendance
pasrespectée.
3. ltéchantillon est homogène,c'est-à-direque la populationP descruesannuellesn'est
par
qued'élémentshomogènes
causées
soitpar exemple,descruesprintanières
composée
par desprécipitapar desouragans,descruescausées
la fontede neige,descruescausées
tionsextrêmes,etc.
4. la sérieeststationnaire,c'est-à-direquelesprobabilitésdedépassement
annuellesne varient pasaveclesannées.On rejette,parexemple,I'hypothèsequ'il peuty avoirdescycles
(changements
de la
climatiquestelsle réchauffement
hydro-météorologiques
interannuels
planète,phénomènes
du typeEl-Nifro,etc.).
5. la série est dépourvue de valeurs singulières.Il arriveparfois quedeserreursgrossières
de mesureou de transcriptionseproduisent.Il faut alorsretranchercesvaleursde l'échantillon.
4.2.3 Lfestimation de ta distribution des crues annuelles
LorsqueI'on disposed'un échantillond'observationsde DMA homogèneset indépendantes
permettant
utiliséespar
(rt,*r,...,ïn), deuxapproches
I'estimationde F sontprincipalement
d'estimationà l'aide d'uneformuledeprobabilité
leshydrologues: I'approchenonparamétrique
classiqueconsistant
empirique(FPE)ou d'une techniquede lissageet I'approcheparamétrique
à ajusterune distributionparamétriquestatistique.F'(r;9) où O représentele vecteurde paramètresde cettedistribution.
4.2.3.1 Llapprochenon paramétrique
de la distributionF sontbaséessur I'ordre
Plusieursméthodesd'estimationnon paramétrique
on
qu'occupechaqueobservation
dansl'échantillonclassédesdébits,noté (c1r1,û(z)t...tr1rr1).
peutobteniruneapproximationde F(rU) à I'aide d'une fonctionde i et de n appeléeformule
7l
de probabilité empirique (FPE)(plottingposition)dont la formegénéraleestdonnéepar :
(4.s)
F(r<nt):;ffi,
où a estuneconstante.Le tableau4.1 présenteles FPEles plusemployéesen hydrologie.
Tls. 4.1: Formulesde probabilité empirique (tiré de Bobéeet Ashkar (1991))
Référence
Nom de la formule
Hazen(a - 0,5)
F(r1ry)#
:
Hazen(l9Iaa)
V/eibull(a : 0)
F ( r t r l ): 1
Weibull(1939)
(a : 0,3)
Chegodayev
F(*u):m
Chow(1964)
C u n n a n(a
e :0 ,4)
F(ro):m
Cunnane(1978)
parinterpolationlinéaire.
on procèdegénéralement
PourI'estimationendespointsnonobservés,
L'estimationpar uneFPEselimite alorsauxcasoù T- llT estinférieurà F(r1"y). En pratique,
utilisée,commel'indique d'ailleurs son appellation
I'estimationpar FPE n'est généralement
anglaise,quepour produireun graphiquedela relation entreles valeursde crueobservéeset leur
(ou périodederetour)associée.Cegraphiquepermetéventuellement
probabilitéde dépassement
de vérifier I'adéquationde fonctions"F'paramétriquesaux fréquencesobservées(selonla FPE).
Une autre approchenon paramétriqueapparuedans la littérature hydrologiqueau milieu des
annéesquatre-vingtpour I'estimationde la distributiondescruesannuellesest I'approchepar
d'unefonctionde densitéou
lissage.Quece soit pourI'estimationd'unefonctionderégression,
par lissagepoursuit
d'unefonctionde répartition,I'approchede modélisationnon paramétrique
toujoursle même objectif soit celui d'estimer,avecune erreurqui diminue lorsquela taille
deséchantillonsaugmente,unefonctioninconnueet arbitrairedesdonnées;chaqueestimation
(Lall, 1995).La
étantlocale,c'est-à-direinfluencéeseulementpar les donnéesenvironnantes
philosophieest aussila même: I'informationseretrouvedansles donnéeset il faut les laisser
nousindiquerla forme de la vraie fonctionde densité(ou de répartition)des crues.De plus,
les différentestechniquesde lissageprésentéesau chapitre2 peuventêtre appliquées,presque
pour I'estimationdefonctionsde densitéou de fonctionsde répartition.
intégralement,
72
L'approchede modélisationnon paramétriquepar lissagecomportedeux étapes: (1) le choix
d'une méthodeparticulièrede lissage,appeléun lisseuret (2) le choix d'une méthoded'ajustementdu niveaude lissage(e.g.le choix du typede noyau,de la taille du voisinage,etc.).Dans
une revuedesprincipalesapplicationshydrologiquesdesméthodesd'estimationnon paramétrique,Lall (1995)mentionnequeYakowitz(1985)et Adamowski(1985)ont étélespremiers,
I'estimationpar
au congrèsde I'AGU de I'automne1983,à introduirede manièreindépendante
noyaupour I'estimationde distributionsde crues.En hydrologie,on a utilisé différentstypes
de noyau : noyaufixe de type rectangulaireet de Cauchy(Adamowski,1985),noyaufixe de
Gumbel(Bardsley,1989),noyauvariable(Adamowski,1989).On a aussiutilisédifférentesméthodespour choisirla fenêtreoptimale: méthoded'Adamowski(Adamowski,1985),validation
croisée(Adamowskiet Feluch,l99I; Gingraset al., 1995),validationcroiséepar maximumde
(Adamowski,1989),validationcroiséepar moindrescarrés(Adamowski,1996).
vraisemblance
De plus, on a lissétantôtla fonctionde densité(Adamowski,1989),tantôtla fonctionde probabilitéempirique,aussiappeléefonctionde quantile(Moon et Lall, 1994;IVu et Woo, 1989).
Une desseulesexceptionsà I'utilisation du lissagepar noyaurevientà Wu et V/oo (1989)qui
ont proposéI'utilisationdessériesdeFourier,uneméthodedela famille dessériesorthogonales,
pour le lissagede la fonctionde probabilitéempirique.
4.2.3.2 l/approche paramétrique
L'approcheparamétrique
d'estimationde f' comporteaussideux étapes.La premièreconsiste
à choisir une distributionD pour représenterles débitsmaximumsannuels.Chaquedistribupar unefonctionde densitéde probabilitécumuléedifférente
estcaractérisée
tion paramétrique
de la distributionD. En utilisantla relation
le vecteurdesparamètres
F(c; 9), où O représente
en (4.4),on obtientalorscommeexpressiondu quantilede crue :
Qr :F-1(1 -p; o) : f'-r(l - lr
;@)
(4.6)
La deuxièmeétapeconsisteà obtenir I'estimateurO du vecteurde paramètresO, à partir de
M. Puis,enreml'échantillon(rr, fizt...,rr,) desDMA, en utilisantuneméthoded'ajustement
plaçantle vecteurde paramètresO par sonestimateurô dans(4.6),on obtientI'expressionde
l'estimateurlocal paramétrique
du quantilede crue:
Q , : F - t ( 1- p ; ô ) : r ' - 1 ( 1- l r ; 6 )
(4.7)
LA RÉGIONALISATIONDES QUANTILESDE CRUE
73
En hydrologiestatistique,plusieursdistributionscombinéesà diversesméthodesd'estimation
ont étéutiliséespour approximerla distributiondescruesannuellesou de madesparamètres
rehydrologiquesextrêmes.De nombreuses
nièreplus générale,la distributiond'événements
vuesde cesdiversesdistributionset méthodesd'estimationont d'ailleurs déjàété effectuées
(e.g.Greis(1983),Potter(1987),Cunnane(1987),Bobéeet Ashkar(1991),Stedingeret al.
qu'enhydrologie,laloi normalesemble
(1993),Bobéeet Rasmussen(1994,1995)).
Soulignons
avoirétéla premièreloi à êtreemployéepar Horton(1913).Parla suite,réalisantqueles séries
de cruesannuellesétaientasymétriques,
Hazen(1914b)a montréque la loi log-normaleajushistorique,la loi de Gumbel
tait mieuxles sériesde cruesannuelles.Puis,dansuneperspective
(aussiappeléeloi de valeurextrêmede type 1 (EVl)) a probablement
été,par la suite,la loi la
1994).Au débutdesannées
plusutiliséepourdécrirelesdonnéesdecrues(Bobéeet Rasmussen,
de la f,onctionde densitéde probabilitédes
quarante,
réalisantquela rapiditédela décroissance
avecles
lois usuelles,pour lestrèsgrandesvaleursde la variable,s'avéraitparfoisen désaccord
observations
empiriques,Halphen(1941)a proposéde nouvelleslois de probabilitéà 3 paramètres(lois de typeA et B) et Morlat (1956)en a présentéuneextensionpourobtenirla famille
deslois de Halphen(typesA, B et B-\. Toutefois,en raisonde la complexitéde la formeanade
lytiquede leur fonctionde densitédeprobabilité,l'ajustementdeslois deHalphennécessitait
laborieuxcalculsce qui, à cetteépoque,a fait en sortequ'ellesn'ont pasretenuI'attentiondes
(e.g.log-normale,Gumbel,etc.) sontgénépraticiens.De nosjours, les lois à deuxparamètres
desvaleurs
par d'auffesdistributionsplus flexiblestellesla loi généralisée
ralementremplacées
extrêmes(GEV) (Jenkinson,1955)ou la loi log-Pearsonà 3 paramètres(LP3) (Bobée,1975).
au Royaume-Uni(NERC, 1975)alors
L applicationde la loi GEV estd'ailleursrecommandée
qu'auxÉtats-Unis(USWRC, 19Sl) et en Australie(IEA, 1987),la loi LP3 proposéedès 1968
(Benson,1968)estimposée.
méthodesd'estimation
Pour I'estimationdes distributionsde cruesannuelles,de nombreuses
ont été employées.Notonsqu'uneproblématiqueparticulièreà I'estimationde la distribution
entre20 etTA
descruesannuellesestla faible taille deséchantillonsdisponibles(généralement
à I'aide de la
s'effectuaitprincipalement
Durantles annéessoixante,l'estimation
observations).
ou par moindrescarrés,la FPE à
méthodedesmoments(MM) ou en ajustant,graphiquement
(MMV) était aussiutilisée
la distributionF(r;O). La méthodedu maximumde vraisemblance
(LN2) et la loi de Gumbel.Durantles
pour la loi log-norrraleàZparamètres
occasionnellement
annéessoixante-dix,la MMV estdevenuepluspopulairesn raisonnotamment,de sonefficacité
asymptotique,
bien queI'on ait déjàobservédesfaiblessesen présenced'échantillonsde faible
taille ou lorsquela loi retenuen'ajustaitpasbien les observations(Fill, 1994).Diversesmé-
desquantilesde crue ...
à la méthodeclassiquedesmoments(i.e.la méthodedesmomentsmixtes,
thodess'apparentant
pour I'estimationde lois
etc.) ont aussiété développées
la méthodedes momentsgénéralisés,
hydrologiques(voir par exemplele livre de Bobéeet Ashkar(1991)).Depuisle débutdesannéesquatre-vingt,une méthodea plus particulièrementretenuI'attentiondeshydrologues: la
méthodedesL-moments(Hosking,1990),présentéeà I'annexeA, qui se dérivede la théorie
desmomentspondéréspar probabilités(Greenwoodet al., 1979;Hosking,1986).La principale
de l'estimationà I'aide de L-momentsest que I'on accordeune moins grande
caractéristique
lors de I'estimationdesL-momentset des
importanceaux grandeset aux petitesobservations
ratiosde L-moments(l'équivalentdesmomentset desratiosde moments).Ceci se traduit par
desestimationsmoinssensiblesà la présencede valeurssingulièresdansles échantillonset par
enprésenced'échand'une plus granderobustesse
le fait même,à desestimationsgénéralement
tillons de petiæ taille. Toutefois,selonBernier (1993),pour l'estimationde quantilesélevés,
cetteapproched'estimationpeutêtretrop robustedansla mesureoù I'on accordepeud'importanceà desinformationsimportantesprovenantde la queuede la distributionparente.Enfin,la
de la loi de Halphenet ce,
récemmentpourI'ajustementdesparamètres
MMV a étéressuscitée
de la MMV pour I'estimationdesparamètres
intéressantes
en raisondespropriétésstatistiques
d'une loi de la famille exponentiellepour laquelleil existedesstatistiquesexhaustives(pour
plusde détails,voir Perreaultet al. (1999a,1999b).
4.2.4 Le choix d'une procédure dtestimation locale
Puisquela crue d'une rivière est la résultanted'une multitudede facteurset de phénomènes
physiquesdu bassinversant,contriphysiquescomplexes(conditionsmétéo,caractéristiques
...), il est en pratiqueimpossiblede déterminerthéoriquementla
butiondeseaux souterraines,
distributionstatistiqueréelle du débit maximumannuelet mêmesi tel était le cas,elle serait
pour avoir unequelconqueutilité en pratique
d'un trop grandnombrede paramètres
composée
(Stedingeret al., 1993).L objectif premierde I'analysede la distributiondescruesannuelles
estdoncd'obtenirla meilleuredistributionapproximativepossiblede la distributionréellemais
dansle domained'intérêt
inconnueF desdébitsmaximumsannuelset ce,plusparticulièrement
de la variablealéatoireX (i.e.prèsde F(Qr) pour I'estimationde 8r).
En hydrologie,Cunnane(1987)a étéun despremiersauteursà élaborersurlescritèresà prendre
c'est-à-dire
en considérationlors de la sélectiond'une procédured'estimation(paramétrique),
d'unecombinaisonD/IVI(distribution/méthoded'estimation).Cunnane(1987)a ainsiintroduit
les notons de capacitédescriptiveet prédictive d'une distribution.SelonCunnane(1987),un
stamodèlepossèdeunebonnecapacitédescriptives'il permetde préserverles caractéristiques
LA RÉGIONALISATIONDES QUANTTLESDE CRUE
75
prédictivesfont plutôtréférence
alorsquelescapacités
tistiquesdesdonnéesde cruesobservées
les
aux propriétésstatistiques
desestimateursdesquantileset ce, en ignoranttemporairement
queI'emploi par Cunnane(1987)du termeprédictifestinconRemarquons
donnéesobservées.
En effet, au sensoù nous
sistantavecla notionde précisionprédictivedéfinieprécédemment.
I'entendonsdansce document,la notionde capacitéprédictiveconstitueunemesurede la précision de I'estimationet non de la précisionprédictive.Par ailleurs,selonnotreterminologie,
la
la notion de capacitédescriptiveconstitueune mesurequalitativepermettantde soupçonner
présenced'un biaisde modélisation.
desquantilesles plus couramDansla littératurehydrotogique,une despropriétésstatistiques
mentutiliséescommemesurede la capacitéprédictive(au sensde Cunnane(1987) d'uneprocédured'estimationestI'erreurquadratiquemoyenne(ou la racinecarréede celle-ci),définieà
l'équation4.1. Rappelonsquepuisqu'enpratique,la vraie valeurde Qr estinconnue,une approchegénéralement
employéepour le calcul de I'EQM consisteà simulerdeséchantillonsde
taille prédéterminée
n à partir d'une distributionparentequelconqueD (on connaîtalors8r)
et à estimerQs à I'aide d'une méthodeparticulièred'estimationM et de la loi parenteD utiliséepour les simulations.Cetteapprochea étécritiquéeen raisonnotammentde la non prise
en comptede I'incertitudede modélisation.Rappelonsenfinqu'unevéritablemesurede la prédesprocédures
d'estimationpeutêtreobtenueen simulantdes
cisionprédictive(ou robustesse)
échantillonsà I'aide d'une loi parentegénéraleD maisen estimantplutôt à I'aide de diverses
combinaisonspossiblesD'/I\d. Mentionnons,de plus, que rien n'empêched'utiliser cetteapprochede simulationproposéepour évaluerla précisionprédictivedesprocéduresd'estimation
quenon paramétriques.
tant paramétriques
parla fonction
PourI'estimationlocaleddsquantilesdecrue,la formedu modèleestreprésentée
de répartitioninverse.F'-1(1- LlT.) (cf. éq.4.4).Laprécisionde I'estimationd'un modèlene
peutêtreamélioréequ'enaugmentant
la taille de l'échantillonservantà sacalibrationou enutilisant desméthodesd'estimationmieux adaptées(cf. 4.1.1).L'exactituded'un modèlene peut
quantà elle êtreamélioréequ'en changeantla formede ce dernier(cf. 4.I.1). Examinonsmaintenantl'évolution desdifférentesprocéduresemployéespour I'estimationlocaledesquantiles
de crueen tenantcomptede cesnotionsd'exactitudeet deprécisionde I'estimation.
ou non) du modèle,on peut
D'abord, en ce qui concernele choix de la forme (paramétrique
remarquerque pour I'obtentionde meilleuresqualitésdescriptives(c'est-à-direreproduirele
statistiques(coefficientde variation(CV), coefficientd'asymieux possibleles caractéristques
métrie (CS), etc.) deséchantillonsobservés),on a eu recoursà des lois possédantde plus en
76
le caslimite étantI'applicationdu lissageoù I'adéquationavecles données
plus de paramètres,
pourI'emploid'une
peutêtrepresqueparfaite.D'ailleurs,unemotivationmentionnée
observées
procédurenon paramétriqueest que ce type d'estimationpemet I'estimation(puisquefortement descriptive)de fonctionsde densitémultimodalesauxquelleson fait mêmeun lien avec
différentspouvantcauserles crues(Gingraset Adamowski,1993;
le nombrede mécanismes
Adamowskiet al., 1994;Moon et Lall, 1994).
De manièregénérale,on remarqueque le prix à payerpour I'utilisation de lois avecde plus en
estcependantunediminutiondesqualitésprédictivesdesmodèles.En effet,
plus de paramètres
(1994)rapportequedesrésultatsde Kuczera(1982)et d'autreschercheurs
Bobéeet Rasmussen
de meilleursrésultats
dequantilesindiquentquegénéralement,
desestimateurs
surla robustesse
de la réalité,avecdeslois à 2 parasontobtenus,pour destailles d'échantillonsreprésentatifs
De plus,mêmepourdeslois à valeursde CS fixées(commela
mètresplutôtqu'à 3 paramètres.
loi EVl) pour lesquellesdesestimationsfortementbiaiseespeuventêtreproduites,la diminuplus quecontrebalance
tion au niveaude la varianceen raisond'uneparcimoniede paramètres,
desestimationsplus robustes.
I'effet du biaiset produithabituellement
En ce qui concernele choix d'une méthodeparticulièred'estimation,il semblequela méthode
desL-momentsprocureles meilleursrésultatsau niveaude la précisionde I'estimation.On
devraitaussis'attendreà ce que cetteméthodesoit aussiefûcace,en raisonde la taille des
disponible,auniveaudelaprécisionprédictivesaufpeut-être,comme
échantillonsgénéralement
I'indique Bernier(1993),dansle casde I'estimationde quantilesélevésoù un biais de modélisationrisqued'être introduit par la non priseen compted'informationsimportantesdansles
queues.
En conclusion,mentionnonsque I'analyselocalede la distributon descruesannuelles(ADC)
publicationsau coursdesdernièresdécennieset demeureun sujet
a fait l'objet de nombreuses
Lors du d.ernierRapportNationalpréd'intérêt et de grandeimportancepour les chercheurs.
sentéà la InternationalUnion of GeodesyandGeophysics(IUGG) traitantdesdéveloppements
(1995)ont fait remarquerquela recherche
récents(199I-1994)de I'ADC, Bobéeet Rasmussen
Ils mentionnenten effetquedusurI'ADC a variéenintensitéaucoursdesdernièresdécennies.
rant les annéessoixante-dixet quatre-vingts,les efforts ont étéconcentréssur le développement
réalisantde
efficacesd'estimationauxsitesjaugés.Puis,les chercheurs
denouvellesprocédures
plusenplusquele manqued'informationdisponibleauxsitesjaugés(i.e. unegrandeincertitude
causéepar desdonnéesen nombreinsufÊsant)limite le degréde sophistication
échantillonnale
maintenant
dad'estimation,on s'intéresse
quepeuventatteindrede façonjustifiéecesméthodes
t!
vantageaux méthodespermettantl'intégration d'information supplémentaire.Il est par exemple
possibled'utiliser I'information sur des crues survenuesavant la période de jaugeage (information historique). Cette information peut provenir des souvenirsdes résidentsde longue date, de
documentsou de journaux publiés avantla période de jaugeage(Taskeret Stedinger, 1987).Des
techniquesde paléohydrologie permettent aussi d'obtenir de I'information supplémentaireen
étudiant le mouvement de I'eau à travers les dépôts sédimentaires(Stedinger et Cohn, 1986).
Dans ce travail, nous nous intéressonsplutôt à I'intégration de I'information régionale à I'aide
de méthodesd'analyse régionale de la distribution des crues.
4.3 L'analyse régionalede la distribution descrues annuelles
4.3.1 Les objectifs
(1) pour
(ARDC) a été développée
L'analyserégionalede la distributiondescruesannuelLes
permettreI'estimationde Qy,le débit ayantune périodede retour de T années,en dessites
non jaugéset (2) pour améliorerla précisiondes estimationsen des sitescontenantpeu de
qu'au premier objectif, c'estdonnées.En ce qui nousconcerne,nousne nous intéresserons
à-direà I'estimationde Qr en dessitesnon jaugés.Ce type d'estimation(site non jaugé) est
d'ailleurs,et de loin,le casle plusrencontréen pratique(Linsley,1986).
L'ARDC consisteà utiliser desprocéduresde régionalisationafin de transférerl'information
disponibleen dessitesjaugésversle sitenonjaugé, appeléle site cible, où I'on désireproduire
une estimation.De manièregénérale,une procédurede régionalisationcomportedeux étapes
distinctesqui consistentà (1) choisirles sitesjaugésà partir desquelss'effectuerale ffansfert
d'informationet (2) appliqueraux siteschoisisun modèlede transfertd'informationrégionale,
un modèlerégionalestuneéquationou un enaussiappeléle modèterégional.Généralement,
de crued'unerégion.
sembled'équationsqui reliententreellesuneou plusieurscaractéristiques
L'ARDC consisteà modéliserla variabilitédescruesdansI'espaceplutôt quedansle temps.La
de cruescalculéesaux sitesjaugésestcomposée:
variabilitéentreles caractéristiques
(physiographiques
et
1. de variabilité spatiale dueaux différencesentreles caractéristiques
desbassinsversants,
météorologiques)
2. devariabilité temporelledueà l'échantillonnageauxsitesjaugés,et
3. d'unepart inconnuede variabilité due aux erreurs de modélisation.
78
SelonRiggs (1990),une procédurede régionalisationdevrait expliquer,le plus précisément
possible(i.e. avecla plus petiteeneur de modélisationpossible),les variationsduesauxcaractéristiquesdesbassinsversantstout en "moyennant"les variationsduesà I'échantillonnage
aux
sitesjaugés.Ainsi, en régionalisation,I'intérêt devraitêtre accordéprincipalementau modèle
régional(reliéà 1.)plutôtqu'aumodèlelocalQy : f'-l(1 - VT.) (reliéà 2.) employé.
4.3.2 Le choix des sites
Avant de pouvoir transférerau site cible I'informationrégionaleprovenantde sitesjaugés,il
estprimordialde bien choisir les sitesjaugésà partir desquelss'effectuerale tnansfertd'information régionale.À cette étape,l'hydrologuedoit répondreà la questionsuivante: de quels
sitesprovientl'information permettantd'estimerde la meilleurefaçon possiblele modèlede
transfertapplicableau sitenonjaugé? Uétapedu choix dessitescomprendgénéralement
deux
sous-étapes.
La premièreconsisteà regrouperdifférentesstationsafin de former desrégions
hydrologiques.Ilfaut ensuiteassignerla stationnonjaugéeà unede cesrégionsainsiformées.
Uétapedu regroupement
de sitesen régionsconsisteà définir et déterminer{1) desrégionsdont
les stationsont un comportement
hydrologiquesimilaireou (2) desrégionshomogènes,
c'est-àdire desrégionsdont les stationsont unede leurscaractéristiques
de crue,généralement
le CY
constanteà l'échellerégionale.Rappelonsquedansla littératurehydrologique,lesnotionsde similaritéhydrologiqueet d'homogénéitérégionalesontgénéralement
confondues(cf. 1.1.2pour
une distinctiondétaillée).Dansce document,nousemploieronsla terminologierégion hydrologique lorsqu'il ne serapasnécessaire
de distinguerentrehomogénêité
régionaleet similarité
hydrologique.
Un projetderechercheaétémenépar uneéquipede scientifiquescanadiens(GREHYS,1996a,
1996b)afin de comparerles principauxmodèlesd'estimationrégionaledes cruesutilisésen
Amériquedu Nord. Les résultatsde f intercomparaison
indiquentque, pour l'étape du choix
des sites,la méthodede la région d'influence(Burn, 1990a;Znnji et Bum, 1994)et la mé(Cavadias,
thoded'analysedescorrélationscanoniques
1989,1990;Ribeiro-Corréa
et al., 1995;
Ouardaet al., 1997)se distinguentdesautres.Nousprésentonsun aperçu,inspiréde Ouarda
et al. (1999),desprincipalesméthodesde déterminationde régionshydrologiquesemployées
et décrivonsbrièvementla méthodedesrégionsd'influenceet de I'analysecanoniquedescorrélations.Pourunerevueplus détailléede l'évolutiondesprocéduresde déterminationde régions
hydrologiques,
voir parexemplela section1.3.1deRoy (1993).
w
4.3.2.1 Les méthodesde déterminationde régionshydrologiques
On distinguedeuxtypesd'approchepourla déterminationderégionshydrologiques:
1. approche baséesur des régionsfixes : ensemblede stationsformantune mêmerégion
:
peuventêtreconsidérés
hydrologique.Deux sous-groupes
peuventêtre dét Régionsgéographiquement
contiguës.Cesrégionsgéographiques
finies a priori par desdélimitationsterritoriales(États,provinces,...) ou administratives(régionsdu USGS(cf. 5.1)). Ces régionspeuventaussiêtre définies,par
exemple,à partir d'uneanalysedu signedesrésidusde modèlesde régression(Jendes
nings et a1.,1994)ou à partir de la similaritédesdensitésnon-paramétriques
débitsde crue(Gingraset Adamowski,1993).
définiesen fonctionde la sio Régionsnon-contiguës.
Cesrégionssontgénéralement
Cesrégionspeuvent
physiqueseUouhydrologiques.
milaritédeleurscaractéristiques
par exemple,par une analysediscrirninante(DeCoursey,1973),
être déterminées,
(White, 1975),une analysede regrouune analysefactorielledescorrespondances
pement(clusteranalysis)(Mosley,1981;Tasker,1982),etc.
2. approche baséesur des régions du type voisinage: où on associeà chaquestation
cible son proprevoisinage.La méthodede la régiond'influence(Burn, 1990a;Znnji et
Burn, t994) définit la proximitéde deux sitespar une distancedans un espacemultiet
physiographiques
hydrologiques,
dimensionneldont les axessontdescaractéristiques
Les voisinagespeuventaussiêtre définispar une analysedescorrélamétéorologiques.
tionscanoniques(Cavadias,1989,1990).
4.3.2.2 l/assignation de la station cible aux régions hydrologiques
ou selonuneapprochede
selondescritèresgéographiques
Lorsqueles régionssontdéterminées
voisinage,le problèmede I'assignationde la stationcible à une régionparticulièrene se pose
sur la basede leurs
lorsqu'il s'agit de régionsdont les stationssontregroupées
pas.Cependant,
de définiruneapnécessaire
il estgénéralement
physiquesetlouhydrologiques,
caractéristiques
d'ailleursque pour l'assignationd'une stationnon jaugée
proched'assignation.Remarquons
survient:
où aucuneinformationhydrologiquen'est disponible,un problèmesupplémentaire
hydrologiquesde la stationnon jaugée.
il n'est pas possiblede déterminerles caractéristiques
lesméthodesdedéterminationde régionshydroloAfin detenir comptede cetteproblématique,
giquesconçoiventles similaritésdansI'espacedesvariablesphysiographiques/météorologiques
et non hydrologiques.On peut aussiavoir recoursà une analysediscriminante(Tasker,1982)
80
d'unestationnonjaugéeà unerégionpréalablement
afin d'établirla probabilitéd'appartenance
définie.Il est alorspossibled'assignerla stationà la régiondont la probabilitéd'appartenance
fractionnaire(Tasker,
est maximale.Une approchealternative,appeléconceptd'appartenance
1982;Wiltshire, 1986b),consisteà appliquerle modèlerégionalen chacunedesrégionset à
estimerle quantilede crueau site cible à I'aide d'une moyennepondérée(par les probabilités
desquantilescalculésen chacunedesrégionshydrologiques.
d'appartenance)
4.3.2.3 La méthodede la région d'influence
Selonla méthodede la région d'influenceproposéed'abord par Burn (1990a)pour des sites
ciblesjaugéspuis par ZlJlnjiet Burn (L994) pour des sitesnon jaugés,chaquesite cible est
considérécommele centrede sa propre région. Le critère permettantalors la sélectionde la
régiond'influenceestla distanceeuclidienne
daj:
f,,6[') - Y$)f
(4.8)
l=1
estune fonction de pondérationpermettantla
dansl'espacedesvariablesexplicativesX1 où u.r1
desvariablesexplicatives.La régiond'influenceau site i est alorsdéfiniepar
standardisation
I'ensembledessitesj tels quedii est inférieureà un certainpoint de coupure0t orl,lorsquece
point de coupureesttrop restrictif,par l'ensembledesK sitesayantles K pluspetitesdistances
d;j.où K estle nombreminimumde stationsdésiré.
Burn (1990a)proposeaussiI'utilisationd'unefonctionde pondération(fonctionnoyau)afin de
refléterla proximité relativedesdifférentssitesvoisinsdu site cible dont la forme est :
u;,j:l-
(#)"
(4.e)
de la fonctiondepondération.
où TP et n sontdesparamètres
4.3.2.4 La méthodednanalysedescorrélationscanoniques
permetd'identifier les sitesdont le régime
La méthoded'analysedescorrélationscanoniques
de crue est similaireau site cible (Cavadias,1989,1990;Ribeiro-Conéaet al.,1995; Ouarda
et al., Igg'1,1998).L'analysedes corrélationscanoniquesest un outil d'analysestatistique
multivariéequi permetde décrire la relation de dépendanceexistant entre deux ensemblesde
variablesaléatoires.Cetteméthodepermetde déterminerdespairesde combinaisonslinéaires
LA RÉGIONALISATION DES QUANTILES DE CRUE
81
de chaqueensemblede variables,que I'on appelledesvariablescanoniques,tellesque la corrélation entre les variablescanoniquesd'une paire est maximisée,et la corrélationentreles
variablesde pairesdifférentesestnulle. On obtientainsi un ensemblede variablescanoniques
pour les deux ensembles
à descoefÊcientsde corrélationcade variablesaléatoiresassociées
nonique.Il est alorspossibled'inférer sur les variablescanoniquesd'un ensembleconnaissant
les variablescanoniquesde I'autre ensemble.On peut aussicalculerune distanceentredeux
variablescanoniquesce qui permetde déterminerdesvoisinageshydrologiques.Lorsqu'onne
revientà une
I'analysedescorrélationscanoniques
disposequed'uneseulevariabledépendante,
analysede régressionmultiple.
Plusformellement,
on noteYT : (Yr,Yr,...,Yr)et X" : (Xt, X2,...,d) respectivement
la géomorphoet I'ensembledesvariablescaractérisant
l'ensembledesvariableshydrologiques
logie et la météorologiedesbassinsversants.On note W le vecteurde variablescanoniques
(À1,À2,...,)o) les coefficientsde
hydrologiques,V le vecteurde variablesphysiographiques,
corrélationcanonique,et Â la matricediagonaleforméepar lescoefficientsde corrélationcano'W
nique.On supposeque les vecteursdesvariablescanoniques et V suiventune distribution
multi-normale.La distributionconditionnellede'W étantdonnéV est alors p-normale.Par
par un vecteurcanosemblableset représentés
conséquent,desbassinsphysiographiquement
niquecorrmun V, serontrépartisautourd'une positionmoyenneÂV dansI'espacecanonique
hydrologique.La distanceà la positionmoyenneestconkôléeparla formequadratiquedela dispar une distancede Mahalanobisavecune distributiondu
tribution conditionnellereprésentée
Khi-deuxà p degrésdeliberté(X|). four lesbassinsnonjaugés,la positionmoyenneestdéterminée,en utilisantuneestimationde ^, par ÂVs où Vs estle vecteurcanoniquephysiographique
connu.On peutainsidéfinirle voisinaged'un bassinnon-jaugéà un niveaude confiance(1 - a)
par I'ensemblede bassinsdont la position'W dansl'espacecanoniquehydrologiquevérifiela
relation :
(w - Âvo;"1ro- ÂÂt)-t(\ / - Âv0) S x?*,o
(4.10)
où I o est la matrice identité d'ordre p.
4.3.3 Les principaux modèlesrégionaux
qu'en chacunedesN stationsdejaugeaged'unerégiondonnée,I'on disposed'une
Supposons
(r1, t2r "..,tnr) de DMA.
homogènes
et indépendantes
sériede tailleniU=l...ff)d'observations
I'on disposed'unesérie{X1,X2, ..., Xr) de
deplusqu'enchacune
decesN stations,
Supposons
82
du bassinversantde la station.Supp caractéistiques
physiographiques
etlou climatologiques
posonsenfin que I'on désireproduireune estimationd'un quantilede crue Qr en un sitenon
jaugé mais où I'on disposenéanmoinsdesp caractéistiques
physiographiques
etlou climatologiquesdu bassinversantdu site cible. Danscettesituation,deux approchesde modélisation
étéutiliséespar leshydrologues: la méthodede I'indice decrueet
régionaleont principalement
la méthodede la régressionrégionaledesquantiles.
4.3.3.1 La méthodede I'indice de crue
ThomasJr. (199a)rapporteque la méthodede I'indice de crue (indexflood) a êtédéveloppée
la méthode
durantlesannées
40 parlesingénieursdu USGS.Guptaet Waymire(1997)associent
à Kinnisonet Colby (1945)alorsque la majoritédesauteursfont plutôt référenceà Dalrymple
(1960)pour I'introductionde cetteméthodeen hydrologie.L hypothèsede basede la méthode
et suiventla même
est que les donnéesaux différentssites d'une région sont indépendantes
distributionstatistiqueà un facteurd'échelleprès.La méthodede I'indice de crue comprend
les données,c'est-à-direqu'à chaque
trois étapes.La premièreétapeconsisteà standardiser
en divisantpar un indicateur
site i et pour chaqueannéet, les donnéest6p sontstandardisées
de tendancecentrale(moyenne,médiane,etc.)1ti (l'indice de crue). À l'étape 2, les données
afin d'estimerla distributionrégionale
standardisées
ri,t/ltt, desdifférentssitessontregroupées
Fn(r;Ô) puisle quantilerégionalcorrespondant
ÔF : fit(t - llT;ô). fetape 3 consisteà
physiographiques,l'indice
parrégressionen foncton descaractéristiques
estimer,généralernent
de crueFs du sitenonjaugé^9où I'on désireproduireuneestimation(le sitecible).Le quantile
decruedésiré8ï u"site cible,Sestalorsobtenupar:
8*: QFp'
(4.11)
et suiventla
L hypothèsequeles donnéesaux différentssitesd'unerégion sont indépendantes
mêmedistributionstatistiqueà un facteurd'échelleprèséquivautà supposerquele coefficient
devariation(CV) et tousles autresratiosde momentsd'ordresupérieursontégauxà chacundes
sitesrégionaux.Une aufe hypothèseintrinsèqueà la méthodeestl'égalitédesquantilesdecrue
normalisésQi/ tt, en chacundessitesi d'où, pourunevaleurde 7 fixée,le modèlerégional:
a?rltt
Êo* et
(4.t2)
le quantilede cruenormalisérégionalmoyenet e6est la
où B0 est une constantereprésentant
composante
d'erreurdu modèle.
LA RÉGIONALISATION DES QUANTILES DE CRUE
83
Aux États-Unis,le USGSa d'abordutilisé la méthodede I'indice de crue durantles années
quaranteet ce,jusqu'au débutdes annéessoixante.Cependant,les étudesde Dawdy (1961)
et de Benson(1962)ont montréquepour plusieursrégionsdesÉtats-Unis,l'hypothèsed'un
CV tendà diminuerlorsqueI'aire
CV constantne pouvaits'appliquerpuisqueempiriquement,
desbassinsversantsaugmente.C'est pourquoile USGSa remplacéla méthodede I'indice de
régionaledesquantiles.Mentionnonsqu'à cetteépoque,le terme
cruepar cellede la régression
des
Avec le développement
régionn'était utilisé que pour désignerune région géographique.
où le CV est constantà l'échelle
méthodespermettantla déterminationde régionshomogènes
régionale,les critiquesdu USGSquantà la constancedu CV n'avaientplus leur raisond'être.
La méthodede I'indice de cruea alorsété réintroduiteen hydrologieet a fait I'objet de nouveauxdéveloppements
: nouvellesdistributionsrégionales,utilisationdes momentspondérés
par probabilités(réf. AnnexeA) plutôt que desmomentsordinaires,etc.La performancede la
méthodedépendcependantde deux facteursimportants: il doit être possible(1) d'identifier
desrégionshomogènes
et (2) d'assignercoffectementle site nonjaugéà uneréadéquatement
la méthodede
gion homogène.Guptaet al. (1994)mentionnentà cet effet qu'en abandonnant
la régression
régionalepourla méthodede I'indice decrue,on setrouveà transférerle problème
et non à le résoudre.Fill
del'estmation du modèleversla déterminationdesrégionshomogènes
et Stedinger(1998)indiquentquantà eux que I'applicationde cetteméthodepour I'estimation
en dessitesnonjaugésdemeureproblématiquepuisqu'il estsouventdiffrcile d'assignerun site
nonjaugéà unerégionhomogène.
4.3.3.2 La méthode de Ia régressionrégionale des quantiles
La méthodede la régressionrégionalepermetd'établir unerelationdirecteentreles quantiles
X1, Xz, ..., X, des
et météorologiques
decrueQr etlesvariablesexplicativesphysiographiques
bassinsversants.La méthodea I'avantaged'être simple,rapideet de permettred'utiliser des
les débitsde cruedanschacundessitesd'une
distributionsde cruedifférentespourreprésenter
mêmerégion.De plus, la méthoden'est pas sensibleà I'hétérogénéitéqui peut existerdansla
suivante:
En pratique,la fonctionayantla formede puissance
régionconsidérée.
Qr:aox{'xf'.xf'
(4.13)
utilisée.L'estimationdecettefonction
deparamètreseo,Êr, Ê2,... et Bo estlaplus généralement
non linéaire estgénéralementeffectuéeen utilisant unetransformatonlogarithmiquede façonà
obtenirle modèleclassiquede régressionlinéairemultiplesuivant:
los(Qb): go* Érlos(XT)+ gz\oe(xi)+... + Brtos(x|)+.n
(4.r4)
84
où É0,0t, 02,...rÉpsontdesparamètres
à estimeret e1estla composante
d'erreur.En supposant
une telle relationrégionale,il est alorspossibled'appliquerla techniquede régressionlinéaire
multiple pour l'estimationdesparamètresdu modèlede mêmeque pour le choix desvariables
explicatives.
Benson(1g62)a utilisé la méthodedesmoindrescarrésordinairespour l'estimationdesparapuisquela variabledépendante
mètresde (4.14).Cependant,
8r du modèlede régressionest
en réalitéun estimateurayantdéjà fait l'objet d'une estimationlocale,I'hypothèsede variance
constanteinhérenteà la méthodedesmoindrescarrésordinairesest peujustifiable.En effet,les
estimateurs
locauxdesquantiles,étantbaséssur destaillesd'échantillon(de DMA) différentes,
à la taille des échantillons.Afin
devraientavoir des variances(inversement)proportionnelles
de remédierà ce problème,il est alorspossibled'utiliser la méthodedesmoindrescarréspondérés(Stedingeret Tasker,1985,1986)qui tient comptede cesvariancesdifférentes.Un autre
problèmeassociéà I'utilisationde la régression
régionaleestqu'enraisonde la dépendance
spatiale entrelesstations,il estprobablequeleseneursdu modèlesoientcorrélées.La méthodedes
moindrescarrésgénéralisésa alors étéproposéepour faire faceà cetteproblématique(Stedinger
et Tasker,1985,1986).Enfin,un dernierproblèmerelatif à I'estimationrégionalepar régression
des quantilesde crue est la dépendancegénéralementobservéeentre les différentesvariables
explicatives.Afin de pallier à ce problèmede collinéarité,Roy et al. (1989)ont proposéI'utilisationde la régression
de (4.14).
ridgeafin d'estimerdemanièreplusappropriéeles paramètres
Mentionnonsenfinquel'équation4.14 supposeun termed'erreurmultiplicatif en 4.13.Nguyen
et Pandey(1994)ont utiliséun algorithmed'optmisationnon-linéaireafind'estimerdirectement
4.13 sousI'hypothèsed'un termed'erreuradditif.
4.3.3.3 Les principaux modèlesalternatifs
Au coursdesdernièresannées,de nouveauxmodèlesrégionauxsont apparusdansla littérature
Parexemple,réalisantquel'hypoafin de comblercertainesdeslacunesde leursprédécesseurs.
avecles relationsconnuesenffe
thèsede basede la méthodedeI'indice decrueestinconsistante
le CV et I'aire desbassinsversants,Fill et Stedinger(1998)indiquentquelesméthodesd'estimaobservéedesquantiles.decrue
tion régionaledevraientfaire intervenir davantagela dépendance
physiographiques
importantes.Ils
avecI'aire desbassinsversantset les auffescaractéristiques
par
proposentl'utilisation de la méthodede la régressiondesquantilesnormalisés,développée
Fill (1994),qui consisteà combinerles modèlesde I'indice decrueet de la régressionrégionale
desquantilesafin d'obtenirun modèledont la formeest :
L"s(T): 0o* Ê$i+ Êzxâ
+ ...+ Box|+ el
85
(4.1s)
Cemodèlepermetd'appliquerla notiondescalingpropreà la rnéthodedeI'indice decrueendes
régionaledu quantilenormalisé
pasnécessairement
I'hypothèsede constance
sitesnerespectant
(ou CV) puisquecelui-ci se trouvemodéliséà l'échelle régionalepar régressionlinéaire.On
dela méthodedeI'indice decrue
peutremarquerquecetteapprocheconstitueunegénéralisation
puisqu'enprésence
I'estimationdevraitconduireà Êt: 9z: ... : 0p:0.
d'un CV constant,
Considérantqu'il n'existe aucunejustificationpleysiqueà la sélectiond'une relationlinéaire
multiple entrele logarithmedes quantilesde crue Qr et les différentesvariablesphysiographiqueset climatologiquesdesbassinsversants,Gingraset al. (1995)proposentplutôt, pour
la modélisationrégionaledesquantilesde crue,I'utilisation de la régressionnon paramétrique
suivante:
log(Qh): r.r(Xl,Xâ,...,Xi) + et
(4.16)
où s est une fonction (courbeou surface)de régressionlisse (smooth)de forme non spécifiée
de lissageeteilacomposanted'erreur.Gingraset al.
aprioride dimensionp,.l estle paramètre
(1995)ont estiméle modèlede l'équation4.l6 à I'aide du lissagepar Noyaupour desfonctions
derégressionde dimensionp : I et p - l.
L'analyserégionaleestimplicitementou explicitementbaséesur la présenced'une distribution
de paramètresrégionauxO, d'où la relation
de probabilitédes cruesannuellesr' dépendante
(Rossiet Villani, 1994a):
Q r : F - ' ( 1- L l r ; o )
(4.r7)
de crue(paramètesde la distribution,mooù O estun vecteurde longueurp decaractéristiques
ments,ratiosdemoments,L-moments,etc.).Pourprocéderà I'estimationdeQr, denombreuses
étudesrégionales(e.g.Rossiet Villani (1994b)en ltalie, Mimikou (1990)en Grèce)consistent
à utiliser un modèlede transfert,par exemplede régressionrégionale,afin d'estimerchacun
desparamètres
de O au site cible. Le modèlede cetteapprochede régionalisationest doncreprésentépar un ensemblede p relationsrégionalesoù chacunea pour objectif de transférerun
paramètreparticulierde O au sitecible.
86
Modélisationadditivepar polynômeslocaux pour la régionalisationdesquantilesde crue ...
(e.g. Yevyevich(1974),Potter (1987),NRC (1988),
recommandations
Suite aux nombreuses
(1995))seretrouvantdansla littératureà I'effet que l'on devraitdévelopBobéeet Rasmussen
per davantageles approchesd'analysede la distributiondescruesbaséessur les phénomènes
purementstatistiques
descruesplutôtquelesapproches
responsables
hydrologiques(physiques)
Roy (1993)a développéla méthodeHYBRIIDS,uneméthodecombinantles
ou mathématiques,
statistqueet déterministe(physique)baséesurI'estimationstatistiquede donnéessiapproches
muléesà partir d'un modèledéterministede bassinversant.Guptaet al. (1994)ont quantà eux
régionaledescruesbaséesurlesnotionsd'invariance
développéunethéoriephysique-statistique
d'échellesimpleet multiple.
La théoriede I'invarianced'échellesimple supposela présenced'un CV constantet est donc
éffoitementreliée à la méthodede I'indice de crue.Pour les théoriesd'invarianced'échelle
proposéespar Gupta et al. (1994), seulel'aire des bassinsversants(A) est utiliséecomme
facteurd'échelle(= indicede crue).Il estpossiblede montrer(Guptaet al., L994)quelorsque
alors(1) la relationentrelog(A) et
d'invarianced'échellesimplesontrespectées
leshypothèses
log(Qr) estlinéaireet (2) la pentede cetterelationne dépendpasde T. En utilisantla notation
de I'aire sur les quantilesde crue, (1) et (2)
Qr@) pour insistersur la notion de dépendance
peuventsetraduirepar:
Qr(A) - c(T)Ao
(4.18)
où c(7) est un coefficientqui dépendde la périodede retourT alorsque I'exposantde miseà
il estalorspossible
ne sontpasrespectées,
l'échelle0 n'en dépendpas.Lorsqueceshypothèses
d'utiliser le modèled'invarianced'échellemultiple :
Qr@) :61714eQ)
(4.re)
pourlequelI'exposantdemiseà l'échelled dépenddeT. Avecle modèled'invarianced'échelle
à la
multiple,le CV varieen fonctionde l'aire desbassinsversantsselonla relationreprésentée
figure4.1. On peutremarquerla présenced'une relationdifférentepour les petits 1æ< 50km2)
et les grandsbassinsversants.Guptaet Dawdy (1995)ont étudiéles variationsrégionalesde
l'exposantde miseà l'échelle0 à I'aide deséquationsde régressionde trois Étatsaméricains.
Leursconclusionssuggèrentquepour les régionsoù les cruessontcauséesprincipalementpar
|a fonte de neige,I'hypothèsed'invarianced'échellesimplesemblevérifiéealorsquepour les
cruescauséesdavantagepar des épisodesde précipitations,le modèled'invarianced'échelle
multipledoit plutôt êtreemployé.
g
o
87
I
I
I
I
I
Ac
DninageArcaA
._..-€
Flc. 4.1: Variationrégionaledu CV en fonctionde I'aire (A) desbassinsversants(tiré de Gupta
et al., 1994)
Modélisationadditivepar polynômeslocaux pour la régionalisationdesquantilesde crue ...
5. APPLICATIONSET COMPARAISON
Dans ce chapitre,nousappliquonset évaluonsI'approchede modélisationadditivepar polynômeslocauxà trois régionshydrologiquesdesÉtats-Unis.Nous débutonsce chapite par une
description,dansla section5.1, desdiversesdonnéeset basesde donnéesutiliséespour la mode la méthodologie
délisation.Nouseffectuonspar la suite,dansla section5.2,uneprésentation
de I'approchede modélisationpar polynômeslocaux,de même
d'évaluationet decomparaison
Cetteméthodoloquedesdiversesapproches
de modélisationretenuespourfin de comparaison.
auxrégionsdu Texas,de la
gie estensuiteappliquée,dansles sections5.3 à 5.5,respectivement
et deI'Arkansas.Nousapportonsfinalement,dansla section5.6,certaines
Nouvelle-Angleterre
conclusionssurlesrésultatsobtenuslors de cesapplications.
5.L Présentationdesdonnées
Aux États-Unis,la gestiondu réseaude mesureshydrologiquesestassuréepar le UnitedStates
présentéau chapitre1, impliquédansle déveGeologicalSurvey(USGS),le mêmeorganisme,
loppementdes procéduresde régionalisationpour chacundes É,tatsaméricains.Au début des
annéesquatre-vingtdix, le USGS a regroupédiversesbasesde donnéesrégionalesde manière
à constituerunebasede donnéesnationaleafin de permettrel'étudedesconditionsde l'écoulement suiteà desfluctuationsde conditionsclimatiques.Cettebasede donnée,appeléeHydrodedébitsprovenantde 1659sites
ClimaticDataNetwork(HCDN),estconstituéed'observations
à traversles États-Uniset sesTerritoires(Slacket al., 1993).Le choix desdiverssitesde même
que desdiversesobservations
de débit a été effectuéde manièrerigoureuseen respectantdes
critèresprécissur I'exactitudedes mesureset sur les conditionsnaturellesde l'écoulement:
aucunesériede débit n'a fait l'objet de quelquereconstructionque ce soit (pour plus de décontenirau
tails, voir Slacket Landwehr(1992)).Les sitesretenusdevaientaussigénéralement
À chacundessitesde la basede donnéesestassociéun vecteur
moins20 annéesd'observations.
physiographiques
tels quela superficiedu bassinversant,
et climatologiques
de caractéristiques
l'élévationmoyennedu bassin,la penteet la longueurdu coursd'eauprincipalet la précipitation
moyenneannuellesurvenantsur le bassinversant.
Dansle cadredu projet HCDN, les États-Unisont été divisésen 2l grandesrégionshydrologiques,présentées
dansla figure 5.1. Afin de déterminerdesstationspropicesà l'étude,nous
avonseffectué,danschacunede cesrégions,uneanalysepréliminairede la log-linéaritéexistant
90
Ftc. 5.1: Les régionshydrologiquesAméricainesdu HCDN
entrele quantilede crue Qso,le quantileétudiélors desétudesde régressionpar région d'influencede Taskeret Slade(1994)et deTaskeret al. (1996),et la superficiedesbassinsversants,
la variableexplicativeapparaissant
le plusfréquemmentet le plus significativementlors d'études
de régressiondesquantiles(Ienningset al., 1994\.Le tableau5.1 montreles résultatsobtenus
par I'applicationdu testF présentédansla section3.4.3.Nousavonsindiquéen caractèregras
les régionsoù I'on observe,selonce testF, une réductionsignificativeau niveaude confiance
a : 0,05, c'est-à-direpour CI(F) < 0,05 (cf. 3.4.3),de la variancede I'erreuren utilisantla
modélisationadditiveplutôt qu'un modèleparamétriquelog-linéaire.Pourfins d'analyse,nous
avonschoiside retenirunerégionoù le testest significatifet unerégionoù il ne I'est pas.Nous
avonsainsichoisi,commerégionoù la modélisationadditiveestsusceptible
deproduiredebons
résultats,la régiontZ,larégion du Texaset du Golfe du Mexique.Nousavonsanêténotrechoix
sur la région 12 puisquecetterégionestcomposéeprincipalementde sitesdu Texas,la région
étudiéepar Taskeret Slade(1994).Quantà I'autre région,nousavonschoisi la région01, la
régionde la Nouvelle-Angleterre,
en raisonde saproximitédu Québec.
Une caractéristiquepropreaux diversesrégionsdu HCDN est la faible densitéspatialedesstations,c'est-à-direpar le fait même,la présenced'une faible corrélationspatialeentreles mesuresde débitsdes sitesde la région.Afin de vérifier I'effet de la corrélationspatialesur les
résultatsobtenuspar la modélisationadditive,nousavonsaussivoulu appliquerI'approchede
par un plus fort niveaude corrélationspatiale.
modélisationadditiveà une régioncaractérisée
91
APPLICATIONSET COMPARAISON
TLn. 5.1: Les régionshydrologiquesdu HCDN : Analysepréliminaire de la log-linéarité
Nombrede stations
7T
NewEngland
L67
Mid-Atlantic
193
SouthAtlantic-Gulf
57
GreatLakes
r"08
Ohio
44
Tbnnessee
127
UpperMississippi
23
Lower Mississippi
39
Souris-Red-Rainy
r44
Missouri
87
Arkansas-White-Red
90
Texas-Gulf
22
Rio Grande
44
Upper Colorado
L7
Inwer Colorado
32
GreatBasin
L9l,
Pacifi.cNorthwest
115
California
31
Alnska
42
Hawaii
15
Caribbean
Nom de la région
01
a2
03
04
05
06
07
08
09
10
11
L2
13
14
15
16
t7
18
t9
20
2l
a,
0,289
0,042
0,011
0,749
0,004
0,23r
0,060
0,763
0,247
0,017
0,239
0$17
0,081
a329
0,056
0,289
0,004
0,716
0,017
0,953
0,123
Pour ce faire, nousavonsutilisé les mêmesdonnéesque Taskeret al. (1996),c'est-à-direles
donnéesprovenantde 204 stationsde I'Arkansas.Les donnéesdu Texas(région 12) et de la
(région01) du HCDN, disponiblessurinternetvia FTP à I'adresseinternet
Nouvelle-Angleterre
ftp ://ftprvares.er.usgs.govlhcdng2l,ont été reproduitesrespectivementaux annexesB et C.
dansHodgeet Tasker(1995),seretrouvent
Les donnéesde I'Arkansas,publiéesintégralement
quantà ellesà I'annexeD.
5.2 La méthodologied'évaluation et de comparaison
L objectifprincipalde cetterechercheestd'évaluerI'utilisationde la modélisationadditivepar
polynômeslocaux cornmeméthodealternatived'estimationrégionaledes débitsde crue Qa
en dessitesnonjaugés.Afin d'atteindrecet objectif, nousavonschoisi d'évaluerles qualités
prédictives de cetteapprocheet de la comparerà I'approchede la régressionrégionalepar
par un modèlelogJinéaire.
régiond'influencede mêmequ'à l'approcheclassiquede régression
par
Cestrois approchesd'estimationrégionaledesdébitsde crueQ7 peuventêtrereprésentées
le modèlede typeboîtenoiresuivant:
...,loe(&) --*
log(X1),los(X2),
I
--+ log(Qî)
(s.1)
phyen entréele logarithmedécimalde variables
où log(X1),log(Xz),...,log(&) représentent
à un site particulieret
prédictivesXr,Xz,...,Xa associées
/ climatologiques
siographiques
du modèle,le logarithmedécimaldu
log(8r) représentela réponse(ou variabledépendante)
quantilede crue 8r du siteen question.
5.2.1 Les simulations vs les procéduresde séparation de données
Il est
peuventêtreutiliséespour la comparaison.
De manièregénérale,deuxgrandesapproches
d'abordpossibled'effectuerdessimulationsde type MonteCarloà partir de relationsfonctionconnues.Gingraset al. (1995)ont utilisé
par la boîtenoire)paramétriques
nelles(représentées
cegenred'approcheafind'évaluerl'utilisationde la régressionparnoyaupourla régionalisation
qu'ils
et exponentielles
desquantilesde crue.Ils ont simulédesrelationslinéaires,quadratiques
et non paramétriques.
ont par la suiteestimeesà I'aide de modèlesde régressionpararnétriques
Cettefaçon de faire est cependantdiscutablepuisqu'enpratique,les véritablesrelationsentre
lesvariablesde réponseet les variablesexplicatvessontinconnues.En ce sens,nousproposons
plutôtI'utilisationdeprocéduresde séparationde données(datasplittingproceduresou.qplirsampleexpertments)qui consistentà séparerles observationsdisponiblesen un échantillon
d'estimation servantà la calibrationdu modèleet en un échantillon de prédiction servantà la
validationdu modèle,c'est-à-direà l'évaluationde sespropriétésprédictives.
Lesprocéduresde séparationde données,aussiappeléestechniquesde rééchantillonnage,simulentla collectionde nouvellesdonnées(ici, de nouveauxsites)afin de vérifier les habilités
prédictivesdes modèles.En pratique,il n'existepasde règlesgénéralessur la façon de séparer les données.Une techniquede rééchantillonnagecourammentutilisée, appeléeiackknife
(sites),rzfois la pro(Quenouille,1956),consisteà répéter,lorsqu'ondisposede n observations
I1 s'agit
cédurede séparationconsistantà laisserde côté tour à tour chacunedesobservations.
et deséchantillons
alorsd'utiliser deséchantillonsd'estimationcomposésde n - 1 observations
Nousutiliseronscetteapprochepour les trois
de validationcomposésd'une seuleobservation.
régionssousétude.
Mentionnonsque pour la comparaisonde procéduresde régressionparamétriques
à desprocéduresde régressionnon paramétriques,
sur la basedeserreursde prédictionsobtenuesdans
l'échantillonde prédiction,le choix de la taille de l'échantillonpeut jouer un rôle important
sur l'évaluationcomparativedesdifférentesapproches.
En effet, puisquerappelons-le,
les estimateursparamétriques
convergentplusrapidement(parexemple,en moyennequadratique)
que
les estimateurs
non pararnétriques
versla véritablefonctionde régression,une taille d'échantillon trop petitedevraitavoir tendanceà désavantager
I'approchenon paramétrique.
En ce sens,
la procéduredejaclcknifeconstitueuneapprochede comparaisondesplus objectivespuisqu'il
s'agit de la procédureemployantla plusgrandetaille possiblepour l'échantillond'estimation.
5.2.2 Les critères de comparaison
Les procéduresde séparationde donnéespermettentde vérifier les capacitésprédictivesdesmodèles.Il suffit deprocéderà une analysedesprédictionseffectuéespar les différentsmodèles.Il
estd'abordpossibled'effectuerun examenvisuelde la distributiondeserreurs(absolues,
relatives,quadratiques,
etc.)de prédictionsafin d'en mesurer,par exemple,la dispersion,à I'aidede
graphiquesen boîte(box-plot).Il estcependant
plus courantd'effectuerune moyennedesdifférenteserreursde prédictions.Dansce document,nousavonsretenucommemesured'évaluation descapacitésprédictivesdesmodèles,la racine canêedeserreursquadratiquesmoyennes
(RMSE) (pour root meansquareenor) de prédiction, calculéedansl'espacelogarithmique,
RMSEPREO:
,
V
(s.2)
I€PRED
de mêmequela déviationrelativemoyenne(DRM), expriméeen pourcentage,
desprédictions,
=tlNp
DRMPRED
I
lQr,r-Qr,il
i€pRED
(5.3)
Y.I 'r
où les sommationssonteffectuéessur les sitesde l'échantillonde prédiction(PRED),Qr,l est
I'estimateurdu quantilede crue(depériodederetour?) du site i basésur lesdonnéesde DMA
du siteen question
I'estimationrégionale,selonle modèlederégression
retenu,
, Qy,6représente
du quantilede crueau sitei et No estle nombrede sitesdansl'échantillon(ou les échantillons)
de prédiction.
5.2.3 La calibration des différents modèles
La modélisationnon paramétriquesedistinguede I'approcheparamétriqueprincipalementpar
deux caractéristiques
importantes: (1) le tempsde calcul nécessaireà I'estimationet (2) le
94
nécessité
d'avoir en notreposd'obtenirun aperçuvisueldesestimations.Il estdoncnécessaire
sessiondesoutils informatiquesefÊcaces.
Le logiciel S-Plusestun de ceslogicielsoffrantune
interfacegraphiqueintéressante
efficacesd'estimation
de mêmequedesprocéduresstatistiques
par lissageet par modélisationadditive.La calibrationdesdifférentsmodèlesretenuspour la
comparaison
a doncétéeffectuéeavecle logiciel S-Plus.Mentionnonsqu'ici, la calibrationdes
différentsmodèleconsisteà:
1. choisirles variablesprédictivesà incluredansle modèle,
2. choisirle niveaude lissage(pourlesmodèlesnon paramétriques),
et
3. procéderà I'estimationdesdifférentsmodèles.
Nousprésentons,
dansce qui suit, les différentesapprochesde calibrationretenues.Dansbien
descas,le choix de I'approchede calibrationreposesur les particularitéset limites desdifférentesprocédures
disponiblesdansle logicielS-Plus.
5.2.3.1 Le modèIede régressionlog-linéaireet de régressionpar région d'influence
parrégiond'influence,
Pourla calibrationdesmodèlesderégression
log-linéaireet derégression
nousutilisonsle fait que cesmodèlesappartiennent
à la famille desmodèlesde régressionlo(Loader,t999). Le modèlederégression
par régiond'incalepolynomialemultidimensionnelle
parun modèlede régressionlocalepolynomialede degré1.Le
fluencepeutainsiêtrereprésenté
quantà lui qu'un casparticulierde modèlede
modèlede régressionlog-linéairene représente
régressionlocale: il s'agit d'utiliser unefonctionnoyaurectangulaireet de choisirle paramètre
delargeurde fenêtrede manièreà ce quetoutesles observationsappartiennentà celle-ci. Rappelonsenfinquela seuledistinctionpouvantêtreapportéeentrele modèleclassiquede régression
localeet le modèlede régressionparrégiond'influenceestquece dernierpermetqu'en chacun
despointsestimés,I'estimationde la fonctionde régressionpuisseêtrebaséesur desvariables
(ou ensemblesde variables)explicativesdifférentesalors qu'avecle modèlede régressionlocale,unefois choisies,les variablesexplicativessontobligatoirementtoutesutiliséesen chacun
despoints(sites)où I'on désireeffectueruneestimation.
En régressionrégionaledes quantilesde crue, il est bien connu (Stedingeret Tasker,1985,
estplusreprésentatif
de la pro1986)qu'un modèlede moindrescarréspondérésou généralisés
dela variance
blématiqueréellede I'estimationrégionaledesquantilesenraisonrespectivement
inégaledesestimateurslocauxQ1,a@asés
sur destaillesd'échantillondifférentes)et de la cor*
voisins.Le
rélationspatialeannuellepouvantexisterentredesDMA de sitesgéographiquement
modèlederégressionlocalenepermetI'utilisationqued'uneapprocheparticulièred'estimation
95
a priori de la pondération
par moindrescarréspondérés.Llestimationrequiertuneconnaissance
(chacundessites).Nousutiliseronsune telle approcheen
accordéeà chacunedesobservations
pondérantchacundessitesselonla taille deséchantillonsà cessites.
En S-Plus,deux procéduresde régressionlocalemultidimensionnelle(et unidimensionnelle)
dansle logiciel et la procédure
sontdisponibles: la procédureloess,incluseautomatiquement
locfit, un moduleexternede Clive Loader,I'auteurd'un livre parurécemmentsur la régression
locale (e.g.Loader(1999)).La procédureloessestplus effrcaceau niveaudu tempsde calcul
desestimationsmaisne permetpasde choisirunefonctionde pondérationautrequela fonction
triplementcubiquealorsque la procédurelocfit permetI'utilisation de chacunedesfonctions
dansle tableau2.1. Puisquenous avons,dansune certaine
de pondération(noyau)présentées
mesure,commeobjectifdereproduireles résultatsde Taskeret Slade(1994)et deTaskeret al.
(1996)qui utilisentunefonctionde pondérationrectangulaire,
nousavonsdoncchoisid'utiliser
la procédurelocfit.
Il est en effet possible,en utilisantI'opLa procédurelocfit possèdeune option intéressante.
(evaluation=cross),
d'effectuer(très rapidement)une
tion d'estimationpar validation-croisée
estimationenchacundesn sitesen laissantde côtéI'informationdu siteenquestionet enn'utilisant queI'informationprovenantdesn - L autressites.Cetteoption permetainside calculer
deséquations5.2 et5.3.Nousutiliseronstout particulièrapidementlescritèresde comparaison
rementle RMSE prédictifde l'équation5.2 tant pour choisirles variablesprédictivesà inclure
dans les différentsmodèlesque pour déterminerle nombreoptimal de sites à inclure dansla
régiond'influence.
5.2.3.2 La modélisation additive par polynômeslocaux
Avec S-Plus,le module gam (generalizedadditive models)permet la modélisationadditive.
L'estimations'effectueà I'aide de I'algorithmede baclfixing (cf. 3.3.1).Nous employonsle
lisseurparpolynômeslocauxdu moduleloctt. Mentionnonsquepardéfaut,pourun échantillon
de taille n, la procédurelocfit n'effectuepasune estimationen chacundesn points.En effet,
de manièreà diminuer le temps de calcul, la procédureeffectueplutôt une estimationen un
de points rz1 1 n et procèdepar la suitepar interpolationpour produireles
sous-ensemble
auffesestimations.Il en résulte alors des matricesde lissagenon pas de dimensionn mais
plutôt de dimensioî ?21.En procédantainsi, on se houve aussià faire une approximationdu
nombrez de paramètres
effectifs des lisseurs(puisquey est fontion des matricesde lissage
(cf.3.3.2.3)). La procédurelocfit permetcependant,en utilisant I'option (evaluation=data),
96
d'effectuerle lissageen chacundesn points.Nous utilisonscetteoption pour la calibration
du modèle.Parcontre,pourla validation,il estimpossibled'utilisercetteoptionpuisqu'il n'est
initiales.Nousutilisons
alorspaspossibled'effectuerdesprédictionsen dehorsdesobservations
doncI'option d'évaluationpar défautpourla validation.
En ce qui concernela calibrationdu modèleadditif,nousutilisonsla procédurede sélectionpasà la section3.4.2.Commecritèresde sélection,nousavonschoisi d'évaluerles
à-pasprésentée
résultatsobtenuspar le critèredevalidationcroiséede l'équation3.26pourdesvaleursdec : 1,
ce qui revientà 1'équation3.25,etde c : 2,lavaleur jugéeappropriéepar plusieursauteurs(cf.
3.4.I). En S-Plus,une procédurede sélectionpas-à-pasest disponible(step.gam).Le critère
utilisé par cetteprocédureest le critèred'AIC de l'équation3.27.Cependant,puisqueS-Plus
il nousa étépossibled'effectuerune modification
estavanttout un langagede programmation,
mineure(une seuleligne de code a été,changêe)à la procédurestep.gamafin de permettre
l'utilisation descritèresde validationcroiséeretenus.
5.3 Application à Ia région du Texas
Afin de pouvoir appliquerles diversesapprochesde régionalisationdes quantilesde crue retenuespour fin de comparaison,nous devonsdansun premier tempsprocéderà I'estimation
desquantilesde crue Qy auxdifférentssitesjaugésrégionaux.Pource faire, nousavonschoisi
d'utiliser la procédured'estimationlocaleGEV/PWM, décriteà I'annexeA. Nous avonscalculé les quantilesde crueQz, Qs, Qn, Qzset Qsoauxdifférentssitesjaugés.Cesrésultatssont
présentésà I'annexeB (cf. tab.8.1). La modélisationrégionalenécessiteaussila présencede
Le tableau5.2 présentelesvariablesexplicativesretenues
variablesexplicatives(ou prédictives).
dansles diverses
pour la régiondu Texas.I1 s'agit de variablesque l'on retrouvegénéralement
équationsderégressionproduitesparle USGS.Nousavonsd'ailleursindiquéenfteparenthèses,
autableauS.Z,lenombred'États(sur51) où cesvariablesétaientjugéessignificatives(Jennings
et al., 1994).Mentionnonsenfinquela régiondu Texas,i.e. la région 12 du USGS,comporte
90 sitesmais qu'en raisondu manquede certainesvariablesexplicativesen plusieurssites,la
à I'annexeB.
modélisationn'a étéeffectuéequ'avecles69 sitesprésentés
97
Tls. 5.2: Descriptiondesvariablesphysiographiqueset climatologiques
Superficie
(Area)
Symbole Définition
A (sr) Surfacede drainagedu bassinversant
Pentedu coursd'eauprincipal,en m./km,mesurée
Pente
(SIope)
entre le 10ième et le 85ième percentile de la
longueurdu coursd'eau
Précipitationmoyenneannuelle, en cm,
Précipitation
(Precipitation)
n
(EIevatîon)
Longueur
(IznSth)
survenantsurle bassinversant
EL (13)
ion moyennedu bassin versant,en m
de la mer
au dessusdu niveau
Longuéuidu coursd'eauprincipal,en km, mesurée
le long du canalà partir deslimites du bassin
versantetjusqu'àla stationdejaugeage
5.3.1. La modélisation par régressionlog'linéaire
logJinéaireétudiéest:
Le modèlede régression
log(8r) : 0o* Baros(A)+ És loe(S) + Êelog(P)* /er.ros(EL) + BTIos(L)
(5.4)
Rappelonsquenousavonschoisid'utiliserle critèredeRMSEde l'équation5.2afindedéterminer les variablesexplicativesà incluredansle modèle.La procédureutiliséeconsisteà calculer
le critèrede RMSE pourdifférentsmodèles,i.e. avecdesvariablesexplicativesdifférentes,et à
retenir|e meilleurdecesmodèles.Puisquela variableexplicativeA, I'aire du bassinversant,est
régiogénéralement
la variableexplicativela plus significativedansles équationsde régression
naleet qu'elle seretrouvedansles équationsde régressionde toutesles régionsdesÉtats-Unis
(cf. tab. 5.2), nousavonschoisi de l'inclure par défautdansles différentsmodèles.En procéau tableau5.3, pour lesquelson doit
dantainsi,il ne resteque 16 modèlesdifférents,présentés
le RMSEdes
calculerle RMSE.La légendedu tableau5.3 permetde visualisergraphiquement
différentsmodèlesà une,deux, trois, quatreou cinq variablesexplicatives.Par exemple,à la
figure 5.2, onvoit quepour la modélisationdu quantileQuo,le modèlenuméro1 à 4 variables
explicatives,c'est-à-dire,d'aprèsla légende,le modèlecomposédesvariablesA,S,Pet EL est
aux périodesde retour(T=2,5,14et
optimal au sensdu RMSE.Les graphiquescorrespondant
auxfigures8.1, 8.2, 8.3 et 8.4 de I'annexeB. Enfin,le tableau
25) seretrouventrespectivement
desdifférentsmodèlesoptimauxdéduitsdesfigures8.1
5.4 présenteles valeursdesparamètres
les
(T=2),8.2 (T=5),8.3 (?=10),8.4 (T=25)et 5.2 (1=50).Alors quele tableau5.5présente
et prédictivesde cesmodèles.
mesuresde l'évaluationdesqualitésdescriptives
desquantilesde crue ".
ul
AI
d
{.9
o
a
5 N
Ë
o
o
Ë
.!l
o
E O I
P
o
(t)
=
É
ôl
N
d
3
Nombredevariablesexplicatives
Frc. 5.2: RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Qsg
(voir la légendeau tableau5.3)
Tnn. 5.3: Légendedesdifférents modèlesde régnession
Numéro du
modèle
I
I
A
Nombre de variables explicatives
4
3
2
A,S,P,EL A,S,REL,L
A,S,P
A,S
A,S,P,L
A,S,EL
A,P
A,S,EL,L
A,S,L
A,EL
A,P,EL,L
A,P,EL
A,L
A,P,L
A,EL,L
2
3
4
5
6
Tln. 5.4: Les paramètresestimésdeséquationsde régression
T
9o
9t
2 0,053 0,548
5 0,862 0,531
10 1,265 0,535
25 r,675 0,594
50 2,013 0,597
12
^/S
0,294
0,321
0,340
0,317
0,352
9p
L,339
1,051
0,919
0,817
0,697
PF.,T,
B
-0,263 0,262
-0,236 0,21r
-0,230 o,r72
-0,194
-0,205
99
Tln. 5.5: RMSE et DRM desmodèlesde régressionlog-linéaire
DRM (7o)
Quantile
modélisé
Qz
Qs
8to
33,r
0 ,1 61
0,r73
Qso
33,7
36,1
42,2
47,7
5.3.2 Lamodélisation par régressionpar région d'influence
par régiond'influenceétudiéest:
Le modèlede régression
log(8r) :,9r,w(log(A), log(s),log(P),log(EL),log(r))
(5.5)
de lissagek etW. Plusprécisément,
estun lisseurde surface(ef.2.2.8)deparamètres
où ^9s,qr
à
de I'approchedu lissagepar une droite mobile,présentée
,S75,yz
constitueune généralisation
au sitei (i.e.au point xi : (Ai,Si,Pn,ELd,Li)),en
la section2.2.4,etpermetI'estimation,
ajustantune droitede régressionmultiple en ce point à I'aide des* plus prochessitesvoisins,
selonla distancede "Mahalanobis"del'équation2.V4,etenutilisantunefonctiondepondération
(fonctionnoyau)I4l.
desobservations
Tlr. 5.6: RMSE prédictif desfonctions noyau rectangulaire et triplement cubique
0,181
La procédurede calibrationdu modèlede l'équation5.5 permetde déterminer(1) les variables
prédictivesà incluredansle modèleet (2) le nombreoptimal lc de stationsdansla régiond'influenceet ce,pourunefonctionde pondératianWdonnée.Nousavonsdoncvoulu,dansun premier temps,comparerI'utilisationdela fonctiondepondérationffiplementcubique(cf. tab.2.1),
100
qui estla fonctionutiliséepar la procédureloessde S-Plus,à I'utilisationde la fonctionde ponal.(1996).Letableau
dérationrectangulaireemployéeparTaskeretSlade(1994)etparTaskeret
5.6 présenteles résultatsdu RMSE prédictifobtenusà I'aide de cesdeuxfonctionsnoyau.En
raisonde l'avantagede la fonctionde pondérationtriplementcubique,suggérépar les résultats
du tableau5.6, nousavonsretenuI'emploi de cettefonctionde pondérationpour la calibration
par régiond'influencede ce chapitre.
desdifférentsmodèlesderégression
parrégiond'influences'effectueenminimisantle critère
La calibrationdu modèlederégression
à I'aidedela procédurelocfit (cf. 5.2.3.1).La figure5.3illustre,
deRMSEpar validation-croisée
pour la modélisationdu quantileQso,les valeursdu critèrede RMSE pour les différentesvaleurs possiblesdu paramètreft (le nombrede stations)et ce, pour des modèlesà une, deux,
trois, quatreet cinq variablesexplicatives.Le choix desvariablesexplicativesde cesdifférents
modèlespour représenterQsoa été effectuéà I'aide desrésultatsde la régressionlog-linéaire
de la tgure 5.2 où nouspouvonsobserver,à I'aide de la légendedu tableau5.3, quele meilleur
modèleà deuxvariablesexplicativescontientlesvariablesA et P (numéro2), le meilleurmodèle
à trois variablescontientles variablesA,S et EL (numéro2) etle meilleurmodèleà quatrevariablescontientles variablesA,S,Pet EL (numéro1). Nousavonsdoncretenucesmodèlespour
le calculdesRMSE de la figure5.3.On constate,à la ûgure5.3,quele meilleurmodèlepossède
5 variablesexplicativeset que le nombreoptimal de stationsdansla région d'influence pour ce
modèleest ,k : 60. La mêmedémarchea étéeffectuéepour représenterles débitsde périodede
retourT=2,5,1.0et25. Les graphiquesdu RMSE pour cesquantilessontprésentésaux figures
8.5 (T=2),8.6 (1=5),8.7 (?=10) et 8.8 (T=25)de I'annexeB. Le tableau5.7 déctitlesdifférentsmodèlescalibrés.Mentionnonsqueles valeursdu nombreoptimalde stationsdu tableau
5.7ont étéobtenuesà I'aide dela procédurelocfit et non en visualisantlesdifférentsgraphiques
du RMSE.Le tableau5.8 présentel'évaluationdesqualitésprédictivesde cesmodèlescalibrés.
Au chapitre1, nous avonsmentionnéque bien que I'approchede la régressionrégionalepar
elle impliqueune grandepart de subjectivitépour le choix
régiond'influencesoit intéressante,
du nombrek de stationsà inclure dansla région d'influence.Pourla modélisationde Qsoau
leur motivation.Pour
Texas,Taskeret Slade(1994)ont utilisék=50 en n'indiquantaucunement
|a modélisationde Qsoen Arkansas,Thskeret al. (1996)motiventleur choix de Ic=34pat :
"For this methodto work, thevalueof k shouldbe largeenoughto haveenough
degreesof freedomin the regressionto estimatetwo or threeparameters.For this
study,k waschosento be 34."
101
111111ttt.tr.,rrrr,t
uu
3 r " ? r"-2 9
ssgs
-l3s
(t
.o
.9. (\l
9 c i
o
+
8.l2gi .g
222
g2z
.9
(6
p
E o
=
'a c t
4
g
44
.9
t'r,
3 3g^^22_
55.
-555
2
,'3âtt
Ûo3 Z
lc
g
" tït?eZr|â2222222222 3 3
-"3333gEbAggsssss
ct
,i
3
2
4
qS
ctr
= :
É.
144
o oo o
oo
4 44 + 4 4 4 4 4
40
4
u o u l a6 oo o ^ a 4 c
S s s ss s 5
50
Nombrede stations dans la régbn dinfluenee
Ftc. 5.3: Nombre optimal de stationsdansla région d'influence pour Q56
Tl,n. 5.?: Les modèles calibrés de régression par région d'influence
T
2
5
10
25
50
de stations /c
A,S,P,EL
A,P,S,EL,L
A,P,S,EL,L
A,RS,EL,L
A,P,S,EL,L
62
64
62
60
60
Tan. 5.8: RMSE et DRM desmodèlesde régressionpar région d'influence
0,135
102
Puisquenotre approchede calibrationpermetde choisir k de manièreobjective et optimafe
(au sensdu RMSEprédictif;, nousavonsvoulu quantifierI'améliorationpouvantêtreapportée
par notre approchede calibration.Nous avonsdonc comparéles valeursdu RMSE prédictif
obtenuesavecnotrenombreoptimaldestations/c*à cellesobtenuesen utilisantk=34,1enombre
par Taskeret al. (1996)et k=50, employépar Taskeret Slade
de stationschoisisubjectivement
(1994).Le tableau5.9 présentecesrésultats.On peutconstaterune améliorationmoyennedes
capacitésprédictivesde I'ordre de 6,3Vopour k=50 etde I6,8Vopour k=34.
Tn s. 5.9: RMSE prédictif pour différentesvaleurs de ,k
Quantile Nombre de stationsdansla région d'influence
modélisé
Amélioration (
k. /50
3,4
6,0
Qs
Qn
Qzs
Qso
6,5
7,5
Moyenne
8,2
6,3
5.3.3 La modélisationadditivepar polynômeslocaux
ici lesrésultatsde la calibrationdu modèleadditif de polynômeslocaux:
Nousprésentons
(log(r)) (5.6)
(log(El)) ..-,5.r0
(log(P)) a ,S.rn
(log(s)) 4 ,S.r,
los(Qr) : ,5À,(log(,a))'1 ^9.r,
= (hi,fu,Wù. Rappelonsque la calibrationde ce modèle
de lissageÀr(r=r...s)
de paramètres
optimalÀ* : (Ài,4, )â, À;,4) à I'aide de
consisteà rechercher
la procédurede sélectionpas-à-passtep.gammodifiéepour permettrel'utilisation descritères
de validationcroiséeVCG.(c : L,Â) et VCG.(c : 2, Â) (cf. éq. 3.26).Cetteprocédurede
calibration,décriteà la section3.4.2,requiertqueI' on déterminea priori le degrép dechacundes
polynômeslocaux.I1estaussipréférablededéterminera priori la fonctionnoyau(pondération)
de
IrIl employée.Laprocédurede calibrationpennetalorsd'obtenir un vecteurde paramètres
voisinageoptimalËI* = (hi,hi,hi,hi,ài) où dansce chapitre,le paramètrede voisinageh6
(sites)
employéest un paramètrede span. Le spanreprésentela proportiondes observations
utiliséespour I'estimation.Mentionnonsque rechercherles paramètresde span opttmauxest
équivalentà rechercherles tailles optimalesdesvoisinagesk4puisquepour la méthodedes k
plusprochesvoisins,on a h6: lct/noù n estle nombretotal d'observations.
I03
La procédurede calibrationpas-à-pasdemandeen entréeun vecteurde paramètresinitiaux
g(o)=16f0),
de Qy, nousavonsdébutéla procédure
Pourla rnodélisation
nlo),nto),â!0),6[o)1.
pour chacunedesvariables
avecdesvoisinagesde 507odesobservations
de sélectionpas-à-pas
optimaux
desparamètres
0.5,0.5,0.5,0.5).La recherche
du modèlesoit11(o)=(0.5,
explicatives
s'effectuepar la suitepar pasde 0.1 pour chacunedesvariablesexplicatives.Mentionnonsque
est enlevéedu modèlealors
lorsqu'undes h6 atteint0, la variableexplicativecorrespondante
quelorsqu'undesh6 atteint1, le polynômelocal estplutôt remplacépar un termeparamétrique
la
employée,
aussiqu'avecla procédurede sélectionpas-à-pas
linéaire(cf.3.4.2).Rappelons
versun optimumglobaln'est pasassurée.Le choix de la grandeurdu pas,ici 0.1,
convergence
En effet,nous avonsremarquéque plus le pas employéestpetit,
influencecetteconvergence.
plus la procédurea tendanceà convergervers un optimum local plutôt que global. De plus,
le choix d'un petit pasaugmentele tempsde calcul puisqu'unplus grandnombrede modèles
À I'inverse,avecun grandpas,puisqu'unplus petit
peuventpotentiellementêtre considérés.
il est fort possibleque le modèlene soit optimal
nombiede modèlespeuventêtre considérés,
pour
quelocalement.L'utilisationd'un pasde 0.1 nousa sembléêtreun compromisacceptable
I'obtentionde I'optimum.De plus,en pratique,rien n'empêchede réappliquerla procédurede
sélectionà partir de l'optimum ainsi obtenuavecun pasplus petit, par exemple0.01 ou 0.02,
de I'optimum.
pourserapprocherdavantage
Pourla modélisationdeQT,nousavonsutilisé despolynômeslocauxde degré1 et avonsparla
suiteexaminéles différentslissagesafin de vérifier si 1eniveaud'ajustementsemblaitadéquat.
de la modélisation
Nousavonsaussivoulu vérifier I'influencedu choix de certainsparamètres
sur lesqualitésprédictivesdesmodèlesadditifs.Nousavonsdonccomparéles capacitésprédictivesde différentsmodèlesadditifs de polynômeslocauxen fonction :
employé
1. du critèrede validation-croisée
( a ) V C G.(c: 1 ,Â )
( b ) V C G-(c:2 ,1 \)
2. de la fonctionnoyauutilisée
(a) triplementcubique
(b) Gaussienne
(c) rectangulaire
3. de la fonctionde pondérationdessites
(a) aucunepondération
de DMA
(b) pondérationproportionnelleau nombred'observations
104
Modélisatonadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue...
pourla modélisationdu quantilede crueQ5s.LesrésulNousavonseffectuécescomparaisons
tatsde cettecomparaison
sontprésentés
au tableau5.10 alorsque les graphiquesdesdifférents
modèlescalibréssereftouventaux tgures 5.4et 5.5 où nousprésentons
I'influencedu critèrede
validationcroisée,dela fonctionnoyauet dela fonctiondepondérationsurle lissagedechacune
desvariablesexplicativesdesdifférentsmodèlesadditifs.Constatonsd'abord,au tableau5.10,
que les meilleursrésultatsont été obtenuspar le modèlecalibré avecune fonctionde pénalité
c: L en utilisantunefonctionnoyautriplementcubiqueà I'intérieurde la fenêtrede lissageet
en appliquantunefonctionde pondérationà chacundessitesjaugés.Remarquons
ensuite,à la
figure 5.5, la trèsgrandesimilitudeexistantentreles lissagesdesdifférentsmodèlescalibrésà
c : L. Cettesimilitudenousdémontreà quel
I'aide du critèrede validation-croisée
deparamètre
point il estenpratiquedifficile de choisirun modèleparticulierà I'aide d'un seulexamenvisuel
de la calibration.Ainsi, puisqu'il ne semblepasy avoirde différencesnotables(pourunevaleur
du paramètrec fixée) au niveaudu lissageentreI'utilisation d'une fonction noyautriplement
cubique,Gaussienne
ou rectangulaireet entreI'utilisationou non d'unefonctiondepondération
dessites,nousnousen remettronsauxrésultatsdu tableau5.10pour le choix de cesparamètres
de modélisation.NousopteronsdoncpourI'utilisationdu modèleavecpondérationet fonction
noyautriplementcubique.
TLn. 5.10: Modélisation additive du quantile Qso: Influence desparamètres de la modélisation sur les capacitésprédictives
Paramètres
de la modélisation
c=l
c=1
c=l
c=2
c=1
ou1
oui
non
oui
oui
Paramètres h*
du rnodèlecalibré
1
I
I
1
0.5
DRM
(7o)
30,8
3r,3
32,3
32,7
35,1
Alors que pour une valeur de c fixée, il y a peu de distinctionsentre les différentslissages,
on peut cependantobserver,à la figure 5.4, que l'utilisation du critère de validation-croisée
VCGt(c : 2, Â) conduità une estimationplus lisse,notammentpour la variableA dansI'inqu'avecle critèrede paramètrec : 1. Mentionnons
tervalle12,2.51(enunitéslogarithmiques),
que I'on devaits'attendreà un tel résultatpuisquele paramètrec pénalisele nombrede paramètreseffectifsd'un modèle.Or, puisqu'il estpossiblede montrerqu'uneestimationplus lisse
Modèle
a V e cC: 2
Modèle
avecc:1
u?
@
o
o
I
q
2.0
r.5
3.0
A
2.5
r.5
4.s
4'0
3.5
?.0
?.5
35
3.0
Â
4.0
4.5
a
o
0.5
0.0
s
0.o
1.5
1.0
sl
q
o
o
6
0.5
s
1.5
1.0
^
D
ç
(:
1.2
t.3
1.5
P
1.4
1.7
1.6
1.2
1.3
14
1.5
P
1.6
1.7
o
ct
a
o
2.4
1.0
2.6
2.8
3.0
1.5
2.O
3.2
3.4
2.4
2.6
2.8 3.0
ËL
32
3.4
2.5
L
sur le lissage
Flc. 5.4: Modélisationadditivede Qso: Effet du critèrede validation-croisée
Modélisation additive par polynômes locaux pour la régionalisation des quantiles de crue '.'
106
Modèle
Modèle
triplementcubique triplementcubique
sanspondération
avecpondération
r.5
2!
30
2.5
aO
A5
^
4.5
20
15
2.5
3.0
3.5
^
4.0
45
Modèle
rectangulaire
Modèle
Gaussien
3lry lg4éfatlo!
1.5
2.0
2.5
3.0
C5
__ 3Y99pondération
4.O 4.5
"*-æ#o0
12
s
l.a
15
?
t.3
za
26
1.O
ro
0.5
2t
t5
1.6
a0
2,O
1.7
32
s.4
25
1.2
10
0.5
0.0
1.5
13
i.4
1.5
t.5
1.6
05
0.0
s
t.0
0.3
o0
15
s
ro
15
1,7
P
2 A 2 3 S 4 0 3 2 3 4
21
fo
23
2.a S
EL
t.5
zo
g,
ga
2s
1.O
1.5
L
Z0
æ
Frc. 5.5: Modélisationadditivede Quo: Effet de la fonction noyau et de I'utilisation d'une
fonctionde pondérationsurle lissage(c : 1)
I'utilisationde c : 2 plutôt que c - 1 favorise
moinsde paramètres,
nécessitegénéralement
le niveaude lissaged'une courbeon
les modèlesplus lisses.Pour montrerqu'en augmentant
le nombrede paramètreseffectifs,rappelonsqu'en augmentantle
en diminue généralement
niveaude lissagepourunevariableexplicative,la quantitétr(S1sf ) a tendanceà diminuer(réf.
section2.3.4,4).Or, la quantitétr(Slsf) n'est autrechosequela définition (zr) du nombrede
paramètres
effectifsassociéà cettevariableexplicative.
lgt
I'effet, conditionnellementà la
Les différentsgraphiquesdes figures5.4 et 5.5 représentent
présence
desautresvariablesexplicativesdansle modèle,d'unevariableexplicativeparticulière
sur la variablede réponse.Parexemple,le premiergraphiqueen hautà gauchede la figure5.4
illustrela contributionapportéepar log(A) à log(Qso)et ce,pour différentesvaleursde log(,4).
par la fonction ^9i,(log(,4)), correspondau premier termede
Cettecontribution,représentée
l'équation5.6. On peutaussiconstaterquela calibrationdu modèleadditifoptimala fait en sorte
pardestermeslinéaires
quelesdeuxièmeet troisièmetermesdel'équation5.6 ont étéremplacés
puisqu'ona alorsobtenu
És log(S) et Bplog(P) (un casparticulierde lissageunidimensionnel)
à cesvariables,la valeur
quepourles graphiquescorrespondant
quehi - hâ:1. Remarquons
par la pentedesrelationslinéaires.Par analogieau
desparamètresÉs et gp est représentée
modèlelinéaireoù plus le paramètreBi est élevé,plus la variableexplicativecorrespondante
est significative,il est possibled'observergraphiquementla significationrelativede chacune
desvariablesexplicativesdu modèleadditif.Il estpar exemplepossiblederemarquer,à la figure
parce
5.4,quela variableexplicativeL a étéla variableexcluedu modèle(à droite)probablement
quedes5 fonctions(d'aprèsles graphiquesde gauche),la fonctionSlr(log(Z)) sembleêtrela
à unedroitehorizontaledepentenulle).À I'inverse,comme
moinssignificative(elles'apparente
on devaitd'ailleurs s'y attendre,I'aire du bassinversant(A) constituela variableexplicativela
plussignificative.
Puisqued'une part, nousavonsobtenulesmeilleursrésultatsde prédictionavecle modèlecalibré à l'aide d'une fonctionde pénalitéc: ! en utilisantunefonctionnoyautriplementcubique
à I'intérieurde la fenêtrede lissageet en appliquantunefonctionde pondérationà chacundes
sitesjaugés,nous avonsretenuI'emploi de ces paramètrespour la modélisationadditivedes
quantilesde crue.Cependant,
au niveaudescriptif,il semblequele niveaude lissageobtenupar
l'emploi de c :2 plutôt quec : 1 soitplus approprié.En effet,si nousvoulionsinterpréterles
résultatsde la figures.4,îlnous seraitdifficile d'expliquer,potu c : 1, la formeinégulièredela
nousseraitaussidifÊciledejustifier
relationpour I'aire du bassin(A) dansI'intervalle12,2.51.11
I'influencede la longueurdu coursd'eausurla valeurdu quantile.Nousavonsdoncaussiretenu
l'emploi du paramèûec :2 pour les différentesmodélisationsadditivesde cettethèse.Les tapour c : L et c: 2olesrésultatsde I'application
respectivement,
bleaux5.11et 5.12présentent
decesapprochesde modélisationpourI'estimationdesdifférentsquantilesétudiésalorsqu'aux
les lissagesobtenuspar cesmodèlespour I'estimationdes
figures5.6 et 5.7, nousprésentons
quantiles
Qz, Qs, Qn et Qzs.
108
Tnn. 5.11:RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=l
DRM (7p)
Quantile Paramètresoptimaux h*
modélisé
Qz
PRED
30,9
Qn
25,2
Qso
30,8
26,7
26,5
1.5
a0
a5
ao
^
3.5
rs
t.5
40
2t
3.0
A
2Â
3.5
4.0
05
a
t.0
2.0
2.5
3n
A
4n
S
a5
:T-----l;1--ll
j---.--æ---1
l*--'+W*"1
0 . o
1.5
r.5
t 5 2 0 5 4 0 S a . o . 5
A
4.5
ç
0!
Qzs
Qro
Qs
Qz
0 5
s
l
; l , . " . , .I
05
o.o
5
a
oo
i.5
t.o
05
"
t,
ls
d
I
1.2
13
li
P
t.4
lt
t2
1.7
t.3
!,5
P
l-1
t.3
1.7
l'6
1.6
1.5
P
t.4
1,7
r.3
12
1.5
t3
r.7
13
,]
-l
d
1'
l
2.1
23
2.8
3.0
32
3.4
2.1
23
É a0
2.A
3,2
2A
3.4
2.6
2.A 3.0
EL
32
z4
C.
2.6
2.A 3.0
EL
32
-t
-i
d
"l
çl
?
I
I
f.0
1.5
2.0
u
t3
r.5
2S
2.5
t.0
r,5
^
2.3
t,
Flc. 5.6:Modélisationadditivede Qz,Qs, Qn etQzs: c : 7
15
ZO
25
3.4
1æ
Tln. 5.12: RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=2
DRM (7o)
ntile Paramètresoptimaux h*
modélisé
PRED
Qz
Qs
Qn
Qzs
Qso
28,4
26,8
28,6
32,7
Qto
t5
20
2.5
A0
A
3.5
4,0
4.5
r.6
a0
25
0
5
m
r.2
i.3
1.4
t5
P
13
1.7
t2
!3
30
r
t.{
g
4.0
35
^
!
1
t5
1.6 2.O 2â
{5
ûo
5
t.t
r2
1.7
I'!
30
A
a5
1.0
05
s
l,a
t.5
P
P
r.0
1.7
lt
f.o
26
23
a
t.5
L
A0
2t
3.4
æ
23
0t
15
t2
t3
25
a.O a5
3.O 3t
A
1.0
0.5
s
1.1
1.5
P
15
la
1.7
ç
I
21
r.5
45
2.4
2.6
2E.
3.0
32
3.4
2.1
2.5
additivede Qz, Qs,Qrc et Qzs: c : 2
Ftc. 5.7:Modélisation
2.6
2.a
3.0
EI
32
At
110
5.3.4 Synthèseet comparaisondesrésultats
nousavonsprocédé,pourla régiondu Texas,à I'estimationrégionale
Aux sectionsprécédentes,
desquantilesdecrueQz,Qs, Qn, QzsetQsoà l'aide,respectivement,
1. du modèlederégressionlog-linéaire(ML) de Benson(1962),
2. du modèlederégressionpar régiond'influence(RI) deTaskeret al. {1996),et
3. du modèleadditif de polynômeslocaux(MA) proposédanscettethèse.
Nous avonsutilisé,pour le modèlede régressionlog-linéaire,noté (ML), une approchede calibration permettantde déterminerde manièreoptimale,au sensdu critère de RMSE prédictif
de l'équation(5.2),les variablesexplicativesdu ML. Pourle modèlede régressionpar région
(1) dechoid'influence,noté(RI), nousavonsdéveloppéuneapprochedecalibrationpermeffiant
sir les variablesexplicativesà inclure dansle modèleet (2) de déterminerde manièreoptimale
(au sensdu RMSE) la taille de la régiond'inffuencedu modèleR[. Nous avonsenfin procédé
à une brève étude comparativedes différentsparamètresde calibration du rnodèleadditif. À
partir desrésultatsde cetteétude,nousavonschoiside retenirles modèlesadditifs,notésMAl
VCG. (c : 1,Â) et
à l'aide descritèresde validation-croisée
et MA2, calibrésrespectivement
VCG.(c : 2,î\). Mentionnonsde plus qu'unefonction noyautriplementcubiquede même
qu'unefonctionde pondérationproportionnelleau nombred'observationsde DMA desdivers
sitesjaugésont étéutiliséespour la calibrationdeMAl et deMA2.
les valeursde RMSE et de DRM obtenues
Les tableaux5.13et 5.14présententrespectivement
pour les diversespériodederetourétudiées.Cestableauxindiquent
parlesdifférentesapproches
aussil'écartentrelesrésultatsobtenuspar le meilleurmodèleadditif MA et lesrésultatsobtenus
par I'approchede la régressionpar régiond'influenceRI. On peut constaterque I'approchedu
MA procuredesmeilleursrésultatsqueles autresapprochessaufpour le critère deDRM pour la
modélisationdeQz. On remarqueaussiquel'écartentreMA et RI augmenteavecla périodede
retour?. PourT : 25 etT :50, on notedesdiminutionsdu RMSEde I'ordre d'environt2Vo.
Ceci peut s'expliquerpar le fait que la relationentrele logarithmede la superficiedu bassin
versant,la variablela plussignificativedesdifférentsmodèles,et le logarithmedesquantilesest
de moinsen moinslinéaireà mesureque la périodede retour? augmente(réf. graphiquesdu
hautdesfigures5.4et 5.6).
Iil
Tns. 5.13: Comparaisondeserreurs de prédiction : RMSE - Texas
Modèle
Modèle
Quantile
MAl MA2 optimal
modélisé ML
RI
0 ,1 7 8 0,166 0,165 0,170 MAI
lz
0,173 0,150 0,146 0,157 MA1
Qt
0,179 0,149 0,t44 0,147 MA1
Jro
0,L97 0,162 0,143 0,153 MAl
Qzs
0,2t6 0,182 0,160 0,168 MA1
50
A (MA,RI)= 100(MAIRI-1)
(vo)
-0
-2,7
-3,2
-11,6
-r1,7
Tas. 5.14: Comparaisondeserreurs de prédiction : DRM'Texas
Modèle
optimal
Quantile
modélisé
Qz
A(MA,RI)=MA-RI
(7o)
1,5
-2,4
Qn
-4,9
-5,2
'r00
150
200
2s0
Erreursde prédiclion(oÂ)
Flc. 5.8: Modélisation de Q5e : graphiqueen boîte des erreurs (relatives) de prédiction (7o)
Il2
Les critèresdeRMSE et de DRM constituentdesmesuresdeserreursde prédictionmoyennes.
dela dispersiondeces
unereprésentation
d'avoirennotrepossession
intéressant
Il estcependant
effeurs.Le graphiqueen boîte de la figure5.8 présenteles différenteserreursde prédictionde
de deux
Çssdontla moyenneestle critèrede DRM. On remarque,sur la figure 5.8,la présence
pour MAl. Un examendes
ereurs fès élevéesde l'ordre d'environ300VopourML et de200%o
erreursde prédictionnousa permisde constaterqueceseneursproviennentdu bassinversant
dontla superficie(A) estla pluspetite.En examinantlesgraphiquesdu hautdela ûgure5.4,il est
possibled'évaluerla difficulté d'effectuerI'extrapolationpermettantI'estimationde Q5spour
la pluspetitevaleurde log(A) = 1,5. Puisqued'unepart,I'objectif principalde I'estimation
pasde procéderà de I'extrapolationet que,d'autrepart,certaines
régionalen'est généralement
d'affecterà tort la performanced'uneapproche
grandeserreursd'extrapolationsontsusceptible
particulière,nousavonsrecalculé,aux tableaux5.15et 5.16,les critèresde RMSE et de DRM
de l'écartentreMA
en enlevantles erreursd'extrapolation.On constatealorsune augmentation
et RI.
TLs. 5.15: Comparaisondeserreurs de prédiction (sansextrapolation) : RMSE'Texas
,RI)=1fi)(MA/RI-1,)
(7o)
modéIisé
-3,4
Qz
Qn
Qso
0,142
-7,4
-14,r
- 15,8
TAs. 5.16: Comparaisondeserreurs de prédiction (sansextrapolation) : DRM - Texas
113
APPLICATONSET COMPARAISON
5.4 Application à la région de la Nouvelle'Angleterre
Danscette section,nousappliquonsles différentesapprochesde modélisationML, R[, MAI
qui correspondà la région01 du
et MA2 aux donnéesde la régionde la Nouvelle-Angleterre
nousavonsprésentéen détailles approches
USGS(cf. tab.5.1).Puisqu'àla sectionprécédente,
ici que les principauxrésultatsde la
de calibrationdesdifférentsmodèles,nousne présentons
La région01 du USGScomporte7l siteset
calibrationet du calculdescritèresde comparaison.
Les donnéesphysioun seulsite a du êtreomisenraisonde variablesexplicativesmanquantes.
locauxpar GEV/PWM desdifférents
c'est-à-direles estirnateurs
graphiqueset hydrologiques,
à I'annexeC (cf. tab.C.1).Mentionnonsdeplusquenousavons
quantilesétudiés,sontprésentés
retenuI'emploi desmêmesvariablesexplicativesqu'à la sectionprécédente.
5.4.1 Le modèle de régressionlog-linéaire
Après avoir calculéle critèrede RMSE desdifférentsmodèlespotentielsdu tableau5.3, nous
était optimal. [,es graphiquesdu
avonsété enmesurededétecterle modèlepour lequelle RIvtrSE
RMSE des différentsmodèlesde régressionlog-linéairecorrespondantaux périodesde retour
et C.5deI'annexe
auxfiguresC.|,C.2,C.3,C.4
respectivement
(T=2,5,10,25et 50) serefrouvent
desdifférentsmodèlesalorsque le
C. Le tableau5.17 présenteles estimateursdespararnètres
tableau5.18présenteles critèresde RMSE et de DRM calculéspour cesmodèles.
Tan. 5.17:Les paramètresestimésdeséquationsde régression
2
)
o,367
0,384
0,4t2
0,453
0,487
0,409 4,907
-0,950 0,884
10 ''/.,12090,861
25 -1,637 0,828
50 -2,014 0,802
Tl,s. 5.18:RMSE et DRM desmodèlesde régressionlog-linéaire
0,119
LlA
5.4.2 Le modèlede régressionpar région d'influence
pour les différentesvaleursposAprèsavoircalculéle critèrede RMSE par validation-croisée
siblesdu paramètrek (le nombrede stationsdansla régiond'influence)et ce,pourles meilleurs
de une à cinq variablesexplicatives,nousavonsétéen mesurede détermimodèlescomprenant
desmodèlesoptimaux.Les graphiquesdu critèrede RMSE en fonction du
ner les paramètres
auxfiguresC.6 (T=21,C.7 (T=5), C.8 (?=10), C.9 (T=25)
nombrede stationsk sontprésentés
et C.10(T=50) deI'annexeC. Le tableau5.19décritles différentsmodèlescalibrésalorsquele
descriptiveet prédictiveen terrnede RMSE
tableau5.20présentel'évaluationde leurscapacités
que pour les périodesde retourT de 2,5,10et 25 années,le nombre
et de DRM. Remarquons
optimalde stations,hcorrespondau nombremaximalde stationspouvantêtre inclusesdansla
régiond'influence.Tousles sites,à partle sitecible,sontdoncutiliséspourla calibrationdu modèleprédictif.La seuledistinctionentrecesmodèleset les modèlesde régressionlog-linéaire
résidentdonc dansl'utilisation d'une fonction noyautriplementcubiquepour I'approchede
par régiond'influence.
régression
TAs. 5.19: Les modèlescalibrésde régressionpar région d'influence
de stations k
Nombre
2
5
10
25
50
26
69
69
69
69
A,S,L
A,RS,L
A,P,S,L
A,P,S,L
A,RS,L
TAs. 5.20: RMSE et DRM desmodèlesde régressionpar région d'influence
DRM (7o)
0,115
115
5.4.3 Le modèle additif par polynômeslocaux
Nousavons,dansun premiertemps,tentéd'effectuerla calibrationdesdifférentsmodèlespour
les donnéesde la région 01 à I'aide de la procédurelocfit. Nous avonsalors rencontrédes
de I'algorithmedebaclcfitting.Lenombred'itérations
difficultésau niveaude la convergence
desdifférents
par défaut(25) du logiciel S-Plusne permettaitpasI'atteintede la convergence
modèles.Nous avonsdonc augmentéce nombred'itérationsà 50 ce qui a permisla converle tempsde calcul.En pratique,
gencede I'algorithmemais en augmentantconsidérablement
causéspar unetrop forte corrélationentreles
sontgénéralement
cesproblèmesde convergence
différentesvariablesprédictives,commel'indiquentd'ailleursHastieet Tibshirani(1990):
"'Whena smoothing-spline
or running-linesmootheris usedfor severalpredictors, practicalexperiencehasshownthat if the predictorsare correlate4 many iterationsmaybe requiredto get the correctaverageslopeof the functions"
Or, ce problèmede corrélationestbien connuen régressionlog-linéairedesqlrantilesde crue
d'ailleursI'utilisationde la régressionridge(Hoerlet Kenet Roy et al. (1989)recommandent
des
du modèlede régression
nard, 1970)afin d'estimerde manièreplus efÊcaceles paramètres
quantiles.Le tableau5.21 illustre les résultatsdes corrélationsobtenuespar la procédurelm
On constatela présencede
de S-Pluspour les régionsdu Texaset de la Nouvelle-Angleterre.
à (-0,81et
comparativement
corrélationsélevées(-0,91et -0,73)pour la Nouvelle-Angleterre,
rencontrés.
-0,51)au Texas,ce qui pourraitexpliquerles problèmesde vitessede convergence
Tln. 5.21: Matrices de corrélation desparamètresdesmodèlesde régressionlog-linéaire
Nouvelle-
0e
-0.24
Êt
0s -0.14
0p -0.96
0nn -o.7r
0t' 0.09
-0.03
0.25 0.06
0.09 -0.51 0.67
-0.81 0.50 -0.2r -0.36
0.04
0.32
-0.98
-0.10
-0.03
0pt
-0.14
0.04 -0.34
0.01 -0.73 0.01
-0.91 0.4s -0.05 -0.29
Alors qu'en régressionparamétrique,la régressionridge permetde faire face au problèmede
corrélationentre les variablesprédictives(pour plus de détails,voir Roy et al. (1989)),en
modélisationadditive,Buja et al. (1989)ont développéun algorithmeamélioréde bacffitting
(à ne pasconfondreavecI'algorithmemodifiéde Hastieet Tibshirani(1990)de la figure 3.3)
Cet algorithmeconsisteà
permettantde s'attaquerà ce problèmede vitessede convergence.
séparerchacundes lisseursen une partie linéaireparamétriqueet en une partie non linéaire.
116
afin deprocéderà leur estimationen uneseule
Les termesparamétriques
sontensuiteregroupés
étape.L algorithmerégulierdebacffittingestquantà lui utilisépourI'estimationdela partienon
linéairedesdifférentslisseurs.Cet algorithmeestutilisépar S-Pluslorsquele lisseuremployé
est le loess.Puisqueles procéduresloesset locfit sontéquivalenteslorsquela fonctionnoyau
utiliséeest la fonctiontriplementcubique,nousavonsdécidéd'opter pour la procédureloess
de procédurenousa permisde faire
pour la calibrationdesdifférentsmodèles.Ce changement
passerle tempsmoyende calcul d'un modèleadditif de 7,5 secondesà 0,6 seconde(sur un
ordinateurIBM PentiumII - 350 Mhz) et donc 12,5fois plus rapidequela procédurelocfit.
les résultatsde la calibrationdesmodèles
Les tableaux5.22 et 5.23 présententrespectivement
à cesmodèles.La figure5.9 illustre
MAI et MA2 ainsiqueles critèresRMSEet DRM associés
de Q5s.LeslissagesdesquantilesQ2,
leslissagesobtenusparMAI etM{2pour la modélisation
respectivement
auxfiguresC.11,C.12,C.13et C.14deI'annexeC.
Qs, Qroet Qzsseretrouvent
quele modèleMA2 a convergéversunerelationlinéairepour la variableA alors
Remarquons
quepourMAl, bien queha : 0.6,on observetoutefoisla présenced'unerelationassezlinéaire.
Mentionnonsenfin que I'approcheMA2 a convergé,pour 8ro et Qzs,vers le mêmemodèle
qu'avecI'approcheR[ alorsquepour Q5s,seulle lisseurde la variableS n'a pasconvergévers
un termeparamétrique.
T;s.5.222 RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=L
Paramètresoptimaux h*
DRM (7o)
Tls. 5.23: RMSE et DRM desmodèIesadditifs de polynômeslocaux : c=2
Quantile
modélisé
Qs
DRM (7a)
PRED
21,7
22,5
Qto
23,3
Qso
28,3
tt7
MA2
MAI
(|
s!
@
@
o
o
u?
?
o
q
o
o
6
Ç
f|
1.0
2.O
1.5
g?
.ffi
a
0
@
ç
1.60
1.65
?
1.70
1.60
1.75
1.70
1.65
P
q
o
o
22
2.4
2.6
2.8
ËL
3.0
3.2
9.4
ù?
q?
o
o
u?
o
o
ç
q
1.O
1.5
Ftc. 5.9: Modélisationadditivede Qso
1.75
118
5.4.4 Comparaisondesrésultats
Les tableaux 5.24 et 5.25 présententrespectivementles valeurs de RMSE et de DRM obtenues
par les différentesapprochespour les diversespériodede retour étudiées.Ces tableauxindiquent
aussil'écart entre les résultatsobtenuspar le meilleur modèle additif MA et le modèle de régression par région d'influence RI. On constateque les différentesapprochesprocurentsensiblement
les mêmesrésultatsavec au plus un écart entre MA et RI de 27a. Ces faibles différencesétaient
prévisibles à partir du moment où la calibration par les différentes approchesa convergévers
des modèlessimilaires.
TLr. 5.24: Comparaison des errreurs de prédiction : RMSE - Nouvelle-Angleterre
Quantile
modélisé
2
Qs
Qrs
Qsa
Modèle A(MA,RI)=100(MA/RI-1
Modèle
(Vo)
ML
RI
MAl MA2 optimal
0,5
0 , 1 1 9 0 , 1 1 5 0 , 1 1 8 0 , 1 1 5 RI
2,O
0,r24 0 , 1 1 8 0,126 0,r21 RI
1,0
o,123 0,122 0,130 0,r23 RI
0,5
RI
o,r34 0,133 0,L43 0,134
-1,3
0 ,1 4 8 0,147 0 ,158 0,146 MA2
Tnn. 5.25: Comparaisondeserreurs de prédiction : DRM - Nouvelle-Angleterre
5.5 Application à la région de I'Arkansas
Danscettesection,nousappliquonsles différentesapprochesde modélisationaux donnéesde
I'Arkansas.Il s'agit du mêmeensemblede donnéesque celui utilisé par Taskeret al. (1996)
pourla modélisationdu quantileQsoparla méthodedela régressionpar régiond'influence.Les
des20zlstationsutiliséesen Arkansasseretrouvent
donnéeshydrologiques
et physiographiques
au tableauD.1 de I'annexeD. Les donnéesde quantilesutiliséesproviennentdu USGS(Hodge
ll9
et Tasker,1995)et ont été estiméspar I'ajustementd'une loi Log-Pearsontype III à I'aide
par le Hydrology Subcommitteeof the InteragencyAdvisory
de la procédurerecommandée
disponibles
explicatives
aussiquelesvariables
Committeeon'WaterData (1982).Mentionnons
(4, S, P, EL et L) mais que pour la modélisation,Tâsker
sontles mêmesque précédemment
et al. (1996)ont utilisé la variablefacteur de forme du bassin (BasinShapeFactor) (SH)
calculéeen divisantla superficiedu bassinversant(A) parle carréde la longueurdu coursd'eau
principal(L) plutôt que la variableL. De manièreà reproduireleursrésultats,nousutiliserons
donccommevariablesprédictivespotentielles: A, S, P,EL et SH.
5.5.L Le modèle de régressionlog-linéaire
Aprèsavoir calculéle critèrede RMSE desdifférentsmodèlespotentielsdu tableau5.3, nous
du
avonsétéen mesurededétecterle modèlepour lequelle RMSEétaitoptimal.Les graphiques
aux périodesde ret'our
RMSE desdifférentsmodèlesde régressionlogJinéairecorrespondant
et D-5deI'annexe
auxfiguresD.1,D.2,D.3,D.4
respectivement
(T=2,5,10,25
et 50) seretrouvent
desdifférentsmodèlesalorsque le
desparamètres
D. Le tableau5.26 présenteles estimateurs
tableau5.27présenteles critèresdeRMSEet de DRM calculéspour cesmodèles.
Tas. 5.26rLes paramètnesestimésdeséquationsde régression
T
2
5
10
25
50
9o
-5,199
-5,173
-4,874
-4,598
-4,229
Êa
0s
9,
Fr:r, p
0,724 0,155 2,162 0,484 0,127
0,739 0,179 2,214 0,553 o,217
0,745 0,192 2,115 0,570 0,258
0,752 a,203 2,O15 0,599 0,305
0,756 0,215 1,884 0,602 0,338
Tlts. 5.272RMSE et DRM desmodèlesde régressionlog-linéaire
r20
5.5.2 Le modèlede régressionpar région d'influence
pour les différentesvaleursposAprès avoir calculéle critèrede RMSE par validation-croisée
sibles du paramètrek, nous avonsété en mesurede déterminerles paramètresdes modèles
du critèredeRMSEenfonctiondu nombrede stationsk sontprésenoptimaux.Les graphiques
tésaux figuresD.6 (T=2),D.7 (?=5), D.8 (?=10),D.9 (T=25)et D.10 (?=50) de I'annexeD.
Le tableau5.28 décrit les différentsmodèlescalibrésalorsque le tableau5.29 présentel'évaluation de leurscapacitésdescriptiveet prédictiveen terTnede RMSE et de DRM. On constate,
au tableau5.28,quecommeon devaits'y attendre,plusle modèleoptimalde répessionpar région d'influencecomportede variablesexplicatives(plusde paramètresà estimer)plusla taille
pour estimerles
optimalede la régiond'influenceaugmente(plusde donnéessontnécessaires
enfin que la taille optimalek ne représenteenviron qtte lïVo à I57o
paramères).Remarquons
du nombretotal d'observations.
Tln. 5.28: Les modèlescalibrésde régressionpar région d'influence
de stations ft
Nombre
2
5
10
25
50
A,S,REL
A,S,REL,SH
A,S,EL
A,S,P,EL,SH
A,S,P,EL,SH
22
26
19
3L
28
TEn. 5.29:RMSE et DRM desmodèlesde régressionpar région d'influence
tzl
5.5.3 Le modèleadditif par polynômeslocaux
La procédure de calibration pas-à-pasdes modèles additifs demande, en entrée, un vecteur
de paramètresinitiau* g(o)=(â[0),hl]],à50),nto),n[0)). nour la modélisationde Qr at Texas
nous avonsdébutéla procédurede sélectionpas-à-pasavecdes
et en Nouvelle-Angleterre,
voisinagesde 509odes observationspour chacunedes variablesexplicativesdu modèlesoit
g(o)-(g.b,0.5,0.5,0.5,0.5).Aveclesdonnées
del'Arkansas,nousavonsobservéquepourI'apcomme
dechoisir11(o)=(0.9,0.9,0.9,0.9,0.9)
MA2, il étaitpréférable
proehede modélisation
initiaux. En effet, lorsquec : Z,le nombrede paramètreseffectifsdu
vecteurde paramètres
pénalisé,il est alorsprobablequ'uneou plusieursvariablesexplicatives
modèleest davantage
par un termelinéaireou encore(2) excluesdu modèles.Or, en débutant
soient(1) représentées
avecâ,f0): 0.9, les modèlescomportantdestermeslinéairessont évaluésdèsle départce qui
et
dounepafr,permetd'augmenterla vitessed'exécutionde la procédurede sélectionpas-à-pas,
d'autrepart,empêchequ'un optimumlocalsoitatteintavantd'avoir pu évaluerlesmodèlescomportantdestermeslinéaires.Pourl'approchede modélisationMAl, I'utilisationde à(0): 0.5 a
toujoursprocuréles meilleursrésultats.
les résultatsde la calibrationdesmodèles
respectivement
Les tableaux5.30 et 5.31 présentent
MAl et MA2 ainsi que les critèresde RMSE et de DRM associésà ces modèles.La figure
5.10illustreleslissagesobtenuspar MA2 pourla modélisationde Qro,Qzset Sso.Leslissages
pour MAl se retrouventà la figure D.13 de l'annexeD alors que les lissages
correspondant
aux figuresD.ll et
obtenuspar MA1 et MA2 pour 8z etQs sont présentésrespectivement
D12 del'annexeD. On observeà la figure5.L0,et ce pour les différentespériodesde retour,la
présenced'unerelationnon linéaire(nonlog-linéaire)pourla variableexplicativeS (la pentedu
bassinversant).Cettenon-linéaritéde la variableS pourraitêre l'élémentimportantexpliquant
par
lors de l'étudedeTaskeret al. (1996),de la méthodede la régression
la bonneperformance,
régiond'influenceen Arkansas.
Tr,n. 5.30: RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=l
RMSE (logto)
DRM (7o)
I22
Tln. 5.31: RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=2
RMSE (logro)
Quantile Paramètresoptimaux h*
modélisé
DRM (7o)
37,5
30,4
29,5
29,8
31,3
Qz
0,159
0,r47
Qro
0,161
Qso
8ro
Qso
Qzs
o
o
ct
-r.0
.o.5 0.0
05
r.0
1.5
.1.0 .0.5 0.0
2.0
0.s
s
1.0
1.5
2.0
0.0
0.5
r.0
r.5
2.0
rQ
c;
2.10
t.6
1.8
2.O 2.2
EL
2.4
2.10
2.15
2.6
2.8
'f.6
t.8
2.O
22
EL
2.15
2.4
2.6
2.4
1.6
1.A
2.O
22
EL
Flc. 5.10:Modélisationadditive(c : 2) deQro,Qzset Qso
2.4
2.6
2.4
r23
5.5.4 Comparaisondesrésultats
les résultatsde RMSE et de DRM obteLes tableaux5.32 et 5.33 présententrespectivement
nus par les différentesapprochespour les diversespériodesde retour étudiées.Ces tableaux
indiquentaussil'écart entreles résultatsobtenuspar le meilleur modèleadditif MA et le modèlede régressionpar régiond'influenceRI. On peut constaterque I'approchedu MA conduit
auxmeilleursrésultatssaufpour le critèreDRM pour la modélisationde Qz (cf. tab.5.33).On
remarqueaussique la modélisationde Qsoà I'aide de MA2 perrnetunediminutiondu RMSE
de mad'environ87oparrapportà I'approchede régressionpar régiond'influence.Cependant,
utiliséespar
R[, MAI et MAZ auxapproches
desapproches
nièreà comparerles performances
5.33 la figure 3 de Taskeret al'
Taskeret al. (lgg6),nous avonscomplétéà partir du tabLeau
(1996)afind'y inclureles critèresde DRM obtenuspour Q5s.La figure5.tr1illustrecesrésultats.Rappelonsque l'étude de Taskeret al. (1996)consistaità comparerdiversesprocédures
de sitesenrégionsutilisée: les mérégionaleselonla procédurederegroupement
de régression
les 2O4stationsde I'Adransasen 1,2 et
thodesA,B et C consistaientà séparerrespectivement
la méthodeD consistaità regrouperles sitesen régionsà I'aide d'une
4 régionsgéographiques,
des
physiographiques
(cluster analysis)baséesur les caractéristiques
analysede regroupement
bassinsversantsalorsque la méthodeE consistaitplutôt à déterminerunerégiond'influenceà
dans
chacundessitescibles.Cettefigure monffela bonneperformancedesméthodesprésentées
par Taskeret al. (1996).
considérées
cettethèsepaf rapportaux approches
Tnn. 5.32: Comparaisondeserreurs de prédiction : RMSE - Arkansas
A(MA'RI)=1
uantile
modélisé
Qz
Qn
Qso
0,193
(vo)
-0,3
-TL,4
-9,5
-7,9
I24
Modélisationadditve parpolynômeslocauxpour la régionalisation
Tln. 5.33: Comparaisondeserneursde prédiction : DRM - Arkansas
A(MA'RI)=MA'RI
(Vo)
Quantile
modélisé
-2,1
Qrc
Qzs
Résultatsde Taskeret al. (1996)
*
É
g c )
F o
E
p
CL
o
o
p ô l
J
UJ
Méthode de régionalisation
Frc. 5.11: Comparaisondeserreursde prédiction(DRM) en Arkansas(adaptéde Taskeret al.
(1ee6)
6. CONCLUSION
6.1 Motivation de l'étude
Pourla planification,incluantla conception,desouvragesdecontrôledesinondationsou detout
autreouvragesoumisaurisquede défaillanceparleseaux,leshydrologuessontsouventarnenés
à produiredesestimationsde la magnitudeQ, de la cnreayantunepériodede retourT pté'alaterritorialeset du coût associéà I'installationet
blementdéfinie.En raisondesgrandesétendues
que I'estimationde Qr soit reqrise
au maintiende stationsde mesures,il arrivefréquemment
en un site où I'on ne disposed'aucuneinformationhydrornétrique(site non jaugé).Danscette
ditesde régionalisationpour transférer
situation,il est alorspossibled'utiliser desprocédures
l'information disponibleen des sitesjaugésversle site non jaugé où l'on désireproduireune
estimation(sitecible).
De manièregénérale,les procéduresde régionalisationcomportentdeux étapesdistinctesqui
consistentà (1) choisirlessitesjaugésà partirdesquelss'effectuerale transfertd'informationet
(2) appliqueraux siteschoisisun modèlede transfertd'informationrégionale.Les hydrologues
deméthodesleur pennettantd'effectuerI'une ou I'auEede
ont à leur dispositonuneabondance
cesétapes.Aux États-Unis,Taskeret al. (1996),deshydrologuesdu USGS,I'organismeimplipour chacundesÉtatsaméricains,
quédansle développement
derégionalisation
desprocédures
ont proposérécemmentl'emploi de la méthodede la régressionrégionalepar région d'influence, une procéduredont le modèlede transfertutilisé est le modèleclassiquede régression
log-linéairedesquantiles(Benson, 1962)et pour laquellele choix dessitess'effectueà I'aide
de la méthodede la régiond'influence(Burn, 1990a).Lors d'étudesrécentes(Taskeret Slade
(1994),Taskeret al. (1996)),cetteapprochea permisd'obtenirde bien meilleursrésultatsque
I'approchetraditionnelledu USGSconsistantà séparerl'Étaten régionshydrologiquesgéographiquesà I'aide d'une analysedu signedesrésidusdeséquationsde régressionet à appliquer
un modèlede régressiondifférentpour chacunedesrégionsainsiformées.L Étatde l'Arkansas
a d'ailleursincluscetteméthodedanssondernierrapportsur I'estimationde la magnitudeet de
la fréquencedescrues(e.gHodgeet Tasker(1995))aveccertainesréservescependant:
"The regionof influencemethodis still being improvedand is to be considered only as a secondalternativeto the regionalregressionequations.The regional
procedure."
regtessionequationsarethe recommended
126
La motivationpremièrede ce travail a étéI'améliorationde la procédurede régressionpar région d'influence.Réalisant,dansun premiertemps,que la méthodede la régressionpar région
connueen stad'influenceappartientà unefamille de modèlesde régtessionnon paramétrique
tistiquesousle nom de modèlesde régressionlocale, nous avonsd'abord voulu utiliser les
conceptsde la régressionlocaleafin d'optimiserI'estimationde la méthodede la régressionpar
régiond'influence,notammentauniveaudu choix du nombreoptimalde stationsà incluredans
à la famille desmodèlesderéla régiond'influence.Puis,réalisantquedepar sonappartenance
régionalepar régiond'influenceseheurteau problème,
gressionlocale,le modèlederégression
bien connuen statistique,de la raréfactiondes donnéesdansun espaceà grandedimension,
par région
nousavonsplutôt proposéunenouvelleapprochede modélisationnon paramétrique
d'influencequi ne soit pasinfluencéepar ce problèmede dimensionalité: loapprochede la
modélisation additive par polynômeslocaux.
6.2 Objectifs
étaitd'évaluerI'utilisationde I'approchede modélisation
L objectifprincipalde cetterecherche
additivepar polynômeslocauxcommeméthodealternatived'estimationrégionaledes débits
de crue Qr en des sitesnon jaugés.Afin d'atteindrecet objectif,deux étapesprincipalesont
été identifiées.La premièreétapeconsistaità présenterune descriptiondétaillée des diverses
et plusparticulièrement
debased'uneapprochedemodélisationnonparamétrique
composantes
deI'approchede modélisationadditiveparrégressionlocalepolynomiale.Plusspécifiquement,
lors du choix (1) desvariables
il s'agissaitde discuterdesélémentsà prendreen considération
explicativesà incluredansle modèle,(2) du niveaude lissageassociéà chacunede cesvariables
explicatives,(3) du degrédesdifférentspolynômeslocaux,et (4) de la fonctionnoyauà utiliser.
La deuxièmeétapeconsistaitquantà elle à évaluerles qualitésprédictivesde I'approchede
modélisationproposée.Dansles sections6.3 et 6.4, nousdécrivonscommentcesobjectifsont
étéatteints.
6.3 Démarche
et résuméà partir
Pouratteindreles objectifsvisés,nousavonsdansun premiertempsrassemblé
de notretravail.Ainsi, aux
à la compréhension
deplusieursdocuments,lesélémentsnécessaires
présentéles conceptsimportantsde I'approchede
chapitres2 et 3, nousavonsrespectivement
modélisationpar régressionlocaleet de I'approchede modélisationadditive.Nous avonsainsi
cesnotionsà I'ingénieurpraticien.
voulurendreplus accessibles
CONCLUSION
1W
Au chapitre4, nousavonsprésentécertainsconceptsde baseliés au problèmede la régicnalisation des quantilesde crue et avonseffectuéune revuebibliographiquedes approchesde
jugéespertinentespour noffe travail.Nousavonsconstatéqu'en ce qui concerne
modélisations
]e choix dessites,on reprocheaux différentesméthodesleur grandesubjectivitéet le fait d'être
pour I'analysede la similaritéhydrologiqueen utilisant descritèresqui ne soient
développées
pasdirectementreliésauxobjectifsde I'estimationdescrues,soit de produireuneestimationde
8r gui soit la plus précisepossible.Parexemple,Nguyenet Pandey(1996)mentionnent:
"Recenttechniques,
suchasdiscriminantanalysis(Wiltshire, 1986a),regionof
(Hoskinget Wallis, 1993)also
influence(Burn, 1990a),and discordancynxeasure
involved a greatdeal of subjectivity in deûÊlrniningthe grotrping of homogeneous
\ileredevelopedfor theassessbasins.Further,all previousclassificationtechniques
similarityusingcriteriathatarenot directlyrelatedto thepurpose
mentof watershed
of estimationof floods.The accuracyof flood estimatesfor an ungaugedsitebased
is thusratherlimited."
on thesetechniques
Et dansun mêmeordred'idée,Roy (1993)indiqueà props du caractèresubjectifdela méthode
de la régiond'influence:
"Bien queBurn (1990b)indiquequ'il estpréférablepour desconsidérations
de
robustessederetenirun grandnombrede stations,il estfès souhaitablede disposer
d'une méthodeobjective pour déterminerle nombrede stations à inclure dansle
voisinage"
En ce qui concemele modèlede transfertd'informationrégionale,nous avonsconstatéqu'au
cours des dernièresannées,de nouveauxmodèlesrégionauxsont apparusdans la littérature
notammentau niveaude la forme des
afin de comblercertaineslacunesde leurs prédécesseurs,
observéempiriquement.
modèlesutilisésqui était inconsistanteavecce qui est généralement
critiques(e.g.Potter(1987),NRC (1988),Bobéeet Rasmussen
De plus,suiteà de nombreuses
"statistiques",
on a vu
(1995) à I'effet que les différentsmodèlesde régionalisationsont trop
apparaîtrede nouvellesapprochesaccordantplus d'importanceà la physiquedesphénomènes.
Fill et Stedinger(1998)indiquentà ce sujetqu'il estgrandtempsde mettredecôtélesméthodes
des
observéeempiriquement
d'estimationrégionalesqui ne font pas intervenirla dépendance
physiogfaphiques
quantilesdecrueavecI'aire desbassinsversantset les autrescaractéristiques
importantes.
La revue bibliographiquedu chapitre 4 nous a permis de mettre en évidenceles lacunesdes
Nous
méthodesexistanteset d'identifier la directionempruntéepar les nouvellesapproches.
avonsainsi pu proposerune nouvelleapprochede modélisationfaisantintervenir,commele
I28
entreles quantilesde crue et les
suggèrentd'ailleurs Fill et Stedinger(1998),la dépendance
importantes.La forme de cettedépendance,
caractéristiques
aux approchesd'invarianced'échelle(Guptaet al., 1994)ou desquantilesnorcontrairement
pas déterminéea priori et ce sontplutôt les
malisés(Fill et Stedinger,1998),n'est cependant
donnéesqui la déterminent.Nous avonsenfin mis en évidencele fait que dansI'approchede
modélisationproposée,l'étapedu choix dessitessetrouveintégréeà la procédured'estimation
du modèlede transfertce qui, d'un point de vueopérationnel,simplifiela procédurede modélidirectementreliéeà
sationrégionaleet permetde plus uneestimationobjectivedesparamètres
I'objectif principaldesprocéduresde régionalisation: I'estimationla plus précisepossibledes
quantilesde crue.
Au chapite 5, nousavonsappliquéI'approchedemodélisationadditiveparpolynômeslocauxet
log-linéairede mêmequ'à un modèlede régression
I'avonscomparéà un modèlede régression
régionalepar régiond'influence.De plus,nousavonsprésentéune approchede calibrationdu
modèlede régressionrégionalepar région d'influencepermettantde déterminerde manière
optimaleet objectivele nombrede sitesà incluredansla régiond'influence.Nousavonsévalué
lesqualitésprédictivesdesffois modèlespourtrois régionsdesÉtats-Unis.
6.4 Résumédesrésultats
Un de nos sous-objectifsétait d'évaluerles qualitésprédictivesde I'approchede modélisation
Nousavonsutilisé desdonnéesprovenantde 3 régions
additiveparpolynômeslocauxproposée.
des
et I'Arkansas.Cestrois régionspossédaient
desÉtats-Unis: le Texas,la Nouvelle-Angleterre
particulièresdont I'influencesur I'approcheproposéesedevaitd'être évaluée.
caractéristiques
Les donnéesde la région du Texassemblaientindiquerla présenced'une relationnon linéaire
entrele logarithmedu quantile de crue Qsoet le logarithmede la superficiedu bassinversant
semblaientplutôt indiquerla présenced'une
alorsque les donnéesde la Nouvelle-Angleterre
relationlinéaire.La régionde I'Arkansassedistinguaitquantà elle desautresrégionspa.rune
forte densitéspatialedes stationsce qui implique l'existence d'une corrélation spatialeélevée
entreles mesuresde débit dessitesde la région.
nousavonsutiliséla procéduredu
Afin d'évaluerlesqualitésprédictivesdeI'approcheproposée,
permettantd'obtenirune estimationdeserreurs
une techniquede rééchantillonnage
Jaclclcnife,
la racine carde prédiction.Nous avonsretenul'utilisation de deux critèresde comparaisono
rée deserreursquadratiquesmoyennesde prédiction (RMSE) et la déviationrelative rnoyenne
CONCLUSION
r29
(DRM), expriméeen pourcentage,
des erreursde prédiction.Nous avonscalculécescritères
pour I'estimation(prédiction),en dessitesnonjaugés,desquantilesde crue Qz, Qs, Qn, Qzs
et Qso.Nousavonscomparéles résultatsobtenuspar I'approchede modélisationadditiveaux
résultatsobtenuspar un modèlede régressionpar régiond'influenceet par le modèleclassique
de régressionlog-linéaire.
Avant d'appliquerles différentsmodèles,nousavonsprocédéà leur calibration.Partantdu fait
que la méthodede régressionpar régiond'influence,telle quedéfiniepar Taskeret al. (1996),
constitueun cas particulierde régressionlocalemultivariée,nous avonsproposéI'utilisation
d'une approchede calibrationpermettantde choisir de manièreoptimalela taille de la région
d'influence.Nous avonsalorsconstatéque cettefaçonde faire permettaitde diminuerde malesereurs deprédictionde la méthode.Nousavonsaussimodifiéquelquepeu
nièreappréciable
I'approchedeThskeret al. (1996)enajoutantunefonctionnoyauà la méthode.Encoreunefois,
I'ajout d'unefonctionnoyautriplementcubiquea permisI'obtentionde meilleumrésultats.Ces
modificationsà l'approcheinitiale de Taskeret al. (1996)ont par exemplepennis,dansle cas
de I'Arkansas,deréduireI'erreurdeprédictionde38Voà331o(cf. fig. 5.11).Dansle chapitre5,
par
nousavonsdonccomparéI'approchede modélisationadditiveà une approchederégression
régiond'influenceplusperformantequel'approcheinitialede Taskeret al. (1996).
Pour la calibration des modèlesadditifs, nous avonsretenudeux approchesparticulièresemployant toutefois toutesdeux une fonction noyau triplement cubique. La premièreapproche,
notéeMAl, pénalisepeu le nombrede paramètreseffectifs(ou degrésde liberté)du modèle
De MAI ou MA2, il n'a
final alorsquela secondeapproche,notéeMllz,le pénalisedavantage.
pasétépossiblede déterminera priori I'approchepermettantd'obtenir les meilleursrésultatsen
termed'erreurde prédiction.Ainsi, au Texas,I'approcheMAI a toujoursobtenules meilleurs
étéla
et enArkansas,I'approcheMA2 a généralement
résultatsalorsqu'enNouvelle-Angleterre
meilleure.Parcontre,du point de vuedu lissagedesdiversesrelations,il semblequeI'approche
M'A2 produiselesestimationsdont le niveaudelissagesoitle plus adéquat.
nousavonsconstatéqueI'approche
desdiversesapproches,
En ce qui concernela comparaison
de modélisationadditive(MA) aétêlameilleure auTexaset en Arkansas,saufpour le critèrede
DRM et la periodede retour de 2 ansou I'approcheRI a étéla meilleure.De manièregénérale,
on observeque l'écart entreles approchess'accentuelorsquela périodede retouraugmente.
Pour la modélisationde Qzset Qso,on observedesdiminutionsdu RMSE de lIVo à l7%oau
Texaset de 87oà I07oen Arkansasen employantI'approchedemodélisationadditiveplutôt que
régionoù I'hypothèse
par régiond'influence.En Nouvelle-Angleterre,
I'approchederégression
130
Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue ...
de modélisation
nousavonsconstatéqueles diversesapproches
de linéaritésemblaitrespectée,
de modélisationadditiveet de régression
ont obtenudesrésultatsvoisins.En fait, lesapproches
parrégiond'influenceont toutesdeuxconvergéversle modèlede régressionlog-linéaire.Ceréde linéaritéémisesparle modèleclassique
sultatnousindiquequemêmelorsqueleshypothèses
il y a peu de risqueà avoir recoursà une approche
de régressionmultiple semblentrespectées,
linéaireclasversle modèleparamétrique
de modélisationadditivepuisquecelle-ciconvergera
sique.
D'aprèslesrésultatsobtenusen Arkansas,il semblequela présencedecorrélationspatialeentre
lesmesuresdedébit de cruene soit pasun facteurlimitant I'applicabilitédu modèleadditif. Par
contre,nousavonsremarquéque le problèmede multicollinéarité(i.e. de corrélationentreles
variablesprédictives)fréquemmentrenconffédansles étudesde régionalisationdes quantiles
de cruepouvaitavoir un impact sur la vitessede calibrationdesmodèlesadditifs.Nous avons
toutefoisprésentéun algorithmepermettantde résoudrece problèmeet I'avonsappliquéavec
succès.
produitdesestimationsdesquantilesplusprécises
L approchedemodélisationadditiveproposée
(précisionprédictive)que les estimationsobtenuespar la méthodede la régressionpar région
d'influence.Cette approchea en outre un avantagemajeur sur I'approchede régressionpar
I'effet (conditionnel)des variables
région d'influence; elle permetd'observergraphiquement
explicativessurla valeurdesquantilesmodélisés.Parexemple,pourla modélisationde Qss,ces
d'unerelationnon-linéaire(nonlog-linéaire)
graphiques
nousont permisd'identifierlaprésence
pour (1) la variableexplicativeS (la pentedu bassinversant)en Arkansas(cf. fig. 5.10)et (2) la
permettent
variableexplicativeA (l'aire du bassinversant)auTexas(cf. ûg. 5.4).Cesgraphiques
danscesrégions,dela méthodede la régiond'influenceet de
d'expliquerla bonneperformance,
log-linéaire.
l'approchede modélisationadditiveparrapportau modèleclassiquede régression
6.5 Contribution
Commeon l'a noté dansles sections6.3 et 6.4, nousavonsatteintles objectifsque nousnous
sommesfixés pour ce travail. Notre contributionà la régionalisationdesquantilesde crue se
situeà différentsniveaux :
o unerevuede la littératurerésumantla problématiquedela régionalisationdesquantilesde
et d'identifier
crueet permettantde mettreenévidenceleslacunesdesméthodesexistantes
la directionempruntéepar les nouvellesapproches;
CONCLUSION
131
o une synthèsedes conceptsde basede la régressionnon paramétriqueet, plus particulièrement, des approchesde modélisation additive et de lissagepar régressionlocale;
o la mise en évidence de certaines lacunesde I'approche de la régressionpar région d'influence de Taskeret al. (1996) ;
o le développementd'une approche de calibration permettant de déterminer de manière
optimale la taille de la région d'influence du modèle de Tasker et al. (1996) ;
o un modification mineure apportéeà la méthodede Tâskeret al. (1996) afin d'en améliorer
les capacitésprédictives;
détailléed'une nouvelleapprochede modélisationrégionaledesquantiles
la présentation
decrue;
I'applicationet l'évaluationde la méthodeproposéepourtrois régionsdesÉtats-Unis.
6.6 Tbavauxfuturs
régioPlusieursvoiesde rechercheseprésententà la suitede ce travail.D'abord,en régression
naledesquantilesde crue,il estbien connu(Stedingeret Tasker,1985,1986)qu'un modèlede
réelledeI'esde la problématique
ou généralisés
estplusreprésentatif
moindrescarréspondérés
de la varianceinégaledesestimateurs
timation régionaledesquantilesen raisonrespectivement
locauxQr,a(baséssur destaillesd'échantillondifférentes)et de la corrélationspatialeannuelle
voisins.
pouvantexisterentredesDMA de sitesgéographiquement
En ce qui concernele problèmedesvariancesinégales,nousavonsvu que le modèlederégression locale ne permetI'utilisation que d'une approcheparticulièred'estimationpar moindres
a priori de la pondération
carréspondéréset que cetteestimationrequiertune connaissance
accordéeà chacunedesobservations(chacundessiæs).Il seraitintéressantde disposerd'une
méthodeobjectiveet optimalepour déterminerla fonction de pondérationà employer.Cette
fonctionpourraitêtreobtenueen optimisantun critèrede performanceet devraitprobablement
locauxdes
tenir comptede la formeparamériquede l'expressionde la variancedesestimateurs
quantiles.
En ce qui concemele problèmede la corrélationspatialedeserreurs,Opsomeret al. (1999),
en présenced'erreurscorrédansunerevuesur le problèmede la régressionnon paramétrique
lées,mentionnentque ce n'est que récemmentqu'un certainnombred'auteursont commencé
au problèmede la présenced'une strucà s'intéresser(pour la régressionnon paramétrique)
132
ture dansla matricede corrélationdeserreurs.Il seraitdonc intéressantd'effectuerune analyse des différentesméthodesdisponiblesafin de déterminercelle qui est la plus appropriée
pour le problèmede la régionalisationdesquantilesde crue.À cet égard,I'article de Opsomer
On y présented'ailleursun exemple
et al. (1999)sembleêtre un point de départintéressant.
à proposde mesuresde I'acidité de lacset
rnultidimensionnelle
derégressionnon paramétrique
on modélisela corrélationspatialedeserreursà I'aide de la structureexponentiellesuivante:
Cov(ea,ei) : o2 exp(-d,ii/p) où d,;i estla distanceeuclidienneentredeux lacs i et j. Cette
approchepourraitêtreadaptéeau casde la modélisationadditive.
Danscettethèse,les diversescalibrationsdes modèlesadditifs ont été effectuéesà I'aide de
la version4.0 du logiciel S-Pluspour Windows.Nous avonsainsi du retenirune procédurede
calibrationqui est facilementdisponibleavecS-Plus.D'autresprocéduresde calibration(e.g.
méthoded'Opsomer(Opsomer,1995),BRUTO (Hastieet Tibshirani,1990))sont disponibles
et étudiées.Dans un même ordre d'idées,il serait aussi
et mériteraientd'être programmées
de S-Pluspermettantd'effectuerla procédurede
utile de disposerd'un programmeindépendant
modélisationadditiveproposée.Cetteprocédurepourraitaussiêtre ajoutéeà certainslogiciels
tel que le logiciel HYFRAN.
hydrologiques,
L'approchede modélisationadditivepourraitaussiêtreappliquéeà d'autresdomainesde I'hydrologie statistiqueet plus particulièrementaux domainesoù la régressionnon paramétriquea
Enfin, cetteapprochede modélisationn'a été
déjàpermisd'obtenir desrésultatsintéressants.
par régiond'influence.D'autresétudesde comparaicomparéequ'à la méthodede la régression
de comparer,par exemple,I'approchede modélisation
Il seraitintéressant
sonsontnécessaires.
additiveà une approchede régressionpour laquelleune analysedescorrélationscanoniquesa
permisde déterminerles voisinages(cf.4.3.2.4).
Bibliographie
desétiageset de leurs duréesen vue de
Abi-Zeid, I. (1997). La modélisationstochastique
l'analysedu risque. Thèsede Doctorates Sciences(Eau),INRS-Eau,Universitédu Québec,
Ste-Foy(Québec).
kernelestimationof flood frequencies.WaterResources
Adamowski,K. (1985).Nonparametric
Research,2I (lD, 1585-I 590.
estimation
Adamowski,K. (1989).A MonteCarlocomparisonof parametricandnonparametric
Journalof Hydrology,108,295-308.
of floodfrequencies.
estimationof low-flowfrequencies.Journalaf HydraaAdamowski,K. (1996).Nonparametric
Iic Engineering,122, 46-49.
regressionto groundwater
Adamowski,K., et Feluch,W. (1991).Applicationof nonparametric
levelprediction.CanadianJournalof Civil Engineerin7,18,600-6Û5.
analysisby nonpaAdamowski,K., Gingras,D., et Pilon,P.J. (1994).Regionalfloodfrequency
rametricand L-Momentmethods
for Ontarioand Quebec(Reportto NSERCStrategicGrant).
Ottawa: Universityof Ottawa,Facultyof Engineering.
flood ,magnitudeestimator.Joumalof Hydro'
Bardsley,W. E. (1989).A simpleparameter-free
Iogy, 108,249-255.
Becker,R. A., Chambers,J. M., et Wilks, A. R. (1988). TheNew S Language.PacificGrove,
CA : Wadsworth& Brooks/Cole.
PrincetonUniversityPress.
Bellman,R. E. (1961).AdaptiveControlProcesses.
Benson,M. A. (1962). Evolutionof methodsfor evaluatingthe occurenceof fl.oods(USGS
Water-SupplyPaper1580-A).Washington,DC : US Govt.PrintingOffrce.
Benson,M. A. (1968).Uniform floodfrequencyestimatingmethodsfor federalagencies.Water
4(5),891-908.
ResourcesResearch,
Berniet J. (1990). Les incertitudeshydrologiquesdansles problèmesde dimensionnement
de I'eau,3(l),37-53.
Revuedessciences
d'ouvrages.
Bernier,J. (1993).Surles utilisationsdesL-momentsenhydrologiestatistique.RapportInterne
No 128,Institutnationalde la recherchescientifique,Ste-Foy,Québec.
Bernier,I. (1997). Risqueet décisionsen gestionde l'eau : Essaid'analysede la rationalité
du dialogueentrelrydrologueet gestionnairelPapierprésentéau SéminaireJacquesCartier sur
I'Analysede Décisionet du Risqueen Hydrologie,ZT'29octobre19971.
134
type3 distributionand its applicationin hydrology.Water
Bobée,B. (1975).The log-Pearson
Resource
s Research,I J(5), 681-689.
Bobée,8., et Ashkar,F. (1991). The GammaFamily and Derived Distributionsapplied in
Publications.
Hydrology.Littleton,Colorado: WaterResources
P.F. (1993).Towardsa systematic
G., Ashkar,F.,Bernier,J.,et Rasmussen,
Bobée,8., Cavadias,
approachto comparingdistributionsusedin flood frequencyanalysis. Journal of Hydrology,
142,t2l-136.
P. F. (1994). Statisticalanalysisof annualflood series. Trendsin
Bobée,B., et Rasmussen,
Hydrology,l, ll7-I35.
P. F. (1995).Recentadvancesin flood frequencyanalysis.U.S.NaBobée,8., et Rasmussen,
tional Reportto International Unionof Geodesyand Geophysics1991-1994,Reviewsof Geophysics,33suppl.
Bowers,N. L., Gerber,H. U., Hickman,J. C., Jones,D. A., et Nesbitt,C. J. (1986).Actuarial
Mathematics.Itasca,Illinois : The Societyof Actuaries.
Breiman,L., et Friedman,J. H. (1985). Estimatingoptimal transforrnationfor multiple re. Journalof theAmericanStatisticalAssociation,S0,
gressionandcorrelation(with discussion)
s80-619.
Buja,A., Hastie,T. J., et Tibshirani,R. J. (1989). Linear smoothersand additivemodels(with
discussion). Annalsof Statistics, I 7(2), 453-555.
Burden,R. L., et Faires,J. D. (1939). NumericalAnalysrs.Boston: PWS-KENTPublishing
Company.
Bum, D. H. (1990a).Evaluationof regionalflood frequencyanalysiswith a regionof influence
approach.Water Resources Research,26(10),2257-2265.
'region of influence'approachto flood frequency
Burn, D. H. (1990b). An appraisalof the
analysis.Hydrological Sci ences Joumal,35(2), I 49- 165.
Cavadias,G. S. (1989). Regionalflood estimationby canonicalcorrelation[Paperpresented
to the 1989AnnualConferenceof the CanadianSocietyfor Civil Engineering,St-John's,Newfoundlandl.
Cavadias,G. S. (1990). The canonicalconelationapproachto regionalflood estimation.In
of the Ljubljana Symposium,April 1990,p. I7LRegionalizationin hydrology(Proceedings
no. 191.
178).IAHS Publications
J. M., et Hastie,T.J. (1992').StatisticalModelsin S. PacificGrove,CA : Wadsworth
Chambers,
andBrooks/Cole.
BIBLIOGRAPHIE
t35
Chow,V. T. (1964).Handbookof AppliedHydrology.New York: McGraw-Hill.
JourCleveland,W. S. (1979).Robustlocally weightedregressionand smoothingscatterplots.
nal of theAmericanStatisticalAssociation,74,829-836.
Cleveland,W. S.,et Devlin, S. J. (1988).Locally weightedregression: An approachto regressionanalysisby localfitting.Journalof theAmericanStatisticalAssociation,83,596-610.
Cleveland,W. S., et Loader,C. L. (1994). Smoothingby localfitting : VariousissuesstimulaReport). Murray Hill, New Jersey: AT&T Bell
ted by a paper of Fan and Maron (Research
Laboratories.
Cleveland,V/. S., et Loader,C. L. (1996ù. Smoothingby local regression: Principlesand
Aspects
methods.In IV. Hlirdleet M. G. Schimek(Eds.),StatisticalTheoryand Computational
of Smoothing(p. IO-49).New York : Springer.
"Smoothing
Cleveland,\M.S., et Loader,C. L. (1996b).Répliqueailx discussionsde l'article
by local regression: Princîplesand methods"par W S. Clevelandand C. L. Loader(Research
Report).MurrayHill, New Jersey: AT&T Bell Laboratories.
Craven,P,,et'Wahba,G. (1979). Smoothingnoisy datawith splinefunctions. Numerische
Mathematik,3I, 377-403.
Cunnane,C. (1978).Unbiaisedptottingpositions- a review.Joumal of Hydrology,37,205-222.
Cunnane,C. (1987).Reviewof statisticalmodelsfor floodfrequencyestimation.In V. P.Singh
(Ed.),HydrologicFrequencyModeling(Proceedings
of the InternationalSymposiumon Flood
Frequencyand Risk Analysis,Baton Rouge,LA, p. 49-95). D. Reidel PublishingCompany,
Boston.
analyses(Manualof Hydrology : Part 3. Flood-flow
Dalrymple,T. (1960). Flood-frequency
DC : U.S. Govt.PrintingOffice.
techniques).V/ashington,
Dawdy,D. R. (1961). Variationof flood ra.tioswith size of drainagearea.(USGSResearch
PaperC36). Reston,VA.
D. G. (1973). Objectiveregionalizationof peakflow rates.In E. F. Koelzer,V. A.
DeCoursey,
Koelzer,et K. Mahmood@ds.),Floodsand Droughts(Proceedingsof the 2nd International
Symposiumin Hydrology,September11-13,t972, Fort Collins, Colorado,p. 395405). Fort
Publications.
Collins,Colorado: WaterResources
Duckstein,L., et Parent,E.(1.997).Cadregénérald'analyseet de gestiondu risqueet applica'
au SéminaireJacquesCartiersur I'analysede décisionet du risque
tions lConf&enceprésentée
en hydrologie,27-29octobre19971.
136
Efron,8., et Tibshirani,R. J. (1993).An Introductionto the Bootstrap.New York : Chapman
andHall.
Fill, H. D. (1994). Improvingfloodquantileestimatesusingregionalinformation.PhD Dissertation,CornellUniversity,Itlaca,New York.
Fill, H. D., et Stedinger,J. R. (1993).Usingregionalregressionwithin indexffood procedures
andan empiricalBayesianestimator.Journalof Hydrology,2l0,l28-t45.
Fisher,R. A., et Tippett,L. H. C. (1923). Limiting forms of the frequencydistributionof the
smallestand largestmemberof a sample.Proceedingsof the CambrtdgePhilosophiaSociery,
24, t80-190.
Fortin,V. (1994). [Jneméthoderationnellede comparaisondesdistrtbwionsde crwe.Mémoke
demaîtriseesSciences(Eau),INRS-Eau,Universitédu Québec,Ste-Foy(Québec).
àl'aide deprobabilités
del'informationhydrologique
Fortin,V. (1997).Estimationdelavaleur
imprécises.Thèsede Doctorates Sciences(Eau),INRS-Eau,Universitédu Québec,Ste-Foy
(Québec).
Friedman,J. H. (1991). Multivariateadaptiveregressionsplines(with discussion).Annalsof
I 9(l), l-1 41.
Statistics,
Friedman,J. H., et Stuetzle,V/. (1981).Projectionpursuitregression.Journalof theAmerican
StatisticalAssociation,76, 817-823.
regiondelineationbasedon annualflood
Gingras,D., et Adamowski,K. (1993).Homogeneous
generationmechanism
s. HydrologicaI Sciences Joumal, 38(2), LA3-nl .
by nonparametric
Gingras,D., Alvo, M., et Adamowski,K. (1995).Regionalfloodrelationships
regression.Nordic Hydrology,26,73-90.
and GeneralizedLinear
Green,P.J., et Silverman,B. W. (1994). NonparametricRegression
Models. New York : ChapmanandHall.
J. A., Landwehr,J.M., Matalas,N.C., etWallis,J. R. (1979).Probabilityweighted
Greenwood,
in inverse
of severaldistributionsexpressable
moments: Definition andrelationto parameters
/5(5), 1049'1054.
Research,
form. WaterResources
and review of somemethodsfor regionalflood frequency
GREHYS. (1996a). Presentation
analysis.Joumal of Hydrology,I 86,63-84.
of regionalflood frequencyproceduresfor Canadian
GREHYS. (1996b). Inter-comparaison
rivers.Journalof Hydrology,I 86,85-103.
Greis,N. P. (1983).Floodfrequencyanalysis: A reviewof 1979-t982,Reviewsof Geophysics
and SpacePhys.,2I (3), 699'706.
BIBLIOGRAPHIE
r37
Greis,N. P.,et Wood,E. F. (1981). Regionalflood frequencyestimationandnetworkdesign.
I 7(4), 1167-TI77.
Research,
WaterResources
Gu, C., et Wahba,G. (1988).MinimizingGCV/GMLscoreswith multiplesmoothingpararneters
via theNewtonmethod(TechnicalReport847). Universityof Wisconsin-Madison.
Gupta,V. K., etDawdy,D. R. (1995).Physicalinterpretationof regionalvariationsin thescaling
exponentsof flood quantiles.Hydrologicalproces ses,9, 347-36I.
Gupta,V. K., Mesa,O. J.,et Dawdy,D. R. (1994).Multiscalingtheoryof floodpeaks: Regional
quantileanalysis.Water Resources Research,30(12)" 3405-3421.
Gupta,V. K., etV/aymire,8. (1997).Scaleinvarianceandregionalizationof floods.In G. Sposito
in Hyd.rolagy.CambridgeUniversityPress.
(Ed.),ScaleInvarianceand ScaleDependence
Halphen,E. (1941).Surun nouveautype de courbede fréquencÊ.Comptesrendusde I'Acadé'
Tbme2I 3, 633-635.
mie desSciences,
Regression.Cambridge:'CambridgeUniversity
Htirdle, W. (1989). ApptiedNonpararmetrtc
Press.
Hastie,T. J., et Loader,C. L. (1993). Local regression: Automatickernel carpentry(with
aI Science, 8, 120-143.
discussion).Statistic
Hastie,T. J., et Tibshirani,R. J. (1987). Generalizedadditivemodels : Someapplications.
Journalof theAmericanStatisticalAssociation,82(398),37l-386.
Ad.ditiveModels. New York : Chapman
Hastie,T. J., et Tibshirani,R. J. (1990). Generalized
andHall.
Hastie,T. J., Tibshirani,R. J., et Buja, A. (1993). Flexiblediscriminantanalysisby optimal
scoring (ResearchReport).Murray Hill, New Jersey: AT&T Bell Laboratories.
Haz,en,A.(1914a).Storageto be providedin impoundingreservoirsfor municipalwatersupply.
of theAmericanSocietyof Cîvil Engineers,77,1547-1550.
Transactions
"Floodflows" par W. E. Fuller. Transactions
of the
Hazen,A. (1914b).Discussionde I'article
American Societyof Civil Engineers,77, 626'632.
Hodge,S.A., et Tasker,G. D. (1995). Magnitudeandfrequencyof floods in Arkansas(U.S.
InvestigationsReport 954224). Little Rock, Arkansas.
GeologicalSurveyWater-Resources
Hoerl,A. 8., et Kennard,R. W. (1970).Ridgeregression: biasedestimationfor nonorthogonal
12, 55-67.
problems.Technometrics,
Horton, R. E. (1913). Frequencyof recurrenceof Hudsonriver floods. U.S.WeatherBureau
Bulletin,2,109-112.
138
Hosking,J. R. M. (1986). Thetheoryof probability weightedmornents(ResearchRepot RC
Division.
13412).New York : IBM Research
Hosking,J. R. M. (1990). L-moments: Analysisand estimationof distributionsusing linear
Joumalof theRoyalStatisticalSociery,52(l),rc5-l24.
of orderstatistics.
combination
usefulin regionalfrequencyanalysis.
Hosking,J. R. M., et'Wallis,J. R. (1993).Somestatistics
WaterResources Research,29(2),27l'281.
Hosking,J. R. M., Wallis,J. R., et Wood,E. F. (1985a).An appraisalof the regionalflood
frequencyprocedurein theUK flood studiesreport. HydrologicalSciencesJoumal,30(1), 85109.
Hosking,J. R. M., Wallis,J. R., et Wood,E. F. (1985b).Estimationof the generalizedextreme
. kchnometrics,27,25l-261.
valuedistributionby themethodof probabilityweightedmoments
Hydrology Subcommitteeof the InteragencyAdvisory Committeeon Water Data . (1982).
Guidelinesfor determiningflood frequency(U.S. GeologicalSurveyBulletin 1?B, Office of
IVaterDataColection).Reston,Virginia.
IEA. (1937). Australianrainfall and runofffloodf'requencyanalysisand design Canberra:
Instituteof Engineers,Australia.
Jenkinson,A. F. (1955). The frequencydistributionof the annualmaxirnum(or minimum)
valuesof meteorologicalelements.QuaterlyJoumal of the RoyalMeteorologicalSociety,8l,
158-r71.
Jennings,M. 8., ThomasJr., W. O., et Riggs, H. C. (L994). Nationwidesummaryof U.S.
GeologicalSurveyregionalregressionequationsfor estimatingmagnitudeand frequencyof
InvestigationReport
f.oodsfor ungaugedsites,1993(U.S.GeologicalSurveyWater-Resources
94-4002).Reston,Virginia.
characteristics.
Kinnison,H. 8., et Colby,B. R. (1945).Floodformulasbasedon drainage-basin
of theAmericanSocietyof Civil Engineers,I I 0, 849-904.
Transactions
Research,18(2),315-324.
models.WaterResources
G. (1932).Robustfloodfrequency
Kuczera,
functionestimation: Recenthydrologicapplications.U.S.NaLall, U. (1995). Nonparametric
1991'1994,Reviewsof Geotional Reportto InternationalUnion of Geodesyand Geophysics
physics,33suppl.
"Relative
Landwehr,J. M., Tasker,G. D., et Jarrett,R. D. (1987). Discussionde I'article
accuracyof log-PearsonIII procedures"par J. R. Wallis et E. F. Wood. Journal of Hydraulic
Engineertng,I 13, 1206-t2LO.
BIBLIOGRAPHIE
139
D. P. (1985).Regionalisation
infloodfrequencyanalysis: Is it theanswer? [Paper
Lettenmaier,
presentedat US-ChinaBilateral Symposiumon the Analysis of ExtraordinaryFlood Events,
Nanjing,October19851.
D.P., et Potter,K. V/. (1985).Testingflood frequencyestimationmethodsusinga
Lettenmaier,
Research,2I(I2),1903-1914.
model.WaterResources
regionalfloodgeneration
Research,22(9),
Linsley,R. K. (1986).Floodestimates: How goodarethey? WaterResources
159S-1645.
T..oader,
andLilcelihood.New York, NY : Springer-Verlag.
C.L. (1999).Local Regression
onCo. Technometrics,15,66l'675.
Mallows,C. (1973).Somecomments
Mimikou, M. (1990). Regionalanalysisof hydrologicalvariablesin Greece.TnRegionaliza'
of the Ljubljana Symposium,April 1990,p. 195-201).IAHS
tion in hydrology(Proceedings
no. 191.
Publications
Moon, Y.-I.,et Lall, U. (1994).Kernelquantilefunctionestimatorfor flood frequencyanalysis,
Research,
30(ID, 3095-3103.
WaterResources
Appliquee,3,2143.
Morlat,G. (1956).Leslois deprobabilitédeHalphen.RevuedeStatistique
Mosley,M. P. (1981).Detimitationof New Zealandhydrologicregions.Journalof Hydrology,
49,173-L92.
Moss, M. E. (1979). Space,time, and the third dimension(modelerror). WaterResources
Research,I 5(6), 1797-1800.
curve
Mûller, H. G. (1987). Weightedlocal regressionandkernelmethodsfor nonparametric
Association,82,23I-238.
fitting.foumal of theArnertcanStatistical
NERC. (1975). Flood StudiesReport (Vol. 1). London : National EnvironmentResearch
Council.
:
Nguyen,V.-T.-V.,et Pandey,G. R. (1994).Regionalfloodestirnationusingregressionmethods
and EngineeringSeries, ResearchReport
Management
study(WaterResources
a cornparative
no WRMEgAll). Montreal: McGill University.
Nguyen,V.-T.-V.,et Pandey,G. R. (1996).A newapproachto regionalestimationof floodsin
de la 49ième
Quebec.In C. E. Delisle et M. A. Bouchard(Eds.),Compterendu/ Proceedings
annuellede I'ACRH(CWRA),Québec,26-28juin 1996(Yol.II No. 6 horssérie,p.
Conférence
de I'Universitéde Montréal.
537-596).CollectionEnvironnement
research.
NRC. (1938).Estimatingprobabilitiesof extreme
floods : Methodsand recommended
WashingtonD.C. : NationalAcademyPress.
140
Modélisationadditivepar polynômeslocauxpour la régionalisationdesquantilesde crue ...
Opsomer,J.-D. (1995). Optimalbandwidthselectionfor fitting an additive model by local
polynomialregressionPhDDissertation,CornellUniversity,Ithaca,New York.
Opsomer,J.-D.,Wang,Y., et Yang,Y. (1999). Nonparametrtcregressionwith correlatederrors
(Versiondu ler février 1999,soumispour publication).IowaStateUniversity.
P.F., et Bobée,B. (1997).Regionalizationof floodsby
Ouarda,T. 8., Boucher,G., Rasmussen,
canonicalcorrelationanalysis.In J. C. RefsgaardetE. A. Karalis(Eds.),OperationalWaterMa'
AssociationConference,Copenhagen,
of theEuropeanWaterResources
nagement(Proceedings
er 1997, p. 297-302).Rotterdam: A.A. Balkema.
Denmark,3-6 septemb
Ouarda,T. 8., Haché,M., et Bobée,B. (1998). Projet C5 - Régionalisstiondes évënements
extrêmes(Rapportde rechercheNo R-534).Ste-Foy(Québec): INRS-Eau.
hydrotogiques
de modèlesrégioOuarda,T. 8., L*g, M., Bobée,8., Bernier,J.,et Bois,P. (1999).Synthèse
nauxd'estimationde crueutilisésen Franceet au Québec.Revuedessciencesde I'eau, I2(l),
155-182.
"Multivariateadaptiveregressionsplines"par J. H.
Owen,A. (1991). Discussionde I'article
Friedman.Annalsof Statistics, l 9(I), 102-112.
P. F. (1999a).Halphendistributionsystem.I : MathePerreault,L., Bobée,8., et Rasmussen,
maticaland statisticalproperties.Journalof HydrologicEngineering,4(3),189-199.
P.F. (1999b).Halphendistributionsystem.II : Parameter
Perreault,L., Bobée,8., et Rasmussen,
andquantileestimation.Joumalof HydrologicEngineering,4(3), 200'208.
on flood frequencyanalysis: 1983-1986.Reviewsof Geophysics,
Potter,K. lV. (1987).Research
25(2),113-118.
Quenouille,M. H. (1956).Noteson biaisin estimation.Biometrtl<a,43,353'360.
Reinsch,C. (1967).Smoothingby splinefunctions.NumericalMathematics,10,177'183.
Ribeiro-Corréa,J., Cavadias,G. S., Clément,8., et Rousselle,J. (1995). Identificationof
usingcanonicalcorrelationanalysis.Journal of Hydrology,173,
hydrologicalneighborhoods
7r-89.
at ungaugedsites. In Regionalizationin hy'
Riggs,H. (1990). Estimatingflow characteristics
of theLjubljanaSymposium,April 1990,p. 159-169).IAHS Publications
drology(Proceedings
n o .1 9 1 .
In G. Rossi,N. HarmancioRossi,F.,et Villani, P. (1994a).Regionalflood estimationmethods.
glu, et V. Yevjevich(Eds.),Copingwith Floods(p. 135-169).Netherlands: Kluwer Academic
Publishers.
BIBLIOGRAPHIE
r4l
Rossi,F., et Villani, P. (1994b).A projectfor regionalanalsysisof floodsin Italy. In G. Rossi,
N. Harmancioglu,et V. Yevjevich(Eds.),Copingwith Floods(p.193-217).Netherlands: Kluwer AcademicPublishers.
de crue- utilisationd'uneméthodecombidescaractéristiques
Roy,R. (1993).Régionalisation
Thèsede Doctorates Sciences(Eau),INRSet stochastiques.
nantles approchesdéterministes
Eau,Universitédu Québec,Ste-Foy(Québec).
Roy,R., Bobée,8., Ashkar,F., et Roberge,F. (1989). Regionalflood frequencyusing ridge
of theBaltimoreSymModeling(Proceedings
regression.InNew DirectionsforSurface-Water
no. 1.81.
posium,May 1989,p.293-300).IAHS Publications
kernelmethod.Annalsof
Silverman,B. IV. (1984). Splinesmoothing:The equivalentvariable
I 2, 898-916.
Statistics,
Slack,J. R., et Landwehr,J. M. (1992). HCDN : A U.S.GeologicalSuney streamflowdata
(U.S.GeologicalSurvey
setfor the UnitedStatesfor thestudyof climatevariations, 1874-1988
Open-FileReport92-129).Reston,Virginia.
DataNçlwork(HCDN):
Slack,J. R., Lumb,A.M., etLandwehr,J. M" (1993).Hydro-Climatic
Report
Investigations
(U.S.GeologicalSurvey"lVater-Resources
dataset, 1874-1988
Streamflow
%-4A7q. Reston,Virginia.
Sockett,E. 8., Daneman,D., Clarson,C., et Ehrich,R" lW.(1987).Factorsaffectingandpatterns
diabetesmellitus
of residualinsulin secretionduringthe first yearof type I (insulindependent)
in children. Diabet.,30, 453-459.
Stedinger,
J. R., et Cohn,T. A. (1986).Floodfrequencyanalysiswith historicalandpaleoflood
information. Water Resources Research,22(5), 785-793.
Stedinger,J. R., et Tasker,G. D. (1985). Regionalhydrologicanalysis.1. Ordinary,weighted
leastsquarescompared.Water ResourcesResearch,2l (9), l42l -1432.
andgeneralized
Stedinger,J. R., et Tâsker,G. D. (1936). Regionalhydrologicanalysis.2. Model-errorestiResearch,
mators,estimationof sigmaand log Pearsontype 3 distributions.WaterResources
22(10),1487-1,499.
E. (1993).Frequencyanalysisof extreme
Stedinger,J. R., Vogel,R.M., et Foufoula-Georgiou,
events.ln Handbookof AppliedHydrology(p. 18.1-18.66).
regression.Annals
for nonparametric
Stone,C. J. (1982). Optimalglobalratesof convergence
10, 1040-1053.
of Statistics,
models.Annalsof Statistics,
andothernonparametric
Stone,C. J. (1935). Additive regression
13,689-705.
I42
of statisticalpredictions(with dischoiceand assessment
Stone,M. (1974} Cross-validatory
cussion).Joumalof theRoyalStatisticalSociety,36(B),lll-I47.
Tasker,G. D. (1982). Comparingmethodsof hydrologicregionalization. WaterResources
Research,/8(6), 965-970.
for estimating
Tasker,G. D., Hodge,S. A., et Barks,C. S. (1996).Regionof influenceregression
Bulletin,32(L),163-170.
the5O-year
floodat ungaugedsites.WaterResources
Tasker,G. D., et Slade,R. M. (L994).An interactiveregionalregressionapproachto estimating
Policy and Manageflood quantiles.In D. G. Fontaneet H. N. Tuvel (Eds"),WaterResources
of the 21st AnnualConferenceon WaterResources
ment: Solvingthe Problems(Proceedings
p.782-785).New York : ASCE.
PolicyandManagement,
of flood characteristics
employing
Tasker,G. D., et Stedinger,
J. R. (1987).Regionalregression
historicalinformation. Journalof Hydrology,96,255-264.
ThomasJr.,W. O. (1994).History andoverviewof floodregionalizationmethods.InNationwide
Equationsfor EstimatingMagnitude
Summaryof U.S.GeologicalSurveyRegionalRegression
and Frequencyof Floodsfor UngaugedSites,1993(U,S. GeologicalSurveyWater-Resources
InvestigationReport94-4002,p. 3-5). Reston,Virginia.
USV/RC. (1981). Guidelinesfor determiningflood.flowfrequency.Washington,DC : United
StatesWaterResources
Council,HydrologyCommittee.
Vieu, P. (1996). Régressionnon paramétriquemultidimensionnelle.In RecueildesRésurnés
des Communications
des)O(YIIIe Journéesde Statistique(ASU 96) (p.85-87). Sainte-Foy,
UniversitéLaval,27-30mai 1996.
'Wand,
M.P., et Jones,M. C. (1990).KernelSmoothing.London: ChapmanandHall.
Weber,J. E., Kisiel, C. C., et Duckstein,L. (1973).On the mismatchbetweendataandmodels
Bulletin,9(6), 1075-1088.
of hydrologicandwaterresourcesystems.WaterResources
'Wegman,
E. J., et Wright, I. W. (1983). Splinesin statistic.Journalof theAmericanStatistical
Association,78(382),351-365.
Weibull,Vi. (1939). A statisticaltheoryof the strengthof materials. In (The Royal Swedish
Akademiens-Handlingar,
IngeniorsVetenskaps
Institutefor EngineeringResearch
Proceedings).
n o .1 5 1 .
White,E. L. (1975).Factoranalysisof drainagebasinproperties: classificationof floodbehavior
Bulletin,I1(4),676-686.
in termsof basingeomorphology.WaterResources
Wiltshire,S. E. (1986a).Regionalflood frequencyanalysisI : Homogeneitystatistics.Hydrological SciencesJournal,3I (3), 321-333.
BIBLIOGRAPHIE
Wiltshire,S. E. (1986b). Regionalflood frequencyanalysisII : Multivariateclassificationof
s Journal,3I (3), 335-346.
drainagebasinsin Britain. HydrologicaI Science
'Wu,
K., et'Woo, M. K. (1989). Estimatingannualflood probabilitiesusing Fourierseries
method.Water Resources Bulletin,25(4), 743-750.
Yakowitz,S.J. (1985).Nonparametric
densityestimation,prediction,andregressionfor markov
sequences.
Journal of theAmertcanStatisticalAssociation,30(389),205-221.
Yevyevich,V. (1974). Determinismand stochasticityin hydrology.Journal of Hydrology,22,
225-238.
Zrtnji,Z., etBurn, D. H. (1994).Floodfrequencyanalysisfor ungaugedsitesusinga regionof
influenceapproach.Journalof Hydrology,153,l-2I.
Modélisatonadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue...
A. Estimationde Qr par GEV/PWM
Nous présentonsdans cette annexela procédured'estimation locale de Qr à partir d'un échantillon de taille n de débitsmaxima annuels(DMA) (*r,rr,...,so) à I'aide de la loi généralisée
des valeurs extrêmes(GEV) et de la méthode des momentspondéréspar probabilités (PWM).
desvaleursextrêmes(GEy)
La loi généralisée
La théoriedesvaleursextrêmesoriginedestravauxde Fisheret Tippett(1928)qui ont démontré
possiblespour la distributionde la plus grande(ou
l'existencede trois formesasyrnptotiques
plus petite)valeurd'un échantillonde taille n,.Jenkinson(1955)a par la suitemontréque les
parla forme généralesuivante:
trois distributionsde valeursextrêmespouvaientêtreexprirnées
F ( u ) : e x p- [{ - ( 1\ - - *
(' : €);'ru}
a ' )
(A.1)
où a est un paramètred'échelle,f un paramètrede positionet fr un paramètrede forme.
L'estimationpar momentspondéréspar probabilités(PIilM)
Greenwoodet al. (1979) ont défini formellementles PWMs d'une variablealéatoireX de
fonction de répartition.F.par :
Mr,,,, :_ E{r{F)PF [1 - F]']
çr
:
- F]'dF
Joln@)leF'll
(A.2)
(4.3)
où i, j et k sont des nombresréelset r(f') est la fonction de répartitioninversede F. Pour
l'estimationde la loi GEV nousutilisonsun casparticulierde PWM, les B, définispar :
F,:
= Io'
r(F)F'dF
ML,r,o
(4.4)
L'estimationpar P\ilM estsimilaireà I'estimationà I'aidedela méthodeclassiquedesmoments
en ce sensoù nous associonsles PWMs estimésà I'aide des observationsaux PWMs empiriquesde la loi à estimerpuis résolvonsle systèmed'équationsainsi formé. PourI'estimation
Hosking,V/allis,et liVood
desPWMs (Ér) empiriques,nousutilisons,tel quele recommandent
L46
(1985b),lesestimateurs
suivants:
biaisésmaisconsistants
B_:ti (+g)'",,,
n
)
,,_nâ\
(A.s)
la z ièmeplus petitevaleurde l'échantillondesDMAs.
où rlry représente
Application des PWMs à Ia loi GEV
suivante:
En utilisantl'équation(A.1), il estpossibled'obtenirpour r(F) I'expression
r(F)- t+itt-
(-log(r))&l
(A.6)
En insérantce résultatdansl'équation(A.4), il estpossibled'obtenirI'expressiongénéralesuivantepour les B, empiriques:
^ - e + i [ 1- ( r + t ) - k r ( t + / c ) ]
r+L
(4.7)
où f (.) estla fonctiongammadéfinieparf(r) - Jf y-1"-167.
trois PWMs sontrequispourI'estimation.En
Puisquela loi GEV estuneloi à trois paramètres,
utilisant 00,gt et 92, il est alorspossibled'obtenirle systèmed'équationssuivantà résoudre:
Êo:€+itr-r(1+,h)l
2h - Bo: f,rqt+ &Xl- 2-k)
(A.8)
(A.e)
et
3 g z - Ê o_ 1 - 3 - o
2fu- Êo 1-2-k
(4.10)
qu'à I'équation(A.10),seulle paramètrede forme /t estinconnu.I1n'existecepenRemarquons
dantpasde solutionexplicitepour k maisunebonneapproximation(Hoskinget al., 1985b)est
donnéepar:
fr -7.859e*2.9554c2
ou
^" -- 2 0 t - 0 o ln2
B P r - P o t"3
( 4.11)
Estimationde Qr parGEVÆWM
147
Les paramètresd'échelle et de forme peuvent alors être estimésrespectivement,à I'aide de (4.8)
et (4.9), par:
"
(2P,- gùî'
g_----------.------------------;_
f ( l + k ) ( 1- z - * ;
^
^
'
€ : É o +ki t r ( +
l Ê )- 1 1
(4.12)
(4.13)
Enfin, en utilisationla relationsuivanteentrela périodede retour 7 et la probabilitéau non
dépassement
F
F -L-Llr
(4.14)
de I'estimateurdu quantilede
et en sebasantsurl'équation(A.6), on obtientcommeexpression
crue :
- Lln)i'|
8, : * * ilt - t*rog(1
(A.rs)
auxéquations(A.tr1),(A.12) et (A.13).
où les paramètres
f, â et Â sontdéfinisrespectivement
B. Donnéeset résultatsdu Texas
/ climatologiqueset hydrolodanscetteannexeles donnéesphysiographiques
Nousprésentons
giquesayantservi aux diversesmodélisations
de la section5.3. Mentionnonsque nousprésentonslesdonnéesen unitésde mesuresmétriquesalorsquela modélisationa plutôt étéeffectuée
disponiblessur internetvia
avecles donnéesoriginales,en unitésde mesuresanglo-saxonnes,
Nousprésentonsaussiles résulFTP à I'adresseinternetftp ://ftprvares.er.usgs.gov/hcdn92/.
à la section5.3.
tats,sousformede figures,n'ayantpasétéprésentés
Les donnéesphysiographiqueset hydrologiques
Nous présentons,
dansun premiertemps,I'ensemblede donnéescomposédes 69 stationsdu
Nousretrouvonsdanscetableau,pourchacunedesstations,
Texasutiliséespourla modélisation.
le numérod'identificationdela station(NO),la superfrcie(A) dubassinversant,enkm2,la pente
(S) du coursd'eau principal,en mlkm, la précipitationmoyenneannuelle(P) survenantsur le
bassinversant,en cm, l'élévationmoyenne(EL) du bassinversant,en m, la longueur(L) du
de débitsmaximaannuels(n) de même
coursd'eauprincipal,en m, le nombred'observations
queles estimationsdesdébitsde crue(Qù, en m3/s,de périodesde retour7 égalesà 2,5, 10,
25 et 50 années.
Tns. B.1: Donnéesdu Texas
NO
A
S
08025500 383.3 r.69
08029500 331.5 2.27
08030500 24r60 0 .1 4
08032000 2966 4.43
08033s00 9417 0.24
08033900 409.2 1 .3 8
08041000 2A59CI 0.2
08041500 2227 0.73
08042800 r769 0.78
08053500 1036 1 . 3
08055500 6369 1 . 1 5
Suitepagesuivante
P
1372
1346
1422
1105
1245
I 168
1 410
1372
749
813
889
EL
SH
92
99
86
147
76
I28
85
59
324
279
237
36.4 3 1
n
33.s 36
867 42
t43 49
447 56
Qz
86
49
Qs
170
90
1 1 1 8 1653
161 3 1 8
412 719
117
68
834 1383
236 486
152
66
176
79
24
45
52
32
95.6 39
T æ 47 357
34.4
563
115
94
7ro
Qto
255
130
2040
459
Qzs
415
205
2568
696
ï246
196
2421
tt54
M6
405
Qso
586
283
2992
927
r492
231
2942
1595
726
681
248
542
263
1051 rc64 2290
941
151
1807
150
du Texas(suite)
Tas. B.l: Données
NO
A
SH n
Qz
r.32 1 0 1 6 127 41.2 26 29
r.42 TT94 8 1 34.6 25 95
0.9 tt94 87 68.4 49 127
1 .5 4 1 1 8 1 88 46.3 44 52
r . 4 l 584 737 282 59 2 1 2
1 . 8 572 805 264 23 246
0.99 673 66t 452 64 419
r . 1 6 660 432 52.6 25 1 t
2.09 508 667 63.r 26 2 l
0.95 635 529 rc1 26 42
0.86 673 554 319 64 160
1 .8 5 800 339 136 65 262
S
08064800 5 3 6 .1
08066200 365.2
08070000 8 4 1 .8
08070500 272
08080500 22780
08082000 13290
08082500 40240
08082700 269.4
08083100s90.5
08084800 1238
08085500 10330
08095000 2507
08095300 471.4 3.6
08101000 1178 2 .1
08103900 86.25 5.94
08109700 6t1.2 0.85
08109800 632 0.8
08111700973.8 0.9r
08126500 425I0 0.67
08128000 1070 2.25
08128500 6871 1.47
08130500 593.1 2.82
08134000 3279 r.79
08144500 2940 1 . 5 1
08146000 7889 1.64
08150000 4847 1 .8 9
08150800 556.8 3.97
0815150010870 r.67
08153500 2334 2.42
081580001010000.66
08163500 279.7 1 .7 8
Suitepagesuivante
P
EL
8 1 3 273 50.8
787 377 TT7
749 373 18.8
927 t44 64.5
940 134 55.7
1041 97 75.1
470 640 394
419 7t8 55.5
470 768 175
457 736 48.9
508
597
660
597
635
673
749
851
1054
754 1 1 3
69r 96.5
601 232
670
569
596
549
616
t07
t07
56.3
237
1t7
944
38.6
26
38
25
26
26
25
45
58
30
28
64
73
73
73
25
49
49
36
49
88
113
t2
43
51
298
398
23
96
t3
52
Qs
58
176
280
98
414
4tl
765
32
45
99
JJJ
460
r78
251
23
81
98
485
@9
76
184
36
350
Qso
194
447
696
200
974
258
Qto
Qzs
87
244
429
l3't
r39
597 904
527 682
1025 1393
107
56
66
99
158 274
495 778
589
255
379
3T
t07
749
378
601
42
59
275
r04
532
139
r33 184
597 724
8 1 1 1010
141 286
255 36r
tzu
803
t699
r69
r29
392
1063
867
493
823
50
r64
226
811
1154
471
453
153
845
852
155
185 313 565
66
162 395 638 1L04 rc20
185 505 829 r434 2087
r28 208 290
82
35
403 855 1215 1756 2230
205 488 777 1322 1 9 1 3
I197 2t0l 3013 4708 6530
176 268 430 598
80
t5l
Donnéeset résultatsdu Texas
Tes. B.1: Donnéesdu Texas(suite)
NO
A
08164000 2 t t 6
08164300 859.9
08164500 2139
08166000 295.3
08167000 2L73
08167500 3406
08171000 9r9.4
08171300 1067
08172000 2t70
08175000 t422
08176500 13460
08177500 r33l
08179000 t228
08189500 1787
08190000 1909
08190500 1797
08192000 4824
08194200 tzt5
08194500 20960
08195000 r008
08196000 326.3
08198000 533.5
08198500 624.2
08202700 435.L
08205500 8881
08206700 2028
08210000 39960
S
P
EL
SH
0.62
0.95
0.55
5 .3 6
2.52
952
952
70
103
68
625
523
1 3 0 50
413
60.7 27
r52 39 356 667
38
32.5 45 t 2
332
103 49 t34
209 56 194 464
r66
86.9 5 1 6V
t24 32 104 206
177 49 195 377
1û3 278
7.67 J J
666 26 5 1 3 lû34
330
98.5 16 t3'î
r.73
3.26
2.58
2.16
10.8
0.8
t.2r
3.07
t.02
2.8
2.6r
r.97
1.31
L.L4
3.79
4.74
4.26
3.45
3.85
2.t8
1.34
1.03
902
635
762
813
838
864
838
813
889
864
762
813
584
606
546
404
388
285
tt2
223
73
Qz
285
221
Qs
a-
46r 9l:l 4 l B6 212
72 1 1 8 49 r24 295
570 98.r. 65 101 293
616
546
158
276
582
581
63s 520
622 485
572
572
546
6 10
6 10
6 10
635
584
559
635
n
425
337
188
257
101 43
r87 49
66.1,
454
70
52
52.8
82.4
62.9
248
L44
542
26
45
63
36
46
36
28
73
24
68
Qzs Qso
t022 1294
759 928
ï462 1968
140 231
534 913 1323
731. 1 2 1 8 1732
266 452 654
283 393 484
5 1 9 727 904
479 901 1409
r496 2260 2993
Qro
719
556
958
69
517
342
478
854
588
838
tz0l"
858
t243
1525
512 973
247 355 &3 965
68
136 363 582 974 t379
r99 330 597 909
79
246 553 83? 1323 1807
64
175 294 529 795
31
69 1 0 1 150 195
40
93 L4l 225 308
M
1 1 1 t75 289 405
160 233
20
55
92
1 1 9 307 519 962 1492
104 202 280 397 501
376 740 1081 1674 2270
I52
Résultatsde la modéIisation log-linéaire
C!
ô o
.E
{)
e
a
€
6
o
N
g c ;
o
o
E o ,
..4 o
a
IE
@
ci
3
Nombredevariableserelicalives
Ftc. 8.1: RMSE de différentsmodèlesde régressionlogJinéairepour I'estimationde Q2
ol
e
I
o
.c
p
o
E o l
g O
e
6
B
G'
. 9 o
tt
p
ê
uJ
g)
E o
ci
N
ct
3
Nombre de variables explbatives
Frc. B.2: RMSE de différentsmodèlesderégressionlogJinéairepour I'estimationde Qs
ô &
'e d
3
I
o
E
6
^
e {
s o
Ë
o
€
p
o.
ol
u 5
c
o
ct
3
Nombrede variablesexplicatives
Frc. 8.3: RMSE de différentsmodèlesderégressionlogJinéairepour I'estirnationde 8ro
g)
N
o
€
.E
ci
6
o
c
.9
6
!
6
N
N
ct
o
Ë
p
cl.
llJ
c!
o
o
o
o{
o
3
Nombrede variablesexplicatives
Frc. 8.4: RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Qzs
153
L54
Résultatsde la modélisation par région d'influence
3g
o
s
.E
lô .T
Ë
o
6
o
€
:
p o
2 23
^t 23 3
g
4
2 tta
2
2""333, +
-c
- r r r z3 g
55
5-
ccÂ -
-.s
'i111'o'o'o,ouor:ii;iï?iiliii:::zzttz;i
A ^^
uJ
at)
=
É.
5
's
o
,t0
50
Nqnbrede stafonsdânsh régiond'infruence
ftc. 8.5: Nombreoptimalde stationsdansla régiond'influencepour Q2
5
ô 9
8
'e o
a
5
uu
'22zo4gg^^
- ' " ' ; ; ' , : : : 3 âsB 3 s s s s s s 3 3 . s o o o
.a
Ë
4
t-'iïZ:r"t:
a
N
{ c i
=
o
E
p
ô . 6
g ) o
=
E
3
,rrrf,71" -o..3333333r.srtt1,
o
" ' "" *
ooooooo'o'o' '
o^' ' ^ ' ^ 1 ' ^ îr; '; ; ;
r l3
r0
. r' g
"' s" l t e â e
b
o
40
50
Nombre de stations dans la région d'inlluence
Ftc. 8.6: Nombreoptimalde stationsdansla régiond'influencepour Q5
155
00
â
F
i 5 o
.!2
u.
"s
'"-.'""no
e
e3a^
" " s 34^ i ? L a e
q
F
O
E
5
3" r ,
g
uu
-tsPegqSr"
o
t ' ; 7 8 Ê r ' ^ " 3 3 3 3 3 3 s s 3 3 ' r .^.sr 3r :z! 1 , ' oo
o'
u 3 3 g g z z z z z z 2 2 2 2 2 2 2g é
o
N
Ë c t
s
! { o
4
+ q 4 4 + + + + + + + 4 4 4 -aoâ|7r i^q^
a5
"s44a4+oo4s
o5555555
=
ro
o
40
50
Nombfe de siations dans la région d'inftJerce
Flc. 8.7: Nombreoptimalde stationsdansla régiond'influencepour Q1s
5
o
4
2
ô
Ë e
E d
.9
6
E
=
$ . o
s
o
g
uuu
2222a2o
4'2
tttt...t333u.
o
44
4
p
5
D
O
E
5s
o
"â"r^ 5
. r i , r " 1u
u
"
u'
ssâ63zls.
^
z
z
16t5é222raaezeaaazeeS|as
a.
5s
u,
! D N
Ë E
4
4" oo
o oïZfu
t4 a+4,4444
t:o oooo ool
t55s5s55
@
ct
40
50
Nombrede stationsdansla réglond'inffuence
Flc. 8.8: Nombreoptimalde stationsdansla régiond'influencepour Q25
C. Donnéeset résultatsde la Nouvelle-Angleterre
/ climatologiqueset hydrolodanscetteannexeles donnéesphysiographiques
Nousprésentons
giquesayantserviauxdiversesmodélisationsde la section5.4. Mentionnonsque nousprésentonsles donnéesen unitésde mesuresmétriquesalorsquela modélisationa plutôt étéeffectuée
disponiblessur internetvia
avecles donnéesoriginales,en unitésde mesuresanglo-saxonnes,
aussiles résulNousprésentons
FIP à I'adresseinternetftp ://ftprvares.er,usgs.gov/hcdn99.
à la section5.4.
tats,sousforme de figures,n'ayantpasétéprésentés
Nous présentons,dansun premiertemps,I'ensemblede donnéescornposédes70 stationsde
utiliséespour la modélisation.Nous retrouvonsdansce tableau,pour
la Nouvelle-Angleterre
chacunedesstations,le numérod'identificationde la station(h{O),la superficie(A) du bassin
versant,en km2, la pente(S) du coursd'eauprincipal,en mfkm, la précipitationmoyenneannuelle(P) survenantsurle bassinversant,en cm,l'élévationrnoyenne(EL) du bassinversant,en
m, la longueur(L) du coursd'eauprincipal,en m,le nomhned'observationsde débitsmaxima
annuels(n) de mêmequeles estimationsdesdébitsde crue(8r), en m3/s,depériodesderetour
T égalesà2,5, 10,25et 50 années.
Tas. C.l: Donnéesde la Nouvelle-Angleterre
NO
01010000 3473
010105006941
01011000 3183
010115001357
010135002261
0101400014670
01018000453.2
01021200240.6
010215001 1 8 4
arc22500 587.9
Suitepagesuivante
Qso
1022 448 1 1 3
1 0 16 402 r99
994 369 t47
989 369 100
0.53 1001 277 rt7
1.08 1004 366 246
4.99 943 177 24.5
t.02 rc7r 67 45.7
1.09 1067 98 92.8
2.07 1066 98 6 1 . 8
1.1
1.1
0.64
1 .3 2
665 853 9s5
1350 1 8 1I 2083
407 558 6s6
204 283 330
233 298 334
2301 2988 3383
125 147
90
59
49
37
160 216 259
r09 153 r82
1064
2394
778
384
372
3824
rt32
2602
868
421
396
4Lt4
r75 195
73
84
319 369
2r9 247
158
(suite)
Tae. C.1:Données
dela Nouvelle-Angleterre
NO
A
S
P
EL
01023000383.3 1.47 10s0 134
010305003673 0.77 997 174
01031500771.8 5 .0 1 TW3 320
01033500839.2 6.4r 1 1 0 1 3 5 1
01035000774.4
2
t017 t28
01038000375.5 2.83 r073 104
01047000914.3 9.2 l r 2 3 390
01048000 1 3 3 1 2.78 tt02 317
01052500393.7 7.77 r238 664
01054200 180.3 19.82 I 170 719
01055000 251 16.46 rr94 558
01055500437.7 2.26 1062 323
01057000196.3 9.83 1095 326
01060000 365.2 1.95 rc92 67
01064500997.2 9.66 1284 567
010730003t.34 4.47 t052 6 1
01074500269.4 20.61 t41,9 853
01075000 499.9 15.28 r384 759
01076000 374.4 20.28 1169 482
01076500 1 6 11 7.95 1233 564
01078000222.2 4.28 rt34 384
01086000378.1 6.02 It26 293
0r094000 M2.9 5.91 I 1 1 0 247
01106000 20.75 6.r ro92 43
01l 11300 4 I.M 6.65 rt43 165
0 1 1 1 1 5 0 0236.2 4.47 1143 r52
01117500 259 0.84 1 1 4 8 6r
01117800 9r.r7 5 .8 9 IT94 1 1 0
01I 18000 r87.5 3.07 1194 9 l
01118500 764 0 .5 1 I 168 6 l
01119500 313.4 2.71 r092 216
Suitepagesuivante
SH
n
5r.2 60
t42 54
58.9 86
62.4 59
35.7 64
4r.7 50
65 67
94.t 5 l
39.7 47
25.6 24
29
40.4
22.8
47.9
56.5
12.7
23.7
s9
47
67
39
65
53
23
37.8 38
36 48
65.2 85
34.6 70
3 8 . 1 39
55 67
9.65 3 8
1 1 . 6 24
29.1 32
29.1 47
17.2 23
22.5 36
s9.9 47
46.7 57
Qz
Qs
45
60
467 600
185 277
t99
56
49
239
306
11r
99
82
85
50
96
310
6
93
T64
94
435
43
57
75
4
10
42
20
t2
25
64
50
344
76
77
366
444
T4I
L45
Qrc
70
674
352
388
90
r00
465
541
r60
t23
130
75
173
L54
t66
94
r37
r56
455
10
559
t2
I39
185
2.45 314
188
I45
627 773
78
62
79
92
1 1 1 t4l
5
L6
65
28
18
35
87
88
6
20
83
34
zl
42
105
123
Qzs
84
755
469
Qso
95
808
270
424
256
985
L02
108
190
7
25
108
43
24
51
131
185
360
527
575
514 624
1 1 0 126
137 170
609 733
672 776
183 t99
244 226
200 238
219 266
r20 143
204 234
700 8 1 3
15
t7
319
r162
123
119
236
7
29
128
51
27
58
151
248
r59
Donnéeset résultatsde la Nouvelle-Angleterre
(suite)
Ten. C.l: Donnéesde la Nouvelle-Angleterre
NO
A
01120500 10.75
0112100074.07
01127500231.3
01134500 194.8
0l 137500 226.9
0114250078.99
01144000 t787
01145000208.5
01153500266.8
0116250050.25
01165000130.8
011655003t.34
01169000230.5
0116990062.42
01170100r07.2
01174000 8.78
un49a0
6.6A4
01175500489.5
01176000388.5
011800004.481
01180500136.5
01181000243.5
0118800010.62
01193500 259
01196500297.8
01198000132.1
01201500174.8
01204000 194.5
04296ffi0 3 1 6
S
P
EL
1 5 . 1 5 1 1 1 8 223
t2.86 I 105 195
3.64 rt43 1 3 1
14.85 1097 5 1 8
13.64 1323 765
15.23 992 402
2.48 TM7 396
9 .5 1 1 1 09 427
rc.7
1 1 1 8 408
5 . 1 5 1098 338
9.83
9.11
12.42
t6
13.6
12.92
31.25
2.23
1.63
22.35
14.96
10.4
14.62
to72 323
I 130 265
1240 439
l194 354
1168 421
1130 3 1 1
TI43 274
1128 2M
1054 256
1 1 1 8338
1224 433
t206 433
r2r9
tr43
280
5.74
154
1 . 1 4 tL94 95
10.27 tI23 360
2.22 1 1 5 6 r67
9 .1 7 1130 223
1.09 to52 378
SH
n
31
48
58
4T
49
48
72
39
34.8 45
t9 36
20.6 3 t
1 1 . 6 66
33.8 39
19 22
28 2 l
9.41 34
6.r9 27
4t.8 27
45.5 52
6.15 28
31.4 54
33.8 50
6 . t r 57
29.8 60
42.6 58
24.5 20
40.2 35
3 1 . 1 56
54.1 37
5.31
16.7
26.9
27.4
33.9
16.4
80
?.3"2
Qz
4
t7
52
47
69
I4
375
37
66
9
18
6
75
2l
a4
JJ
2
2
45
28
1
4l
78
3
53
47
24
23
42
5l
Qs
6
26
83
64
96
t9
507
50
94
t3
30
9
114
30
46
3
3
67
43
I
62
127
5
86
73
32
38
7L
67
Qza
Qn
8
10
46
33
il1
159
77
93
1 1 8 r49
22
25
595 706
59
68
It4
r39
r6 20
4T
6t
11
15
r43 184
36 45
54
65
4
3
4
3
rz4
88
59
92
2
3
tt9
83
t69 235
10
7
1 1 5 r64
92
36
r20
54
98
77
88
40
Qao
t2
57
207
106
r76
28
789
74
r58
24
82
l8
217
52
72
5
4
161
t3t
4
156
295
t3
2tt
142
42
r45
t26
192
88
96
160
Modélisationadditiveparpolynômeslocauxpour la régionalisationdesquantilesde crue...
Résultatsde Ia modélisation log-linéaire
(0
:
lo
s!) d
o
o
.9
s
fi
l t = o
t
€
! o
uJ ci
(tt
=
ôl
o
3
Nombre de variables explicalives
Flc. C.1:RMSE de différentsmodèlesderégressionlog-linéairepour I'estimationde Qz
(0
o
â r o
. 9 o
e
o
o
6
P . +
g 5
o
E
p
q , -
u: i:
o a )
z
N
d
3
Nombre de vâriables explicatives
Ftc. C.2:RMSE de différentsmodèlesderégressionlog-linéairepour l'estimationde Q5
o
^
o
{)
.a
p
6
,^
=
d
eo
E
G
à ç
6 o
E
.E
UJ
> o
t r à
3
Nombredevarhbbseplicatit/es
Ftc. C.3: RMSEde différentsmodèlesde régressionlog-linéairepour l'estirnationde Çro
(voir la légendeautableau5.3)
N
ci
o
s
.a
P ( o
6 1
s O
.e
o
E
6
=
= bÈ
Y
E c t
tt
eo
ut
o
E . +
ci
3
Nombre ds variables €xplica[v€s
log-linéairepour I'estimationdeQ25
FIc. C.4: RMSE de différentsmodèlesde régression
161
162
Modélisationadditivepar polynômeslæauxpour la régionalisation
€
o
{)
.r2,
e
o
Ë
E
N
F
(!
=
o
p ( o
A I
u J o
(t,
=
rJ'
o
e
Nombre de variables explicatives
Ftc. C.5:RMSE de différentsmodèlesde régressionlog-linéairepourI'estimationde Q5s
t )
o
o
s
.9
o
o
s
ô
o
F
6
E
54
54
4
c
56
6
4
' t-
Ë c a
l i l
È uJ
a
If
3 t +o
'5:4,
. 222zzz
22,2iiâârZr
r, ..
'z2zrgptrttl,âââ.Ea
2^
ïEîâQI*A?"2,,,"
61
ct
3 3 3 s s s s sgg3 3 s 3 3 3 3 3 3 3 s 3 3 3 3 3 3 3 3 3 3 333333333d35 9 9 3 6 5 s e
&
5
0
Nombredê stationsdansla régiond'inlluence
Flc. C.6: Nombreoptimalde stationsdansla régiond'influencepour Q2
Données et résultats de la Nouvelle-Angleterre
3
b
g d
o
'6
e
-
4
o
uorS
5-+3
v
ts$3
- u83t!ur""
Ë :
g c t
o
P o
o I
u J o
o
r63
2222222
2z2:i:r,iiii:"" ""
rr::::**I:iâ1â1|'?-2n#a8/J131çââ
=
E
Âl
ct
40
50
Nombrede stationsdansh regiond'influence
FIc. C.7: Nombre optimal de stationsdansla région d'influence pour Qg
(o
3
ô
Ë p
e
o
d
,9
6
E
9 :
Y c t
o
E
Ë
l H = :
4
3
4 3
4
uu-otg
,,.,,":::1iliiiii;i,"",,
zseïli8,irz'r1ââ221ii,,11.â11iç
ot
()
40
50
Nombreds stationsdansla régiond'influence
Ftc. C.8: Nombre optimal de stationsdansla région d'influence pour Q1s
164
3
N
ct
o
o
'3 ,o
O c ;
4'
3
43
'4
a4
34
l : 'zzïL
r u u l'i3,â'-t r r . .
.9
6
p
6
t'1 r ..
.rEurr_orà"r""
è . o
* o
,,u;;ââi11i11111111iiiâiç;,n
€
{oul
a
= =
40
50
Nombredeslationsdansla régiond'intluence
Flc. C.9: Nombreoptimalde stationsdansla régiond'influencepour Qzs
o
6'
o
.9.
c;
e
a
. 9 F
Ë op
ât
g4+
3 +
,rrr"ur"rl!:::oo
.rrrrrrr,lrr;;;r..,
E
o
€È c ie
ll,,
o
=
âasciiâsas
a?E??gâî
titâââ,n,îii',',
o
o
,+0
50
Nombredestationsdansla régiond'inffuenco
Flc. C.10:Nombreoptimalde stationsdansla régiond'influencepour Q56
r65
Résultatsde la modélisation additive
MAI
MA2
o
!4
o
0.5
1.0
ù
1.5
2.0
r.0
û.5
s
1.5
6
o
22
2.4
2.6
2.8
EL
3.0
32
3.4
2.2
L4
26
2.8
EL
3.0
32
3.4
"w
1.0
0.5
1.0
1.5
FIc. C.l1: Modélisation
additivede Qz
2.O
1'64
3
F
c,
e
'a3
6,
' 4
a4
3
o
$
. Ë ( o
o c i
c
o
îl
E
g E
o
s
cl
u,
o
= s
-F
5c-
tâs6ro
22oss
,12
urrr"
rtu'
urrli
iilr,i;
â:aâi1zi11i11111iii1î1;;;;;;
o-
40
50
Nombrede stationsdansla régiond'intluence
FIc. C.9: Nombreoptimalde stationsdansla régiond'influencepour Çzr
(o
+ c i
@
o
E
o
c
. 9 I -
Ë o:
g
ïa
âc
s4+
3 4
n^
3
4
! t t u u t t t'iii^r
.zEg
E.
-tts"^
.trrrrriiilir;;lr,
o
l
g
o'
uJ
at,
o
eçI;;IÊiI
çti,âââ,â,iii,r,,
F
ci
=
()
o
Æ
5
0
Nombrede stationsdansla régiond'influencs
Ftc. C.10:Nombreoptimalde stationsdansla régiond'influencepour Qso
MA2
MAI
o
o
o
I
q
0.5
2.2
1.0
2.4
2.6
s
2.8
EL
1.5
3.0
2.0
3.2
1.0
0.5
2.2
3.4
2.4
2.6
c
2.8
EL
1.5
3.0
2.0
3.2
3.4
q
o
o
o
'g "s.r#&Sff'#
o
d
ç
c?
1.0
1.5
Ftc. C.l1: Modélisationadditivede Qz
2.0
166
o
o
I
1
2
r.0
0.5
3
^
c
1.5
t
2.0
0.5
2
A
1.0
s
3
1.5
2.O
1.5
2.O
v2
o
q
o
r.65
P
1.60
1.70
1.75
o
q
o
ct
0
o
@
ci
g?
I
o
q
0.5
r.0
1.5
L
2.0
0.5
1.0
L
Flc. C.12:Modélisationadditivede Qs
Donnéeset résultats de Ia Nouvelle-Angleterre
MAl
167
MA2
I
u?
q
o
o
o
a
c;
o
j
q
q
Y
2
A
(|
o
o
1.0
t.5
t.o
2.0
1.5
2.0
c?
a
o
4
o
6
1.60
1.65
P
1.70
1.75
f .60
1.65
P
o
o
ct
o
A
Y
q
t.0
Flc. C.13:Modélisationadditivede Qto
1.70
1.75
Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesdecrue...
MAI
Iù/{{{A2
2
A
@
ç
c?
1.0
1.60
1.65
P
1.70
t.5
1.75
t.ô0
1.65
P
1.0
Frc. C.14:Modélisationadditivede Qzs
1.70
1.75
D. Donnéeset résultatsde ltArkansas
Nous présentons
i climatologiqueset hydrodanscetteannexeles donnéesphysiographiques
logiquesayantservi aux diversesmodélisationsde la section5.5. Nous présentonsaussiles
résultats,sousformede figures,n'ayantpasétéprésentés
à la section5.5.
Nous présentons,
dansun premiertemps,I'ensemblede donnéescomposéde 204 stationsde
I'Arkansas.Nousretrouvonsdansce tableau,pourchacunedesstations,le numérod'identification de la station(NO), la superficie(A) du bassinversant,enkm2, la pente(S) du coursd'eau
principal,en m/km, la précipitationmoyenneannuelle(P) survenantsur le bassinversant,en
cm, l'élévationmoyenne(EL) du bassinversant,en m, le facteurde forrne(SH) du bassin,le
nombred'observations
de débitsmaximaannuels(n) demêmequeles estimationsdesdébitsde
crue(Q7), en m3/s,de périodesde retour? égalesà2,5, LA,25et 50 années.
Tes. D.1: Données
de I'Arkansas
NO
07188900 2,49
07191224 3M
07194890 105
07195000 337
071952000,96
0719545037,80
071955001640
0719580036,80
07196000 285
07196900 1 1 9
0724700o 526
07249300 rt4
07249400 3 8 1
47249500 91,44
20,60
3,79
3,69
3,20
20,30
7,77
1 ,6 1
434
3,67
7,62
1,85
8,81
2,69
7,Al
Suitepagesuivante
109
109
109
109
109
tt4
tt4
109
r12
l,17
L14
tw
109
t17
354
366
396
387
390
415
424
408
363
402
253
308
235
427
o,240 2 l
0,275 34
o,247 2T
0,392 30
o,370 2L
4,282 24
0,321 38
0,369 33
0,201 38
0,342 36
0,180 30
o,264 20
4,203 36
4,197 44
t4
444
rt7 r99
298 425
5
7
114 r64
985 1330
98
56
3t7
522
383 517
324 565 740
L49 314 458
4t9
184 3t7
1 3 1 267 392
3
96
4l
L42
2
50
527
2A
115
t96
8
268
Qso
29
1020
493
7 54
15
284
2140
260
1200
22
743
347
606
t2
232
r790
177
870
685 806
973 1150
681 877
564 682
594 779
170
Ten. D.l: Données
de I'Arkansas(suite)
NO
A
S
P
07249650 21,10 13,80 tt7
07249950 0,88 35,60 r t 7
07250000 1100 3,30 LL4
07252000 966 3,43 t22
47252200 l , l 9 60,20 t t 7
07252500 1 1 10,60 104
072540A0 7 ,1 5 tt,40 t02
472s4500 1 5 , 1 0 3,75 t04
072551001 1 , 6 0 1,48 102
07256400 t37
4,5r 102
072565A0 1 5 8 9,34 r24
07257040 7 t o 3,22 124
07257060 0,49 70,30 127
07257r00 0,49 58,90 124
07257204 399 4,45 rt7
07257500 624 5,30 124
47257704 18,30 15,60 124
072582A0 2,38 11 , 1 0 109
07258500 624 1,86 l 1 2
07260000 2 L 1 , 3,67 rt9
07260500 1980 0,56 t t 7
47260630 4,79 7,35 tt9
07260673 575 2,27 t22
07264679 0,23 35,60 1 1 9
0726rcA4 438 1,40 r27
0726rc50 0,75 L6,70 r27
07261300 6,03 54,60 1 1 9
07261500 1060 2,08 rt7
07261800 2,69 31,80 It7
47263000 544 2,29 L22
07263r00 3 ,8 1 25,40 t24
Suitepagesuivante
EL
433
305
326
436
280
2t9
195
219
va
155
265
430
533
165
293
402
268
247
204
283
219
r63
2t0
113
2t9
2t3
415
317
271
253
151
SH
n
0,290 20
o,402 32
Qz
37
1
0,151 52 69r
0,136 55 568
0,995 26 4
0,r45 l6
0,156 1 8
o,043 t 6
0,154 15
0,274 r6
0,2@ 4L
o,157 45
0,530 20
0,130 23
0,133 15
0,207 47
0,149 26
0,209 30
0,205 55
o,097 48
0,099 30
o,420 23
0,234 15
0,780 27
0,130 38
0,350 23
0,228 22
0 , 1 1 4 55
o,352 3 1
0,200 52
o,177 32
24
11
25
22
89
153
556
I
1
266
500
2l
5
333
188
429
t3
155
1
253
2
t2
710
7
557
10
Qs
Qn
70
95
3
4
t2t0 1610
1030 1360
8
10
42
54
22
32
4L
53
43
59
143 179
Qzs
Qso
130 158
7
t1
2t40 2560
1?80 2090
13
t6
70
82
M
55
68
80
79
95
226 26r
287 387 521 625
1040 1440 2020 2510
2
3
4
5
5
3
4
6
320 349 379 399
909 t250 1750 2180
6L
79
t22
160
9
t2
16
20
548 696 885 t020
302 382 489 572
834 tl70 1680 2t2A
24
44
33
54
327 495 78r 1060
2
2
2
3
377 455 550 616
5
7
10
12
28
43
67
90
1260 1680 2260 272A
13
18
26
33
896 I 140 t460 1700
16
2l
27
31
t7l
Donnéeset résultatsde l'Arkansas
Tes. D.l: Donnéesde I'Arkansas(suite)
NO
07263400 38,90 6,72 r35 180
07263530 83,90 3,90 130 168
07263910 6,16 6,29 t27 99
0733870041,70 9,26 135 378
07339500 471 3,52 132 256
0733980016,60 9,03 130 168
07340000 6890 0,80 r32 250
07340200 27,40 2,27 t24 t26
07340300 232 5,66 1 3 5 3 8 1
07340500 932 2,94 137 271
07340530 t,66 1 1 ,5 0 r27 r20
0734r000 3 1 3 4,07 140 232
07341100 24,60 9,47 t32 177
07341700 33,40 3 ,3 1 130 108
07342350 438 0,34 1 1 9 99,r
0734320 3,70 6,88 tt7 89,9
07346800 o,34 20,60 ït7 79,2
07347ffiO 300 0,80 1 1 9 73,2
07348615 593 0,55 127 93,3
07348æA 0,13 19,74 127 99,1
a7348700 r570 0,66 r27 88,4
07349430 606 o,67 t27 97,5
073495W r4rc 0,34 t24 68,9
0735s800 1,68 30,10 130 347
07355900 o,4l 34,90 t42 366
07356000 1070 1,48 132 354
07356500 1,66 2,92 135 253
073.567A04,79 15,60 135 232
a7357501 2860 0,98 132 268
a7357700 9,95 13,70 t42 247
07359500 4 1 1 0 0,84 t42 247
Suitepagesuivante
Qso
0,295 24
0,214 14
0,308 26
0,178 2 l
0,148 25
0,156 26
0,127 40
0,231 22
0,265 27
o,r25 36
0,165 24
0,094 35
0,231 24
0,373 2A
0,078 4 l
0,627 23
0,4r5 20
0,157 25
0,200 t 2
0,fl0 22
0,265 36
0,278 24
0,112 23
0,156 33
0,190 2A
0,104 52
0,154 29
0,220 23
0,082 1 6
0,326 26
0,058 30
734 188
t2l
t44
29
24
101 t36
831 r 180
103
69
305 2000 2500
45
75
96
432 7M
959
799 1330 1730
10
13
5
272 501 685
59
128 184
102 135
60
66
87
18
57
434
29
80
8
I
4A
r20
I
246
93
124
6
125
t4
1
58
250
1
4Ll
185
220
8
I
2
649 1070
192 329
t2
24
1080 1750
18
37
1530 2510
155
18
2
70
363
2
577
26r
290
1t
3
t370
429
35
2240
53
3t70
267
172
34
189
1730
155
3r70
r22
t230
2310
l8
952
264
330
194
38
234
2220
t99
3700
t4I
t430
2790
2L
tr70
329
226
22L
27
3
98
681
3
1010
463
457
16
4
r84
r93
24
2
85
533
2
8L7
372
384
t4
4
1780 zna
561 663
64
51
2910 3430
76
95
4000 4600
172
Tes. D.l: Donnéesde I'Arkansas(suite)
NO
A
07359520 7,77
07359700 497
07359750 6,06
07359800 808
07360150 1,04
07360800 313
07361000 984
07361020 0,41
0736118045,80
a73,61200383
07361500 461
073616002770
073616803,83
07361780 8,96
07361800 648
07362050 26,90
07362100 997
07362330 35,20
0736245A L2,90
07362500 622
07363000 1420
07363050 3,73
47363200 2920
07363300 528
aTæ330 12,60
07363430 1,66
07363450 0,73
07363500 54l;0
07364030 0,93
073æ074 14,60
073&260 54,10
Suitepagesuivante
S
P
EL
SH
n
t40 r62 0 , 1 1 5 20
t40 296 aJ97 35
t47 226 o,443 22
142 265 0,127 33
9,87 r32 n4 0,M3 2 l
3,64 135 171 4,274 4 T
2,92 140 232 0,127 t 7
4 1 , 1 0 r37 194 0,480 24
132 t22 0,308 30
3
1,76 132 t28 o,237 4 T
1 ,5 8 1,32 r58 0,145 45
1,45 137 165 0,103 1 l
9,07 130 109 0,598 26
4 ,L 5 132 97,5 o,253 2A
r32 90,2 0,r21 4T
\44
3 ,3 1 127 6r,6 4,262 2L
0,75 r27 70,1 o,268 55
2,r2 127 57 0,248 32
3,79 130 96 0,554 2A
1,05 130 82,3 0,237 43
2,35 t37 198 0,179 57
8,90 135 105 0,592 24
0,85 t37 r40 0,076 56
1,30 135 tt4 0JzA 34
4,20 135 88,4 a37s 22
12,20 130 107 4,423 2 L
t2 130 74,1 4,440 23
0,46 r32 1 1 0 0,063 57
9 , 1 5 !32 5 1 , 8 0,523 22
2,88 r32 50,3 0,348 2 l
r,23 r37 5 1 , 8 0,237 22
13,70
3,54
16,44
2,33
Qz
8
597
23
734
Qs
19
1080
47
tt20
n
5
310 531
778 I44A
2
4
Qrc Qzs
31
50
1440 1940
66
94
r380 1700
8
12
702 945
t970 2720
Qso
68
2340
116
t940
17
tt40
3330
6
t2
9
r56 r82 2t2 234
359 476 638 769
54r 666 827 948
t670 2220 2984 3574
13
1 8 26
33
2l
26
33
39
679 814 988 ll20
26
39
60
80
393 574 858 1 1 1 0
50
72
105 t33
37
50
69
84
276 380 523 634
1410 1780 2260 2610
11 t8
29
4l
tt40 r470 1 9 1 0 2264
tt4
208
357
926
6
13
480
11
189
24
t9
r39
866
5
694
201 406
t3
27
J
7
I
3
676 1190
I
2
t0
15
t9
36
563
40
1l
5
1560
3
t9
48
776 941
58
73
T7
23
7
9
2060 2450
)
24
64
6
28
76
t73
Donnéeset résultatsde l'Arkansas
Tes. D.1:Données
deI'Arkansas(suite)
NO
A
P
S
0,63 r37
0,68 122
0,96 724
EL
07364300 702
43,3
0n&704 365
61,9
07365800 466
76,2
07365900 130 r , l 7 122 74,7
07366000 l20a 0,66 t22 56,4
07366240 539 0,70 122 61,3
07447820 3,57 6,30 122 98
07047880 0,21 37,90 724 1 1 3
07047975 3 , 1 9 51,30 122 607
07047990 1,74 54,90 rt2 463
07048000 215 5,24 Ll4 52t
07048600 r040 2,70 lt4 488
07048900 2,77 19,90 109 421
07048944 5 8
8,10 122 585
07049000 679 1,60 tL4 485
07049500 2640 1 , 1 0 tL2 457
07050000 32tO 0,70 t12 442
07050200 7,12 26,70 It4 497
07050400 1,89 24,40 109 415
07050500 1360 1,30 109 469
07054400 8,83 2t,20 ra7 317
07054450 2,20 40,90 w 323
0705555011,30 10,60 tt4 390
0705565021,64 26 1 1 9 579
0705580015,90 M,TO tr4 464
07056000 2150 2
1 1 4 454
07057000 2840 1,30 tt2 42L
07057300 1,97 22,40 109 259
07059000 4180 1,20 LOz 396
07060600 3,24 16,20 tt2 225
070æ670 8,29 39,60 1 1 9 259
Suitepagesuivante
SH
n
0,366 24
0,264 22
0,268 38
4,25'1 23
0,213 43
0,239 38
0,170 34
0,690 23
0,327 2 l
0,283 27
0,188 38
0,193 30
0,633 34
0,365 22
0 , 1 1 7 35
0,121 t3
0,462 37
4,477 2L
0,383 20
0,077 55
0,224 2L
0,354 32
0,302 26
0,2t4 2l
0,327 22
0,089 54
0,065 40
0,229 26
0,136 15
0,313 26
0,392 2T
Qz
138
70
136
56
168
108
15
I
5
5
247
683
4
85
394
780
847
t7
5
500
33
8
t7
4l
3L
1060
1090
8
703
7
24
Qt
Qn
426
248
294
158
322 506
1 1 3 165
325 464
232 342
28
23
7
11
11
469
a
3
15
17
&7
nrc 1620
I
tl
r7a 240
686 895
1530 2120
Qzs
618
412
Qso
778
579
8 1 9 t120
245 3 1 8
685 885
5 1 3 664
40
35
4
6
2r 26
25
906
2170
t6
343
tr70
2940
23r0
79
32
tt20
2620
21
430
1370
3s90
2764
1370 n6a
101
54
37
r6 1 8
12
9
932 1280 1770 2180
57
76 r05 129
I4
20
29 37
43
61
78
3l
94 r42 2t4 276
64
93 136 r73
1 9 1 0 2530 3360 4000
2024 2740 3780 4630
25
22
t3
t7
1190 1530 1950 2250
L 7 25
32
t2
69
46
37
59
Tes. D.1:Données
de I'Arkansas(suite)
NO
A
S
P
070607r0 150 2,90 tt4
07060830 0,70 18,50 124
070611001 0 ,1 0 8,80 t19
07068000 5280 0,90 tt2
07068870 4,49 30,50 t17
07068890 593
2
lr7
07069250 1,24 29,60 tt2
a706929A 5,91 14,70 lt2
070695003060 1,60 tt2
070715002050 1,90 rt2
07072000 2940 1,90 109
07072200 3,44 9,60 1 1 9
07073000 562 1 , 1 0 Lt2
07073500 257 1,40 tr4
07074000 1230 1 , 1 0 tt4
w074200 3 , 1 6 11,60 tt4
0747425090,40 3,20 lt7
07074904 0,67 1 1 5 rt2
07074950 4,O9 22 1I4
0707s000 782 2,60 tr4
07075300 383
4
127
07075500 8 1 8 3 ,1 0 r27
07075640 3,52 19,50 127
07075800 0,67 37,50 r27
07076000 2990 1,90 t22
07076630 1 , 7 r 1 6 ,1 0 127
07076820 12,94 6 ,1 0 r27
07076850 430 0,50 127
0707687059,60 1,30 127
07077r00 33,10 3,90 1 1 9
07077200 4,O9 7,70 1 1 9
Suitepagesuivante
EL
198
320
t40
305
r39
155
209
244
226
305
259
143
226
244
2W
198
134
378
463
354
351
351
208
252
3r7
101
93
101
79
r29
r37
SH
n
0,234 28
0,360 2 l
0,290 25
0,104 66
0,411 2 l
0,168 1 5
0,532 25
0,406 2 T
0,136 57
o,L25 7 L
0,860 63
0,230 25
0,067 4I
0,088 55
0,090 58
0,408 23
0,17r 2 l
0,294 26
0,399 23
0,075 55
0,066 32
0,175 23
0,244 30
0,400 30
0,105 35
0,528 33
o,249 2 T
0,131 15
0,283 33
0,604 2A
0,193 32
Qz
Qs
Qn
436
4
Qzs Qso
r22 290
652 830
)
3
7
9
23
4L
55
75
92
754 1390 1870 2530 3060
4
6
7
9
10
441 8 1 7 1100 1480 1780
9
1 5 20
27
32
15
28
38
52
63
742 1390 1930 2750 3470
265 571 8 1 5 1150 1420
335 630 $ei 1330 1730
t7
23
27
32
36
259 420 537 697 822
133 242 332 468 585
421 764 1040 1460 1820
t7
29
37
47
53
84
164 232 336 428
3
5
6
8
9
1 8 26
9
38
48
635 1190 1650 2350 2944
295 554 759 1050 1290
629 985 1220 1520 1740
7
l3
1 8 26
33
1
3
4
6
8
1540 2tt0 2M0 2844 3 1 1 0
7
1 1 13
15
16
22
32
46
39
52
177 309 443 526 6 1 8
6l
Lt4 156 2 t 7 269
84
122 145 17a 188
t0
16
t9
23
26
r7s
Donnéeset résultatsde I'Arkansas
Tes. D.1:Donnéesde I'Arkansas(suite)
NO
A
07077340 1,76
07047204 5,59
070476ffi 75r
07047924 t,24
07047942 1390
07447950 2040
07063000 3220
07064000 4530
07w4550 16,20
0707485514,30
07077380 1820
07077430 1,24
07w7500 2690
0707768020,50
07077740 1090
07077860 25,9O
07077924 80,50
07077940 98,40
07077950 997
07078000 453
07CI78r70 3,9r
07w82LA 4,52
w2$864 7,12
07264400 536
07264100 21,80
47364110 1,94
07364n4 557
w364125 L2,70
w36415CI 1490
w364165 48,70
07364L90 3030
Suitepagesuivante
s
P
EL
SH
n
Qz
173a 122 140 0,333 24 8
0,23 r24 66 0,198 24 5
0,13 t22 70 0,096 54 136
0,80 t27 6 l 0,333 20 3
1 6 124 75 0,156 23 183
t 6 124 73 o,123 54 252
1 , 1 8 tt2 274 0,094 26 374
0,68 109 223 0,053 34 345
0,35 t22 83 0,272 2 l
6
0,63 124 67 0,154 2A 9
0,18 122 9 1 0,133 56 t24
a,76 r22 78 o,333 3 1 1
0,16 t22 79 0,054 66 1 8 1
0,25 r24 70 o,147 20 8
0,M L24 73 0,085 48 9 r
0,36 L27 55 0,192 22 10
0,17 r27 64 0,103 33 T6
0,27 t27 6r 0,3L4 20 38
0,13 t27 59 0,085 23 94
0,16 t27 6 1 0,087 t9 68
0,63 t27 59 0,082 2A 5
3,47 L27 56 0,220 24 2
0,66 127 6s 0,295 37 10
4,25 t27 9 1 0,075 39 6 l
4,99 t27 72 0,438 26 24
4
6,93 130 8 1 0,415 5 5
0,ll
7,73
0,10
2,56
0,08
130 67
r30
94
130 58
r32 86
t32 55
o,032 43
0,533 22
o,021 54
0,418 2 l
0,016 55
49
29
93
26
135
Qs
t3
6
180
6
332
378
788
603
t4
t4
r63
2
26r
11
tzL
13
22
52
t32
113
6
3
l4
87
36
7
69
4
t27
46
169
Qn
16
6
207
8
455
458
1160
795
22
T7
189
3
318
13
t39
l5
26
59
t54
r44
7
4
r6
104
42
10
80
53
t47
62
189
Qzs
20
7
239
l1
636
553
1750
1060
34
22
223
4
392
t4
161
18
30
68
179
L82
7
6
t9
r28
49
L4
94
63
fia
89
2t3
Qso
24
7
262
t4
791
619
2280
1260
46
25
249
5
49
l5
r76
19
32
73
196
2tl
8
8
20
146
54
18
103
7A
186
t12
229
176
Tes. D.1:Donnéesdel'Arkansas(suite)
NO
A
07364200 3070
07364500 4260
07367658 2,43
0736774A 4,82
S
P
EL
0,08
0,08
0,69
0,86
r32
132
130
137
64
60
49
34
SH
n
0,015 36
0,016 53
0,377 26
0,267 23
Qz
Qu
132 177
r99 256
4
6
7
8
Qto
Qzs
202
290
7
9
229
3 3 1 359
8
9
11 ll
Qso
246
Résultatsde Ia modéIisationlog-linéaire
1
2
3
4
5
Nombre de vadables explicatives
Ftc. D.1: RMSE de différentsmodèlesde régressionlogJinéairepour I'estimationdeQ2
ro
q
o
o
$
N
ct
p
o
.9
6
6
o
6l
o
.9
p
ct
UJ
o
cl
ci
=
N
c,
3
NombredovariablêsexplicatiYês
Flc. D.2: RMSEde différentsmodèlesde régressionlogJinéairepour I'estirnationde Qg
3
Nombredevariables€xdicatives
Flc. D.3: RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde 8ro
177
178
lo
ôl
o
$
a
ë
a
o
o
E
6
à
o
rs
o.
uJ
at,
=
v
ôl
o
(D
oa
o
ôt
N
o
o{
o
3
Nombrsdevadauesexplicatives
Ftc. D.4: RMSEde différentsmodèlesde régression
log-linéairepour I'estimationdeQ2s
(o
N
o
{.ao
ro
N
o
e
I
g
.c
pG
E
tt
N
o
o
E
o
o
ll,
o
o
N
ci
N
N
ci
3
NombrêdevariaHêsoxDlicalives
FIc. D.5: RMSE de différentsmodèlesde régression
log-linéairepour I'estimationde Qso
rw
go
o
o
9
o
à (o \
€
o
à
=
s
E
2 z
2 2 2
z
2 2 2 2 2 2 2
5
-5 u- u
ur
U'
2 2 2 2 2 z
J
T
o
è
2 2 2 2 2
5
o
Ë
g
2 z
- ^ a 3 g 3 3 3 3 3 3
^ e o 3 g g 3 3 3
3 3 3 s . l 8 e s 3 3 t Ë s s s s s 5 s s s 5 5 5 s
E
@
d
' + 4 4 4 q 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 *
30
25
Nombrsdestalions
dansla égiond'influenca
FIc. D.6: Nombreoptimalde stationsdansla régiond'influencepourQ2
â
6
. g o
e
0
c
o
6
9
l
x
î
è o
E
o
E
'îp
o
è
g
e
o
o
2 2 2
2 2 z
5
4
2 2 2 2 2 2 z 2 2
2 2
2
2 2 2 2
2 2 2 2
-g 0- 6 1 4 4 4 4 4
s s s si rl r r ; ; ; i i 3 1 : : : : : : : : : :
25
30
Nombrede slationsdansla régiondiniluênc€
Ftc. D.7: Nombreoptimalde stationsdansla régiond'influencepour Q5
180
@
:
o
a
.a
Y
C
N
o ;
Ë c i
(!
=
.9
2 2 2
.^
Ë ;
UJ
a
? " " ,
2 2 2 2
z 2 2
2 2 2 z 2 2 2 2 2 2 2 z
o 2 u o a g r o o o
ro
d
3 3 sg . . l s u ; ; â g â É g 3 : : 3 : : : : : :
25
30
Nombredôstationsdansla rfuion dinfluence
Flc. D.8: Nombreoptimalde stationsdansla régiond'influencepour 8ro
o
ct
o
s
.9
9
o
O
F
ç
o
G
6
JE xF
€
p
3 s 3 3 3 3 3 3 s g 3 3 3 3 3 3 3 3 3 3 g g g 9 3 3
d
2 E g z 2 2 2 2 z z z 2 2 2 z 2 2 2 L' 2 2 2 2 2 2 2
UJ
g)
Ë E
0
4 4
5 -
o o
i Eâi g ,
3
t t t t t t t â Éâ g â â 3 Éé
25
30
Nombredestalionsdansh régiond'influence
Hc. D.9: Nombre optimal de stationsdans la région d'influence pour Q25
181
r 9 o
â o
6
E
= o
à c ;
E
o
E
p
e
lll
l-
o a
> o
G
3
3 3 3 3 3 33 3 3 3
3
3
3
s
3
g s 33 3
' ,
4
@
A , z 2 2 z z 2 z 2 2 2 z 2
3 3 3 3 3
z z 2 2 2
2 z
2 2 2
44 5
4i ; ;
6
I I o 5366 6 $ ggs s $ { 6{ 3
o
25
30
Nombre de stalions dans la région dintluenoô
Ftc. D.10:Nombreoptimalde stationsdansla régiond'inffuencepour Qso
I82
MAl
I[/,4'A2
o-o-
o
@
q
6
o
o
o
o
q?
o
o
-1.0 -o.5 0.0
0.5
s
r.0
1.5
2.o
0.0
0.5
s
t.0
1.5
2.O
o
0
r|
?
2.00
2.10
2.10
o
et5
o
o
o
o
ct'
r.6
1.8
2.0
2.2
EL
2.4
2.6
2.8
f .6
1.8
2.O
2.2
EL
Flc. D.11:Modélisation
additivede Qz
2.4
2.6
2.8
MAl
MA2
-1
c?
D
o
o
o
:
o
o
-1.0 -0.5 0.0
0.5
s
1.0
1.5
-1.O -0.5 0.0
2.0
0.5
ô
t.o
1.5
2.0
2.2
EL
24
2.ô
2.8
ral
el
I
1
-l
r12.00
2.10
2.15
a
o
o
d
o
o
o
Y
a
r.6
1.8
2.O 2.2
EL
2.4
2.6
2.8
1.6
1.8
2.0
Frc. D.l2: ModélisationadditivedeQs
184
Qro
Qzs
.
r
o
l
Quo
2
9
-
4
1 0
1
I
2
3
4
c;
ct
I
a
.1.0.0.5
0.0
0.5
s
1.0
1.5 2.O
.l.o
-o.5
0.0
05
s
1.0
1.5
'f.6
1.8
2.0
2.2
2,1
2.6
2.0
o
Y
2.10
2.15
ra?
d
c;
14
Y
q
i
1.6
1.8
2.0
2.2
2.4
2.6
2A
r.6
1.8
2.0
2.2
2.4
2.6
2-A
ÈL
Ftc. D.l3: Modélisationadditive(c - 1) deQro,Qzset Qso
2.A

Université du Québec INRS-Eau MODÉLISATION ADDITIVE PAR

Transcription

Documents pareils

Inondations

le petit mot de la diététicienne 08 – la cure detox

Village d`Imlil Ecoulement Village d`Asni Ecoulement (de la station d

Annexe3 Fiche entretien PPRi Beaulieu-sur

Sté MIRKENTA sarl BP.29 ZI 1 chemin de la Sablière 91430 Igny Tél.

Plan Local d`Urbanisme de LUTTENBACH-PRES