Université du Québec INRS-Eau MODÉLISATION ADDITIVE PAR
Transcription
Université du Québec INRS-Eau MODÉLISATION ADDITIVE PAR
Universitédu Québec INRS-Eau MODÉLISATION ADDITIVE PAR POLYNÔNNBSLOCAUX POUR LA RÉGIONALISATION DES QUANTILES DE CRUE : APPROCHE OPTIMALE DE NÉCNNSSIONPAR NÉCTON D'INFLUENCE Par Marco Latraverse M.Sc.Mathématiques Thèseprésentée pour I'obtention doctorat(Ph.D.) du gradede Philosophiæ de I'eau en Sciences Juryd'évaluation Présidentdu jury et examinateurexterne PascalSarda Laboratoirede statistiqueet probabilités UniversitéPaul Sabatier Examinaûeur externe BelkacemAbdous Départementde mathématiqueset d' informatique Universitédu Québecà Trois-Rivières Examinateur interne TahaB.M.J.Ouarda INRS-Eau Universitédu Québec Codirecteurde recherche PeterFunderRasmussen Departmentof Civil andGeologicalEngineering Universityof Manitoba Directeurde recherche BemardBobée INRS-Eau Universitédu Québec Thèsesoutenue le 14avril2@0 @ droitsréservésde MarcoLatraverse,2000 lll Résumé territorialeset du coût associéà f installationet au maintiende En raisondesgrandesétendues stationsde mesures,il arrivefréquemmentque les hydrologuesdoiventproduireune estimation desquantilesde cruede périodede retourdonnéeT, notésQr, en un site nonjaugéoù ils Danscettesituation,uneapprocheemployée nedisposentd'aucuneinformationhydrométrique. afindetransférerI'informationdisponibleen derégionalisation consisteà utiliserdesprocédures dessitesjaugésversle sitenonjaugéoù I'on désireproduireuneestimation.De manièrsgénécomportedeuxétapesdistinctesqui consistentà (l) choirale,uneprocédurede régionalisation sir les sitesjaugésà partir desquelss'effectuerale transfertd'informationet (2) appliqueraux siteschoisisun modèlede transfertd'informationrégionale.Aux États-Unis,desingénieursdu tlnited StatesGeologicalSurvey(USGS)ont proposérécemmentI'utilisation d'une nouvelle procédurede régionalisation,la régressionpar région d'influence (Tâskeret al., 1996)qui consisteà (l) choisirles sitesjaugésà I'aide d'uneapprochede régiond'influenceet (2) utiliser pour le transfertd'informationrégionale. uneapprocheclassiquederégression Danscettethèse,nousreformulonsI'approchede la régressionpar régiond'influencedansun Nous montronsen effet queI'approchede régression contextede régressionnon paramétrique. parrégiond'influenceappartientà uneclasseparticulièredemodèlesderégressionnonparamélocale.Nousutilisons,dansun premiertemps,les conceptsde trique,lesmodèlesde régression la régressionlocale afin de proposerune approchepermettantde choisir de manièreobjectiveet étaient qui ffaditionnellement optimaleles paramètresde la régiond'influence,desparamètres à la famille choisisde manièresubjective.Nousmettonsaussienévidencele fait qu'appartenant desmodèlesde régressionlocale,I'approchede la régressionpar régiond'influenceseheurte au problème,bien connuen statistique,de la raréfactiondesdonnéesdansun espaceà grande dimension.Nousproposonsalors,parle fait même,I'utilisationd'unenouvelleapprochederéparrégiond'influencequi nesoitpasaffectéeparceproblèmede gionalisationnonparamétrique dimensionalité,l'approchede la modélisationadditive par potynômeslocaux. Nouscomparonspar la suite,à I'aide dedonnéesréelles,I'approchedemodélisationadditivepar polynômes ont étéestimés locauxà I'approchede la régressionpar régiond'influencedont les paramètres par régiond'influencedeTasker de manièreobjectiveet optimale,à I'approchede la régression du USGS. et al. (1996)et à I'approcheclassiquede régressionrégionaleparamétrique Modélisationadditivepar polynômeslocauxpourla régionalisation desquantilesde crue... Remerciements m'ont soutenupendantmesétudesde doctorat.Mentionnonsd'abordmon Plusieurspersonnes Je tiensaussi directeurde thèse,BernardBobée,ainsi que mon codirecteur,PeterRasmussen. à remercierles autresmembresde l'équipe de la Chaireindustrielleen hydrologiestatistique pour leur aide et pour avoir CRSNG/ Hydro-Québec/ INRS-Eaupour leurscommentaires, agrémentémon séjourà I'INRS-Eau.Merci Taha,Luc, Mario, Hugues,Alin, Fabriceet Mardes examinateursexternesont permis tyne. Il me faut aussisoulignerque les commentaires d'améliorerde façonsignificativela qualitéde ce document. Les trois premièresannéesde mes étudesont été ûnancéespar les boursesde I'INRS et par l'INRS-Eau via mon directeurde recherche.Je tiens enfin à remsrcierrna conjointeMarieNatachad'abordpoursonsoutienfinanciermaissurtoutpourm'avoir supporté,appuyéet avoir su êtreprésente,malgrésonhorairechargé,lorsquej'avais besoind'elle. desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation vll À la rnémoire de Georges-Étienne Latraverse Modélisationadditiveparpolynômeslocauxpourla régionalisation desquantilesde crue... Table desmatières ul Résum6 Table desmatières xlll Liste desfigures Liste destableaux INTRODUCTION t de recherche. 1.1 Problématique 1 1.1.1 Le modèle de transfertrégional 3 1.I.2 Le choixdessites. 4 1.1.3 Approchesactuelles 6 de modélisationproposée 1.1.4 r--approche 9 1.2 Objectifsde recherche L2 1.3 Plandela thèse l3 LE LISSAGE PAR NÉCNNSSIONLOCALE 2.L L approchede modélisationnonparamétrique 15 15 18 18 t9 20 20 2L 22 23 24 25 26 27 28 2.2 Lesprincipalesméthodesde lissage 2.2.1 Introductionaulissage 2.2.2 Définitiondu lissage 2.2.3 Le régressogramme médianeset droitesmobiles 2.2.4 Le lissagepar moyennes, 2.2.5 Le lissagepar noyau 2.2.6 Le lissagepar splines 2.2.6.1 Les splinescubiquesd'interpolation delissage 2.2.6.2 Les splinescubiques 2.2.6.3 Les splinesderégression 2.2.7 Le lissagepar polynômesmobileslocalementpondérés. 2.2.8 Les principauxlisseursde surfaces. et choix d'uneapprochede lissage 2.2.9 Comparaison desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation 2.3 La modélisationpar régressionlocale 2.3.I locale Le modèlederégression 2.3.2 l.lestimationde la courbede régression 2.3.3 La modélisation desdonnées 2.3.4 Définitionsrelativesaux lisseurslinéaires 2.3.4.1 Le lissagelinéaire 2.3.4.2 Le biais 2.3.4.3 La variance moyenne 2.3.4.4 l-ierreurquadratique 2.3.4.5 Le nombrede degrésde liberté 2.3.5 L'ajustementdu niveaude lissage: un compromisbiais/variance. 2.3.5.1 La largeurde la fenêtrede lissage 2.3.5.2 Le degrédu polynômelocal 2.3.5.3 La fonctionde pondération de lissage 2.3.6 La sélectionautomatique desparamètres 2.3.6.1 La validationcroisée 2.3.6.2 La validationcroiséepour un lisseurlinéaire 2.3.6.3 La statistiqueCo de Mallows 30 30 31 32 34 34 35 35 36 37 38 40 41 4l 43 44 44 45 LA MODÉLISATION ADDITIVE 47 3.1 Llapprochede modélisationadditive 47 3.2 Læmodèleadditif 49 3.3 L'estimationdesmodèlesadditifs 50 3.3.1 L algorithmede bacffitting. 51 3.3.2 Définitionsrelativesaux modèlesadditifsde lisseurslinéaires 52 3.3.2.I Desestimateurs linéaires 52 moyenne 3.3.2.2 Le biais,la varianceet I'erreurquadratique 53 3.3.2.3 Le nombrede degrésde liberté 54 3.4 La modélisationdesdonnées 55 3.4.L Les mesuresde I'ajustement de sélectiondu modèle 3.4.2 Les procédures 56 3.4.3 L'aspectgraphiqueet la linéaritédesmodèlesde régression 59 5'I Tâbledesmatières 4 LA RÉGIONALISATION DES QUANTTLESDE CRIIE 4.1 Descriptiondela problématique xl 63 64 hydrologiques Lesincertitudes 66 4.2 L'analyselocalede la distributiondescruesannuelles 69 4.lJ 4.2.1 Lesobjectifs 69 4.2.2 Leshypothèses 69 4.2.3 l-lestimationde la distributiondescruesannuelles non paramétrique. 4.2.3.1 LSapproche 7O 4.2.3.2 L'approcheparamétrique 4.2.4 Le choixd'une procédured'estimationlocale 4.3 L'analyserégionalede la distributiondescruesanrurelles 72 4.3.t Lesobjectifs 4.3.2 Le choixdessites de régionshydrologiques 4.3.2.1 Les méthodesde détermination 4.3.2.2 L'assignationde la stationcible auxrégionshydrologiques 4.3.2.3 La méthodedela régiond'influence 4.3.2.4 La méthoded'analysedescorrélationscanoniques 4.3.3 Les principauxmodèlesrégionaux. 4.3.3.1 La méthodedeI'indicedecrue régionaledesquantiles 4.3.3.2 La méthodede la régression 4.3.3.3 Les principauxmodèlesalternatifs 70 74 77 77 ?8 79 79 80 80 81 82 83 84 APPLICATIONS ET COMPARAISON 89 desdonnées 5.1 Présentation 89 d'évaluationet de comparaison 5.2 La méthodologie de séparationde données 5.2.1 Les simulationsvs les procédures 91 5.2.2 Les critèresde comparaison 5.2.3 La calibrationdesdifférentsmodèles 5.2.3.1 Le modèlede régressionlogJinéaireet de régressionpar région d'influence 5.2.3.2 La modélisationadditiveparpolynômeslocaux 5.3 Applicationà la régiondu Texas 5.3.1 La modélisationpar régressionlogJinéaire 5.3.2 La modélisationpar régressionpar régiond'influence 92 93 93 94 95 96 97 99 xll desquantilesde crue... Modélisationadditivepar polynômeslocauxpour la régionalisation 5.3.3 La modélisationadditivepar polynômeslocaux desrésultats 5.3.4 Synthèseet comparaison 5.4 Applicationà la régionde la Nouvelle-Angletene log-linéaire. . 5.4.t Le modèlederégression 102 110 113 113 par régiond'influence 5.4.2 Le modèlederégression 5.4.3 Le modèleadditif par polynômeslocaux lt4 desrésultats 5.4.4 Comparaison 118 5.5 Applicationà la régionde I'Arkansas log-linéaire. . 5.5.1 Le modèlederégression 115 118 ll9 par régiond'influence 5.5.2 Le modèlede régression 5.5.3 Le modèleadditifpar polynômeslocaux 120 desrésultats 5.5.4 Comparaison 123 tzr CONCLUSION tzs 6.1 Motivationde l'étude 125 t26 t26 t28 130 131 6.2 Objectifs 6.3 Démarche 6.4 Résumédesrésultats 6.5 Contribution. 6.6 Travauxfuturs Bibliographie 133 Annexes t4s Annexe A Estimation de Qr gar GEV/PWM 145 Annexe B Donnéeset résultats du Ïbxas 149 Annexe C Donnéeset résultats de la Nouvelle-Angleterre t57 Annexe D Donnéeset résultats de I'Arkansas 169 Liste desfigures 2.1 2.2 2.3 2.4 entreunerégression linéaireet un lissage Comparaison Exemplesde compromisbiais/variance Effet du changement de la largeurde la fenêtrede lissage Effet du changement du degrédu polynômelocal 18 39 40 42 (tiré de Hastieet Tibshirani(1990)) 3.L Illustrationdu problèmede dimensionalité 48 3.2 Algorithmedebacffitting . . 51 3.3 Algorithmedebacffitting modifié 3.4 Visualisationde I'hypothèsede linéaritépour 2 régionshydrologiquesdéfinies par le USGS 52 60 4.1 Variationrégionaledu CV en fonctionde l'aire (A) desbassinsversants(tiré de Guptaet al., 1994) 87 5.1 LesrégionshydrologiquesAméricainesdu HCDN 90 log-linéairepour I'estimationde Q56 98 5.2 RMSE de différentsmodèlesderégression 101 5.3 Nombreoptimalde stationsdansla régiond'influencepour Qso surle lissage105 5.4 Modélisationadditivede Qso: Effet du critèrede validation-croisée 5.5 Modélisationadditivede Qso: Effetdela fonctionnoyauet deI'utilisationd'une 106 fonctionde pondérationsur le lissage(c : 1) -108 5.6 Modélisationadditivede Qz, Qs, Qn et Qzs: c I 109 5.7 Modélisation additivede Qz,Qs,Qrc etQzsi c: 2 5.8 Modélisationde Qso: graphiqueenboîtedeserreurs(relatives)de prédiction(Vo)Ill lt7 . . . 5.9 Modélisationadditivede Qso(Nouvelle-Angleterre) L22 5.10 Modélisationadditive(c - 2) de Qro,Qzset Qso 5.11 Comparaison deserreursdeprédiction(DRM) enArkansas(adaptédeTaskeret al. (1996)) t24 8.1 RMSE de différentsmodèlesde régression log-linéairepour l'estimation& Qz. 152 8.2 RMSE de différentsmodèlesderégression log-linéairepour I'estimationde Q5 152 8.3 RMSE dedifférentsmodèlesderégressionlog-linéairepour I'estimationde Qro L53 8.4 RMSE de différentsmodèlesderégression logJinéairepour I'estimationde Qzs 153 8.5 Nombreoptimalde stationsdansla régiond'influencepour Q2 8.6 Nombreoptimalde stationsdansla régiond'influencepour Q5 154 154 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation 8.7 Nombre optimal de stationsdans la région d'influence pour Q1e 8.8 Nombre optimal de stationsdans la région d'influence pour Q25 C.l RMSE de différentsrnodèlesde régressionlogJinéairepourl'estimationde Q2 C.2 RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Q5 pourI'estimationde Q1s log-linéaire C.3 RMSE de différentsmodèlesde régression C.4 RMSE de différenæmodèlesde régressionlog-linéairepourI'estimationde Q25 C.5 RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Q56 C.6 Nombreoptimalde stationsdansla régiond'influencepour Q2 C.7 Nombreoptimalde stationsdansla régiond'influencepour Q5 C.8 Nombreoptimalde stationsdansla régiond'influencepour Qie C.9 Nombreoptimalde stationsdansla régiond'influencepour Q25 C.lO Nombreoptimalde stationsdansla régiond'influencepour Q5s C.11 ModélisationadditivedeQz C.12 Modélisationadditivede Qs C.13 Modélisationadditivede 8ro C.14 Modélisationadditivede Qzs D.l D.2 D.3 D.4 D.5 D.6 D.7 RMSE de différentsmodèlesde régressionlog-linéairepourl'estimationdeQ2 RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde 8s RMSE de différentsmodèlesde régressionlogJinéairepour I'estimationde Qro RMSE de différentsmodèlesde régressionlogJinéairepour I'estimationde Q2s RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Qss Nombreoptimalde stationsdansla régiond'influencepour Q2 Nombreoptimalde stationsdansla régiond'influencepour Q5 D.8 Nombreoptimalde stationsdansla régiond'influencepour Q1s D.9 Nombreoptimalde stationsdansla régiond'influencepour Qzs D.10 Nombreoptimalde stationsdansla régiond'influencepour Q5s D.11 Modélisationadditivede Qz D.12 Modélisationadditivede 8s D.13 Modélisationadditive(c * 1) de 8ro, QzsetQso 155 155 160 160 161 161 162 162 163 163 164 164 165 166 167 168 176 I77 177 178 178 179 ll9 180 180 181 182 183 184 Liste destableaux 2.1 Lesprincipalesfonctionsnoyau(tiré de Loader(1999)) 2.2 Efficacitéasymptotiqueponctuelledesfonctionsde pondérationutiliséespour la régressionlocalelinéaire(tiré deLoader(1999) 22 4.1 Formulesde probabilitéempirique(tiré de Bob:eeet Ashkar(1991)) 7ï 5.1 Lesrégionshydrologiquesdu HCDN : Analysepréliminairede la logJinéarité. et climatologiques 5.2 Descriptiondesvariablesphysiographiques 91 97 5.3 Légendedesdifférentsmodèlesderégression estimésdeséquationsde régressionffexas) . . . 5.4 Lesparamètres log-linéaire(Texas) . . . 5.5 RMSEet DRM desmodèlesde régression 98 5.6 RMSEprédictif desfonctionsnoyaurectangulaireet triplementcubique par régiond'influence(Texas) 5.7 Les modèlescalibrésde régression par régiond'i.nfluence(Texas) 5.8 RMSEet DRM desmodèlesde régression 99 43 98 99 101 101 L02 5.9 RMSEprédictif pour différentesvaleursde k de la modéli5.10 Modélisationadditivedu quantileQ5s: Influencedesparamètres 104 sationsur les capacitésprédictives 108 5.11 RMSEet DRM desmodèlesadditifsde polynômeslocaux: c=l 109 5.12 RMSEet DRM desmodèlesadditifsdepolynômeslocaux: c=2 111 deserreursdeprédiction: RMSE - Texas 5.13 Comparaison dgserreursde prédiction: DRM - Texas 5.14 Comparaison deserreursdeprédiction(sansextrapolation): RMSE - Texas 5.15 Comparaison deserreursde prédiction(sansextrapolation): DRM - Texas. 5.16 Comparaison 111 112 lI2 estimésdeséquationsde régression(Nouvelle-Angleterre). . . 113 5.17 Les paramètres log-linéaire(Nouvelle-Angleterre) 113 5.18 RMSEet DRM desmodèlesde régression parrégiond'influence(Nouvelle-Angleterre)It4 5.19 Les modèlescalibrésde régression 5.20 RMSE et DRM des modèlesde régressionpar région d'influence(NouvelleIl4 Angleterre) . . desmodèlesde régressionlog-Inéaire 5.21 Matricesde corrélationdesparamètres 5.22 RMSEet DRM desmodèlesadditifsde polynômeslocaux: c=l 5.23 RMSEet DRM desmodèlesadditifsde polynômeslocaux: c=2 deserreursdeprédiction: RMSE - Nouvelle-Angleterre 5.24 Comparaison deserreursde prédiction:DRM - Nouvelle-Angleterre 5.25 Comparaison 115 116 116 118 118 xvi Modélisationadditiveparpolynômeslocauxpourla regionalisation desquantilesde crue... s.26Lesparamètres estimésdeséquationsde régression(Arkansas) 119 119 5.27 RMSE et DRM desmodèlesde régressionlog-linéaire(Arkansas) 5.28 Les modèlescalibrésderégressionpar régiond'influence(Arkansas) r20 5.29 RMSE et DRM desmodèlesde régressionpar régiond'influence(Arkansas). . t20 5.30 RMSE et DRM desmodèlesadditifsdepolynômeslocaux: c=l r2l 5 . 3 1RMSE et DRM desmodèlesadditifsdepolynômeslocaux: c=2 122 5.32 Comparaison t23 deserreursde prédiction: RMSE - Arkansas 5 . 3 3 Comparaison deserreursde prédiction: DRM - Arkansas t24 8,1 Donnéesdu Texas t49 C.1 Donnéesde la Nouvelle-Angleterre r57 D.l DonnéesdeI'Arkansas r69 I.. INTRODUCTION 1.L Problématiquede recherche desécoulements aux uneconnaissance La gestionet I'utilisationdeseauxde surfacenécessitent sitesoù se posentles problèmesreliésà la prévisiondescrues,au contrôledesinondations,à desouvrageshydrauliqueset d'une fala régularisationdescoursd'eau,au dimensionnement hydriqueet à touteétuded'impactd'aménagement çongénérale,à toutegestionde la ressource d'un coursd'eau.Pourrésoudrecesdifférentsproblèmes,les hydrologuesdoivent(l) prévoir l'évolutiondesdébitsd'unerivièreet (2) estimerI'amplitudeet la fréquencede débitsextrêmes d'alerteen casd'inondation,on (crues,étiages).Parexemple,pourl'établissement de systèmes doit pouvoirémettredesprévisionsà courttermedel'évolutiondu niveaudescoursd'eau.Pour touslesproblèmesreliésà la gestiondesréservoirs,on doit aussiprévoir,non seulementà court le niveaudes maisaussià moyenet long terme,l'évolutiondu débit afin de gérerefficacement réservoirs.Par contre,pour la planification,incluant la conception,desouvragesde conrôle desinondationsou detout autreouvragesoumisaurisquede défaillanceparleseaux,leshydrologuessontplutôt amenésà effectuerdesestimationssoit (1) dela probabilité au dépassement, aussiappeléela probabilité ou la fréquenced'une crue,c'est-à-direla probabilitéqu'unecrue au coursd'uneannéedonnéeou (2) de I'amplide grandeurdonnéeseproduiseou soitdépassée préalablement définie.Dansce travail, tudedela crueassociée à uneprobabilitéaudépassement auproblèmede I'estimationdesamplitudesde crue. nousnousintéressons spécifiquement d'approcheset de méthodesd'analyse de fréLes hydrologuesdisposentd'une abondance quencedes crues (AFC) permettantd'effectuerl'estimationdesamplitudesde crue. Les difen fonction,entreautres,(Cunnane,1987): d'AFC peuventêtreregroupées férentesprocédures 1. du nombreet dela naturedesdonnéesdisponibles: (a) donnéesau sitejaugéseulement,ou (b) donnéesau sitejaugéet donnéesrégionales,ou (c) donnéesrégionalesseulement;et 2. du type de modèleutilisé: (a) modèledessériesde débitsmaximumsannuels(DMA), ou (ou sériespartielles). (b) modèledessériesde dépassements Dansle cadrede ce travail,nousproposons unenouvelleméthoded'AFC baséesurI'utilisation desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation au problèmede I'estimation du modèledessériesde DMA (2a) et s'attaquantspécifiquement desamplitudesdecrueen dessitesnonjaugés(1c). Avecl'approchedessériesde DMA, aussiappeléeapprochedescrues annuelles,on ne consià la valeurmaximaledu débit atteinteau cours dèrequ'uneseulecruepar annéecorrespondant decetteannée.On rait ensuiteI'hypothèsequele DMA d'uneannéequelconqueestunevariable aléatoireX issued'unepopulationP ayantunefonctiondedensitédeprobabilité/ ainsiqu'une I'amfonctiondedistributionstationnatreF tellequeF(r) * PrlX ( r]. Seloncetteapproche, au plitudeQo du débitde la crue ayantune probabilitépréalablement définiep d'être dépassée coursd'une annéedonnéecorrespondau (1 - p)ièmepercentile,aussiappeléquantile de la distributiondesDMA soit Qp: r-t(r - p) (1.1) où F-l(.) estla fonctionde répartitioninversede la variablealéatoireX. En hydrologie,il est courantde mesurerI'amplitudedescruesenemployantla notionde périodede retour, notée?. Pardéfinition,unecruedepériodede retourde ? années(T-yearflood),not&, Q7, correspond au débit de la cruequi estdépassé,en noyenne (sur unelonguepériode)une fois toutesles T années.AvecI'approchedescruesannuelles,il estpossiblede montrerquele débitde crueQ7 estp - L/T d'où trarelation correspondà un débitdontla probabilitéau dépassement Qr: Qp : F' - t( l - p) - F- t( 1 - Ur ) (r.2) et l'emploi du termequantile de crue pour désignerla quantiÉQr. Dansle casoù desmesuresde DMA sontdisponiblesausiteoù I'on désireeffectueruneestimation,le problèmede I'estimationdu quantilede crueQ2'consistealorsà estimerla distribution réellemaisinconnueF desDMA ou cruesannuellesou tout simplement,crues.De manièregénérale,I'analyseQocale)de la distribution descrues(ADC), consisteà ajusterunedistribution d'enregistrestatistique /("; O) à la série(rr, *r, ..., rn) desDMA (oùn estle nombred'années ments).Unefois I'estimationpar Ô du vecteurdeparamètres O de la loi / effectuée,l'équation 1.2permetd'obtenir Qr:r'-t(l -Ur;ë) (1.3) En hydrologiestatistique,plusieursdistributionscombinéesà diversesméthodesd'estimation desparamètres ont étéutiliséespour estimerde manièreapproximativela distributionréelledes cruesannuelles. INTRODUCTION teritoriales et du coût associéà I'installationet au maintiende En raisondesgrandesétendues stationsde mesures,il arrivefréquemmentqueles hydrologuesdoiventproduireuneestimation de Qr en un site où ils disposentde peu ou d'aucuneinformationhydrométrique.Danscessituations,il est alorspossibled'effectuerune analyserégionalede la distribution des crues (ARDC) afin de s'attaquerà cetteproblématiqueparticulière.Un projetderechercheaétêmené (GREHYS,1996a,I996b)afin de comparécemmentpar uneequipede scientifiquescanadiens rer les principalesméthodesd'ARDC utiliséesen Amériquedu Nord tant pour I'estimationen jaugésqu'endessitesnonjaugés.Puisquedansce travailnousproposons dessitespartiellement unenouvelleapproched'estimationpour dessitesnon jaugés,nousréféronsle lecteurà (GREde I'estimationen des HYS, L996a,1996b)pour une explicationdétailtéede la problématique sitespartiellementj augés. pour transférerI'information ditesde régionalisation L'ARDC consisteà utiliserdesprocédures disponibleen dessitesjaugésversle site nonjaugé (sitecible)où I'on désireeffectueruneesticomportedeuxétapesdistinctes mation.De manièregénérale,uneprocédurede régionalisation qui consistentà (1) choisirles sitesjaugésà partir desquelss'effectuerale transfertd'information vers le site cible et (2) appliqueraux siteschoisisun modèlede transfertd'information régionale. 1.1.1 Le modèlede transfert régional Un modèlede fransfertd'informationrégionaleou tout simplement,un modèlerégional,est de crued'une un ensembled'équationsqui relient entreellesune ou plusieurscaractéristiques derégionalisationont plus particulièrégion.Dansla littératurehydrologique,deuxprocédures rementretenuI'attentiondeshydrologues: la méthodede I'indice de crue(Dalrymple,1960)et la méthodede la régressionrégionaledesquantiles(RRQ)(Benson,1962). Avec la méthodede l'indice de crue,on fait I'hypothèseque les donnéesaux différentssitesi et suiventla mêmedistributionstatistiqueà un facteurd'échelle d'unerégionsontindépendantes le débit de crue moyenpt îu sito z (l'indice de crue).Le modèlerégional près,généralement intrinsèqueà la méthodeestalors (pour une périodede retourT frxée): //'li --: lt; Fo*et (1.4) le quantile représentant où Qi/ lt; estle quantiledecruenormalisédu sitei, Bs estuneconstante d'erreurdu modèle.L hypothèseque de cruenormalisérégionalmoyenet e6estla composante et suiventla mêmedistribution les donnéesauxdifférentssitesd'unerégionsontindépendantes Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... statistiqueà un facteurd'échelleprèséquivautà supposerque le coefficientde variation(CV) et tousles autresratiosde momentsd'ordresupérieursontégauxà chacundessitesrégionaux. Ainsi, un autremodèlerégionalintrinsèqueà la méthodede I'indice de crueest CV:eV + et ( 1.5) d'erreur le CV régionalmoyenet €6estla composante où CV estle CV du sitei, CV représente du modèle. Avecla méthodede la RRQ, on fait plutôt I'hypothèsequele modèlelog-linéairesuivant: los(Qh): 0o* Bl log(xï)+ futos(xi)+ ...+ B6tos(xf,) +., ( 1.6) d'erreur,permet où 80,0t,...,Éa sontles paramèresinconnusdu modèleet e la composante de décrireadéquatement la relationexistantentreles quantilesde crueQr et les variablesphysiographiques et climatologiquesXr,Xz,...,Xa desdifférentssitesd'une régiondonnée.En supposant unetelle relationrégionale,il estalorspossibled'appliquerles techniquesde régressionlinéairemultiple traditionnellespour I'estimationdesparamètresdu modèlede mêmeque pourle choix desvariablesexplicatives. parfaitementla réalitêhydrologique, Puisqu'enpratiqueaucunmodèlerégionalne représenæ touteprocédurede régionalisationintroduit,pourI'estimationde Qy en un sitenonjaugé,outre deserreursliées à I'estimationdes paramètresdu modèle,une erreurcauséepar la forme inexactedu modèleemployé.Moss (1979)a d'ailleursmontré,à I'aide de simulations,comment donné,des l'élaborationd'un meilleurmodèlepermetd'obtenir,pourun nombred'observations plusprécises.SelonGreiset Wood(1981),le modèledetransfertconstitue estimations beaucoup de régionalisation: d'ailleursl'élémentmajeurlimitant I'améliorationdesprocédures "The achievement of an optimallevel of regionalinformationtransferhasbeen frustratedby the lack of a satisfactorymethodologyfor regionalizingstatisticalflood parameters suchasflood recurrenceintervalsor quantilelevels.To a point,informaby moreintensivedatacollectionactivities, tion transferdeficienciescanbelessened but the ultimatelimitation is thetransfermodelitself, usuallyregression." 1.1.2 Le choix dessites Avantde pouvoir transférerau site cible I'informationrégionaleprovenantde sitesjaugés,il estprimordialde bien choisir les sitesjaugésà partir desquelss'effectuerale transfertd'informationrégionale.À cette étape,l'hydrologuedoit répondreà la questionsuivante: de quels INTRODUCTION sitesprovientI'information permettantd'estimerde la meilleurefaçonpossiblele modèlede en transfertapplicableau site nonjaugé? En ARDC, le choix dessitess'effectuegénéralement en fonction(1) de géographiques) regroupantlesdifférentssitesen régions(pasnécessairement le coefficientde vahydrologiques(généralement d'une de leurscaractéristiques I'homogénéité riation (CV)) ou (2) de la similaritéde leur comportementhydrologique.Dans la littérature hydrologique,les notionsde similaritéhydrologiqueet d'homogénéitêrégionalesontgénéraleDansce document,on distingueracependantclairementcesnotionsà I'aide mentconfondues. desdéfinitionssuivantesde Rossiet Villani (1994a): "Regionalizationmodelsusethe conceptof hydrologic similarity by associafactors.As only with climaticandgeomorphologic ting basin'sflood characteristics are usedas explanatoryvariables,resomeof the geomorphologiccharacteristics gionalizationmodelsusuallyallow the other factorsto be constants,i.e. they are In this sense,thebasinsin combinedso asnot to influencethe flood characteristics. a singleregionaredefinedtobe hydrologicallysimilar. The particularcasewhere is definedas regionalhono basinfactor is seento affectthe flood characteristics whichis thusconstant considered, mogeneiry,withregardto the floodcharacteristic in theregion." du modèlede transfert. Le choix dessitesestavanttout unequestionde respectdeshypothèses Parexemple,pour la méthodede I'indice de cruedont le modèlerégionalfait I'hypothèsed'un d'avoir homogénéitérégionaleau sens coefficientdevariation(CV) constant,il estsouhaitable du CV et le choixdessitesconsistealorsà regrouperles sitesenrégionsayantdesCV similaires pour uneméthodecommela RRQ,les sitesservantà Cependant, régionshomogènes. appelées du modèlerégionatdoiventplutôt avoir un comportementhydrologiquesimil'établissement et les laire, c'est à dire qu'une seuleet mêmerelationlog-linéaireavecles mêmesparamètres mêmesvariablesexplicativesdoit s'appliquerà tousles sitesretenus. De manièregénérale,la déterminationde régionshomogènesou de régionsayantun comportementhydrologiquesimilaires'effectuesoit (1) en déterminantdesrégionsdistinctes(géographiquesou non) de sitesjaugésou (2) en déterminant,pour le sitecible nonjaugé,sonpropre ensemblede sitesjaugésappelévoisinage.Les voisinagespeuventêtredéfinispar une analyse et al., 1995;Ouardaet a1.,1997;Ouarda,Haché, descorrélationscanoniques(Ribeiro-Corréa et Bobée,1998)ou à I'aide de la méthodede la régiond'influence(Burn, 1990a).Selonla méthodede la régiond'influenceproposéed'abordpar Burn (1990a)pour dessitesciblesjaugés puispar Znnjiet Burn (1994)pourdessitesnonjaugés,chaquesitecible estconsidérécomme le centrede saproprerégion.Le critèrepermettantalorsla sélectionde la régiond'influenceest Modélisationadditivepar polynômeslocauxpourla régionalisation desquantilesde crue... ladistanceeuclidiennean,:ffidansl,espacedesvariablesexplicatives Êstune fonctionde pondérationpermettantla standardisation des variablesexplica& où ?r,l1 tives.La région d'influenceau site'i est alorsdéfiniepar I'ensembledessitesj tels que d,ii est inférieureà un certainpoint de coupure0y ov,lorsquece point de coupureest trop restrictif, par I'ensembledes K sitesayantles K plus petitesdistancesd1j où y'( est le nombreminimum de stationsdésiré.Cetteméthodea d'abordétéproposéepourla déterrninationde régions homogènesaveccommemotivationle fait qu'il soit raisonnable de s'attendreà ce quedesbasphysiographiques sinsversantsayantdescaractéristiques et climatologiquessimilaires,au sens de la distanced,;i,puissentavoir desréponsespluie-débitsimilaireset ainsi, desdistributions de crue semblables(mêmeCV) (Burn, 1990a).Cependant, d'un point de vue conceptuel,cette méthodepeut tout aussibien s'appliquerdansun contextede déterminationde sitesayantun comportement hydrologiquesimilaire. 1-.L.3 Approchesactuelles Aux États'Unis,le UnitedStatesGeologicalSurvey(USGS),I'organismeimpliqué dansle développementdesprocédures de régionalisationpour chacundesÉtatsaméricainsa d'abordutilisé la méthodede I'indice de cruedurantles annéesquaranteet ce,jusqu'au débutdesannées soixante.Cependant,aprèsquedesétudesde Dawdy (1961)et de Benson(1962)aientmontré quepour plusieursrégionsdesÉtats-Unis,I'hypothèsed'un CV constantne pouvaits'appliquer puisqu'empiriquement, le CV tend à diminuer lorsquel'aire des bassinsversantsaugmente, le USGS a remplacéla méthodede I'indice de crue par celle de la régressionrégionaledes quantiles.Cetteméthodeest encoreemployéeaujourd'huipar le USGSqui produit et publie régulièrement(voir par exemplele rapportnationalde Jenningset al. (1994)) deséquations de régressionpermettantaux ingénieurset hydrologuesd'estimerfacilementet rapidementles quantilesde crueenchacundessitesnonjaugésdesÉtats-Unis. Durantles annéesquafie-vingt,la méthodede I'indice de crue a étéressuscitée dansune version utilisant les L-momentsde Hoskinget al. (1985a).De nombreuses étudesde type Monte Carlo (Hoskinget al., 1985a;Lettenmaier,1985;Lettenmaieret Potter,1985)ont alorsmonfré que cette versionde la méthodeaméliorela précisiondesestimateursde Q, (en termed'er' reur quadratiquemoyenne)aux sitesjaugésd'une régionhomogène. Parcontre,I'hétérogénéité régionale,c'est-à-direle nonrespectde I'hypothèsed'un CV régionalconstant,nuit à la perfor(Lettenmaieret Potter,1985).Parle fait même,I'applicationde cette mancede cesestimateurs méthodepour I'estimationen dessitesnonjaugésdemeureproblématique puisqu'il estsouvent difficile d'assignerà un sitenonjaugéunerégionhomogène(Fill et Stedinger,1998). INTRODUCTION Au coursdesdernièresannées,de nouveauxmodèlesrégionauxsontapparusdansla littérature Parexemple,réalisantqueI'hypoafin de comblercertainesdeslacunesde leursprédécesseurs. aveclesrelationsconnuesentre thèsedebasedela méthodede l'indice decrueestinconsistante (1998)indiquentqueles méthodes d'estiFill et Stedinger le CV et l'aire desbassinsversants, desquantilesde crueavec la dépendance mationrégionaledevraientfaire intervenirdavantage Ainsi, ils physiographiques importantes. I'aire desbassinsversantset les autrescaractéristiques par desquantilesnormalisés,développée proposentI'utilisationde la méthodede la régression régionale Fill (1994),qui consisteà combinerles modèlesde I'indice de crueet de la régression desquantilesafind'obtenirun modèledontla formeest : ber*) : +.u + ...+ Baros(X'à Êa* Érlos(Xi)+ B2rog(Xi) (r.7) Cemodèlepermetd'appliquerla notiondescalingpropreà la méthodedeI'indice decrueendes régionaledu quantilenormalisé pasnécessairement I'hypothèsedeconstance sitesnerespectant (ou CV) puisquecelui-ci se ffouve modéliséà l'échellerégionalepar régressionlinéaire.On dela méthodedeI'indicedecrue peutremarquerquecetteapprocheconstitueunegénéralisation puisqu'enprésenced'un CV constant,I'estimationdevraitconduireà 0t : Êz - ... : Êa: 0. Considérantqu'il n'existe aucunejustificationphysiqueà la sélectiond'une relationlinéaire multiple entre le logarithme des quantilesde crue Qr et les différentesvariablesphysiographiqueset climatologiques desbassinsversants, Gingraset al. (1995)proposentplutôtI'utilisapour la modélisationde la relationrégionale.La régrestion de la régressionnon paramétrique sion non paramétriqueest une techniquede modélisationdont la caractéristiqueprincipale est qu'aucunehypothèsen'est faite a priori surla formefinaledu modèle.Le modèlede régression nonparaméniques'exprimecommesuit: los(Qh): s(Xi,Xl, ...,Xâ)+ et ( 1.8) où s est une fonction (courbeou surface)de régressionlisse de forme non spécifiéea priori d'erreur.La forme du modèlesedétermineà partir des de dimensiond et q est la composante ditesde lissagesontdisponiblesdansla méthodesou techniques De nombreuses observations. littératurestatistiqueafin de permettreI'estimationde s. Gingraset al. (1995)ont estiméle mole lissagepar noyau,pour desfonctions dèlede l'équation1.4à I'aide d'une de cestechniques, et d : 2 (surfacede régression). de régressionde dimensiond,- | (courbederégression) desquantilesde crue... Modélisationadditiveparpolynômeslocauxpourla régionalisation Lors d'une étuderécentedu USGS,Taskeret Slade(1994)ont proposéI'utilisation d'une approchedite interactivede régression régionalepour I'estimationde Qr en dessitesnonjaugés du Texas.Il s'agit en fait d'estimeren chacundes sitesnonjaugésdu Texasune équationde régressionrégionaleà I'aide de la seuleinformationprovenantd'une région d'influencecomposéed'exactement50 sitessur les 251 disponibles.Cetteapprochea permisd'obtenirde bien meilleursrésultatsque I'approchetraditionnelleemployéeaux États-Unisconsistantà séparer à I'aide d'une analysedu signedesrésidusdes l'État en régionshydrologiquesgéographiques équationsde régression.Plus récemment,Taskeret al. (1996)ont testéplus exhaustivement I'utilisationde cetteprocédurede régionalisationqu'ils nommentdésormaisla méthodede la régressionrégionale par région d'influence. Ils ont comparéI'utilisation de cetteapproche, pour la modélisationdu quantileQsoen Arkansas,aux autresprocédures utiliséestraditionnellementsoit (1) I'ajustementd'un modèlede régressionlog-linéaireà tous les sitesde l'État (2) I'ajustementde modèleslog-linéairesdifférentspour chacunedes sous-régionshydrologiquesgéographiques decetÉtatet (3) I'ajustementdemodèleslog-linéairesendessous-régions de leursbassinsversantsà I'aide identifiéesselondescritèresde similaritédescaractéristiques (clusteranalysis)et d'analysediscrimide techniquesmultivariéesd'analysederegroupements nante(V/iltshire,1986a).Encoreunefois, les meilleursrésultatsont étéobtenuspar la méthode de la régiond'influence. Les résultatsobtenusparTaskeret Slade(1994)et par Taskeret al. (1996)indiquentqueI'approchede la régressionrégionalepar régiond'influencesembleêtredesplus prometteuses. De plus, cetteméthodefait intervenir,commele suggèrentfortementFill et Stedinger(1998),la physiographiques/climatologiques entreles quantilesde crueet les caractéristiques dépendance de I'hypothèsede linéaritédu moimportantes. Enfin, cetteméthodeestrobusteau non-respect soulevéeparGingraset al. (1995). dèlederégression(Taskeret Slade,1994),uneproblématique régionaleparrégiond'influenceestdû au D'ailleurs,cet avantagede I'approchede la régression fait quela combinaisond'un modèlederégressionlog-linéaireet d'uneapprochederégiond'inconnueen statistiquesousle nom nonparamétrique fluencerevientà uneapprochederégression de régressionlocale (Clevelandet Loader,1996a)et dont un desmodèlesles plus populaires, le LOESS(Cleveland,t979), s'estavéréêtreen hydrologieune méthodenon paramétriquede entredeux variables(Lall, et la recherchede dépendances choix pour I'analysedestendances 1e9s). INTRODUCTION Bien queI'approchedela régressionrégionaleparrégiond'influencesoit desplusintéressantes, delimiter sonapplication: il subsistetoujoursquelquesfacteurssusceptibles de o On note une grandepart de subjectivitéen ce qui concernele choix desparamètres la régiond'influence(le point de coupure|r,le nombreminimum K de stationsdésiré). Nguyenet Pandey(1996)reprochentd'ailleursauxméthodespermettantle choixdessites, pourI'analysedela similarité tellela méthodedela régiond'influence,d'êtredéveloppées hydrologiqueen utilisantdescritèresqui ne soientpasdirectementreliésauxobjectifsde I'estimationdescruessoit,par exemple,de produireuneestimationdesquantilesqui soit la plusprécisepossible. o Puisquele modèlede régressionrégionalepar régiond'influenceappartientà la famille de la desmodèlesderégressionlocale,il seheurteauproblème,bien connuen statistique, raréfactiondesdonnéesdansun espaceà grandedimension.Ce problèmeentraîneun ilcde la fonctionderégression nonparamétriques dela variancedesestimateurs croissement lorsquele nombred de variablesprédictivesaugmente.Par exernple,pour un échantillon de taille n, la vitesseoptimale de convergence(en moyennequadratique)pouvantêtre d'une fonctionde régression/ de classeC2 atteintepour I'estimationnon paramétrique (i.e.pour laquelleon supposeI'existenceet la continuitédes2 premièresdérivées)estde I'ordrede O(n-+/(4+d))(Vieu,I996).Dansle contextehydrologique,cetteproblématique estd'autantplusimportanteen raisonde la faibletaille deséchantillons(nombrede sites jaugés)généralement disponibles. (plusieursvariables o Uneautredifficultérelativeà la régression localemultidimensionnelle explicatives)est ta difficulté d'interprétationde la surfacede régression.Il est en effet estiméelorsqued > 2impossiblede visualiserla surfacede régression t.1.4 L'approche de modélisation proposée Dans le cadrede cettethèse,nousproposons,à l'instar de Gingraset al. (1995)et pour les mêmesraisons,I'utilisation d'une approchede régressionnon paramétrique,c'est-à-direpour laquelleon ne fait aucunehypothèsea priori sur la forme de la fonction de régressionà estimer, et ce en raisonprincipalement pour la modélisationrégionaledesquantilesde crue.Cependant, du problèmede dimensionalitéassociéà I'estimationpar lissagepur d'une fonctionmultidimensionnelles(Xi, Xl,...,Xj), nousproposonsplutôt I'emploi du modèle additif (Hastieet Tibshirani,1987;Buja et a1.,1989;Hastieet Tibshirani,1990)suivant: : sr(xi)+ s2(xfi+... + s6(xi)+ e; los(Qh) (l.e) 10 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation lisses,de forme non spécifiéea priori, asscoù les s4sott desfonctionsunidimensionnelles explicatives(X1,X2,..., Xa).Ce modèlesesitue à chacunedesvariables ciéesrespectivement à mi-cheminentrela régressionlinéairemultiple (approcheclassiquede Benson(1962)et du (approchede Gingraset al. (1995)et apUSGS)et le lissagede surfacesmultidimensionnelles parle fait qu'il prochemodifiéedu USGSde Thskeret Slade(1994)).Ce modèleestcaractérisé En effet, Stone(1985)a étudiéla convern'est pasaffectépar le problèmede dimensionalité. genced'estimateurssplinesdansle modèleadditif et a prouvéqueceux-ciatteignentla vitesse de convergence optimalepour un estimateurd'une fonction univariée(d - 1) et de classeC2, de la modéc'est-à-dire de I'ordrede O(n-als) (voir Stone(1982)).Une autrecaractéristique lisationadditivequi distingued'ailleursle modèleadditif desautrestechniquesde régression pour tenircomptedu problèmededimensionalité(e.g.le modèle nonparamétrique développées pursuit regression) de Friedmanet Stuetzle de régressionsur directionsrévélatricesQtrojection (1981),lemodèlede transformations optimalesutilisantI'algorithmeACE (AlternatingConditional Expectation)deBreimanet Friedman(1985),etc.)estqu'il estplusfaciled'en interpréter les résultats.En effet, tout commeen régressionlinéairemultiple, il est possibleavecun moI'effet dechacunedesvariablesprédictives,uneà la fois, dèleadditifd'examinergraphiquement conditionnellement à la présencedesautresvariablesprédictives.Il devientalorspossibled'effectuerune validationdes hypothèsesde linéaritéassociéesau modèlede régressionlinéaire multiple. techniquesde lissagepermettentI'estimationde chacunedesfonctionssaet le De nombreuses modèleadditif ne requiertI'emploi d'aucunetechniqueparticulière.NousproposonsI'emploi en recherche d'une techniquede lissagequi gagneen popularitêtarûau niveaudesstatisticiens que desstatisticiensen pratique,la régressionlocale polynomiale(RLP) (Loafondamentale der, 1999).Avec la méthodede lissagepar régressionlocale, on ne fait globalementaucune quantà la formede la fonctions. Toutefois,dansle voisinaged'un point d'estimation hypothèse r, on supposeques peutêtreestiméede manièreapproximativepar unefonctionparamétrique, soit un polynômede degrép. En un point s, on définit alors la largeurde la fenêtrepar h(r) et la fenêtrede lissagepæ (n - h(r),r + h(r)). Pour I'estimationde s(z), on n'utilise généralementque les observationsà I'intérieur de cette fenêffe.De plus, on assigneà chacune décroîtà mesureque I'on s'éloignedu de cesobservations un poids qui, de manièregénérale, point d'estimationselonune fonction de pondérationnomméefonction noyau. Mentionnons qu'en n'utilisant,pour I'estimationde s(r), que les observationsà l'intérieur de la fenêtrede lissage,on setrouveà faire I'hypothèsequela fonctionnoyauutiliséeestunefonctionnon nulle à support[-1, 1]). uniquement surl'intervalle] - 1, 1[ (c'est-à-dire INTRODUCTION ll du lissagepar noyau(lorsquep = 0), uneæchLa RLP peutêfe vuecornmeune généralisation publicationstant en statistiquequ'enhydrologie niquedelissagequi a fait I'objet denombreuses (voir la revuehydrologiquede Lall ( 1995). La RLP (dedegrép supérieurà 0) produitcependant moinsbiaiséesnotammentauxbornesdu domainede la variable desestimationshabituellement prédictive(effetsde borQ ou lorsquela courburede la fonction à estimerest prononcée(effets de courbure)(pour plus de détails,voir Hastieet Loader(1993). On peut aussimonfferque estemployée(voir, par exemple,Wandet lorsquep : L et qu'unefonctionnoyaurectangulaire Jones(1990), on retrouvele modèlede régressionrégionalepar région d'influencede Tasker comme et al. (1996)à uneseulevariableprédictive.Uutilisationde la RLP possèdecependant les diversesformespossibles pourreprésenter entreautres,uneplus grandesouplesse avantage, de fonctionsderégressionà estimer. puisqu'ellene de modélisationadditivepar polynômeslocauxsembleprometteuse r--approche nécessiteaucunehypothèsea priori sur la forme finale de la relationrégionale.La forme du au momentde I'estimation.En général,cette à partir desobservations, modèleestdéterminée, techniquede modélisationest appropriéelorsqu'onpossèdepeu ou aucuneinformationsur la formeexactede la relationqueI'on veutmodéliser.Or, pourla modélisationdescaractéristiques decrue,il n'existeaucunejustificationphysiquea priori pourI'utilisationdu modèlelog-linéaire régionaledesquantiles. de régression L'approched'analyserégionaletraditionnellenécessiteque I'on détermine,dansun premier temps,les sitesjaugésà partir desquelss'effectuele transfertd'informationrégionaleafind'apde modélisationadditivepropliquer,par la suite,un modèlede transfertrégional.r-"approche poséeestinnovatriceen ce sensoù l'étapedu choix dessitesse trouveintégréeà la procédure d'estimationdu modèle.En effet, en utilisantuneapprochede régressionlocalepourle lissage dansI'espacede chacunedes variablesexplicativesX1, X2,...,Xa, les paramètresde largeur desvoisinages de déterminerautomatiquement desfenêtresâ(r1), h(rr),...,h(ra) permettent Ainsi, avecI'approchede modélisationprodansI'espacedesdifférentesvariablesexplicatives. posée,le modèlede transfertpeut êtreestiméà I'aide desdonnéesde tousles sitesdisponibles puisqueseulel'information"importante"provenantdesdifférentsvoisinagesaurauneinfluence sur I'estimationde la forrnedu modèle. Puisquel'étapedu choix dessitessetrouve intêgê,eà la procédured'estimationdu modèlede transfert,d'un point de vue opérationnel,la procédurede modélisationrégionaleest simplifiée. baséessur descritèresobjectifs, statistiques Cetteapprochepermetenfin,à I'aide de procédures du modèleadditif (parexemple,la taille desdifférentesfenêtres uneestimationdesparamètres 12 Modélisationadditivepar polynômeslocauxpour la régionalisation desquantilesde crue... de lissage)directementreliéeà I'objectif principal desprocéduresde régionalisation(i.e. I'estimationla plus précisepossibledesquantilesde crue).Ainsi, nousémettonset voulonsdonc vérifier,dansle cadrede cettethèse,I'hypothèsequecetteprocédurede régionalisationpermet desestimationsplus précisesde Qr en dessitesnonjaugés. 1..2 Objectifs de recherche estd'évaluerI'utilisationd'uneapprochede modélisation L objectifprincipaldecetterecherche non paramétrique, la modélisationadditivepar polynômeslocaux,cofirmeméthodealternative d'estimationrégionaledesdébitsde crueQr en dessitesnonjaugés.Afin d'atteindrecet objectif, deuxétapesprincipalessontidentifiées: de based'une approchede 1. présenterune descriptiondétailléedesdiversescomposantes modélisationnon paramétriqueet plus particulièrementde I'approchede modélisation il s'agit de discuterdes additivepar régressionlocalepolynomiale.Plus spécifiquement, lors du choix : élémentsà prendreen considération o desvariablesexplicativesà incluredansle modèle, o du niveaude lissageassociéà chacunede cesvariablesexplicatives, o du degrédesdifférentspolynômeslocaux,et o de la fonctionnoyauà utiliser; et 2. évaluerles qualitésprédictivesdeI'approchede modélisationproposée: o déterminerdesindicesdeperformance,et . comparerI'approcheproposéeà d'auffesapproches utiliséesprésentement. Lesobjectifsplus particuliersde cetterecherchesontles suivants: o présenterunerevuedestravauxreliésà la rnodélisation localeet régionaledesquantilesde particulièrede I'estimacrue.Cetterevuedevraitpemettredeprésenterla problématique en régionalisation, de mettre tion régionale,de faire le point sur l'état desconnaissances en évidenceles lacunesdesméthodesexistanteset ainside mettreen contextela méthode proposée; o présenterune synthèsedesprincipalestechniquesde régressionnon paramétriqueen inde la régressionlocaleet de la modélisationadditive; sistantdavantagesur les approches o proposerune méthodologiede modélisationrégionalenon paramétrique desquantilesde crue,c'est-à-direuneprocédureà employerpour (1) choisirles variablesà incluredansle modèleet (2) effectuerla calibrationdu modèlede transfert; INTRODUCTION 13 comparerI'utilisation de I'approcheproposée,à I'aide de donnéesréelles,à I'approche de la régressionrégionalepar régiond'influencede mêmequ'à l'approcheclassiquede régionalepæ un rirodèlelog-linéaire;et régression identifierles situationspour lesquellesla méthodeproposéeestpréférableauxautresmodèlesde transfertd'informationrégionale. L.3 Plan de la thèse au chapitre 2" cernousprésentotrlso Afin d'atteindreles différentsobjectifsde cetterecherche, Les principalesméthodes tainsconceptsreliésà I'approchede modélisationnon paramétrique. et I'approchedu lissagesimple(uneseulevariable lisseurs)sontprésentées delissages(appelées explicative)par régressionlocalepolynomialeestdétaillée.Par la suitenousnousintéressons, Nousdécriauchapitre 3, à la régressionnon paftlmétriquemultiple(ou multidimensionnelle). vonsI'approchedemodélisationadditiveparpolynômeslocauxet proposonsuneméthodologie par la suite,auchapitre 4, lesconcepts permettantla calibrationde ce modèle.Nousprésentons importantsde I'analysefréquentiellelocaleet deI'analyserégionaledela dismibutiondescnres. régionaleet de siûlilaritéhydrologique, Nousy traitons,entreautres,desnotionsd'homogénéité une desnotionssouventconfonduesdansla littératurehydrologique.De plus, nousprésentons Au chapitre 5, nous revuedesprincipalesméthodesd'estimationlocaleet régionaleexistantes. appliquonsI'approchede modélisationadditivepar polynômeslocauxà desdonnéesde ditréNous discutonsenfin, au chapitre 6, desrésultatsobtenuspar rentesrégionsdesÉ,tats-Unis. I'approchede modélisationadditivepar polynômeslocauxet proposonscertainesperspectives de recherchesfutures. desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation LOCALE PAR NÉCNNSSION 2. LF.,LISSAGE quelquesnotionsde basereliéesà I'estimationnon paraméDansce chapitre,nousprésentons par distinguer,dansla section2.1,I'apNouscommençons triquedescourbesde régression. prochede modélisationnon paramétriquede I'approcheparamétrique.Avec I'approchenon paramétrique, la procédureutiliséepourproduireI'estimationde la forme de la fonctionde régression/ s'appelleun lisseur alorsquel'estimationsenosrmele lissage.Le lisseurest I'outil la tendancede la variationdesvaleursde la réponse utilisé pour refléter,mathématiquement, Y en fonctiond'une ou de plusieursvariablesprédictivesXt, Xz,,...Xa. Dansce chapitre,on ne s'intéressequ'au lissagedescourbesde régression,c'est-à-direau lissageunidimensionnel avecune seulevariableexplicative(d : 1) puisquerappelons-le,I'approchede modélisation sur chacune additiveproposéedanscettethèseconsisteà effectuerun lissageunidimensionnel desvariablesexplicativesdu modèleadditif. Une grandevariétéde lisseursestdisponibledansla littératurestatistique.Une propriétécommuneaux différentesméthodesde lissageestle caractèrelocal de I'estimation,c'est à dire que dansle voisinage pourestimerla fonction/(r) en un pointt6, or n'utilise queles observations communeà cesméthodesestqu'il estpossibled'ajuster ders. De plus,uneautrecaractéristique ainsi la prisede deuxdécisionsimportantes: comleur niveaude lissage.Le lissagenécessite ments'effectueraI'estimationdansle voisinagedu point ro? Et, comments'effectueraI'ajustementdu niveaude lissage? Puisquece qui distingueprincipalementles différentslisseursest leur façond'effectuerI'estimationdansun voisinagedonné,la questiondu type d'estimation consisteà choisirla méthodeparticulièrede lissageà employer.Afin de faciliter le choix d'une dansla section2.2,les principauxlisseursdisponiblesdans de cesméthodes,nousprésentons, la littératurestatistique.Quantà la questiondeI'ajustementdu niveaudelissage,elle serareportéeà la section2.3 où nousdécrironsde manièredétailléeI'approchede modélisationretenue, 1'approche du lissagepar régressionlocale. 2.1 l/approche de modélisationnon paramétrique Considérons le modèleboîtenoire suivant: x --+I*t (2.1) de variablesprédictives,Y représente où X représente(en entrée)un vecteur(indépendant) 16 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpourla régionalisation une associationqueldu modèleet la boîtenoirereprésente la réponse(ou variabledépendante) conque(une relation de causeà effet ou simplementune relationfonctionnelle)entreles variablesprédictivesX etlaréponseY. Un desobjectifsmajeursde la statistiqueestde modéliser, à I'aided'un échantillondu couple(X,Y), cetterelationentreX etY. est que la fonction/ qui minimiseE{Y - f (X)}2 (avec Un résultatclassiqueen statistique conditionnelle deY étantdonnéX, soit E(Y') < +oo) estI'espérance /(x) - E(Ylx). (2.2) de Cettefonctionqui permetla meilleureprédiction,au sensde I'erreurquadratiquemoyenneo Y étantdonnéX senommela fonctionde régressionde Y surX. Dansle casoù loonn'a qu'uneseulevariableprédictive,un desmodèlesles plus utiliséspour résoudrece problèmeestle modèlede régressionlinéairesuivant: E(YIX):a*0X (2.3) du modèle.Le modèlelinéaire(2.3) est un exemplede modèle où a et B sontles paramètres de régressionparamétrique puisqueI'on assumequela formede la fonctionde régressionest connueà I'exceptionprèsdesvaleursdesparamètreso et B que I'on doit estimerà partir de l'échantillondu couple(X,Y). Il estfacile d'envisagerdessituationsoù le modèlelinéaireestinappropriécommepar exemple entreE(Y) et X estnonlinéaire.Il estalorspossibled'ajouteraumodèle lorsquela dépendance un terme(par exemple,X2) maisil estsouventdifficile de déterminera priori la forme fonctionUne approche nelle la plus appropriéeen ne se fiant qu'à un examenvisueldesobservations. non paramétrique,peutalorsêtreemployéepourdéterdela régrrcssion alternative,l'approche miner cetteformefonctionnelle.Cetteapprocheestdite non paramétrique puisqu'ona enlevé la restrictionselonlaquellela fonctionde régressiondevaitappartenirà unefamille de fonctions non paraméhiqueestdéfini préalablement paramétriques définie.Ainsi,le modèlederégression par: E(Ylx): 16) (2.4\ où aucunehypothèsen'estémisesurla formedela fonction/(X). Le modèledel'équation(2.41 tv LE LISSAGEPARRÉGRESSIONLOCALE peutaussiêtregénéraliséau casoù l'on considèreplus d'unevariableprédictiveet devient: E(YlXb X2,...,Xa) : T(Xr, Xz, ...,Xa) (2.s) Dansle casoù d : !, on appellecourbede régression,la fonctionde régressionJ alorsque pour d ) 2, on utilise plutôt les termessurface de régression.Les techniquesde régression dansce chapitreont pour objectif I'estimation(appeléedansce non paramétriqueprésentées contextelissage)descourbeset surfacesderégression/. pour la régresUne motivationphilosophiqueà l'utilisation d'une approchenon paramétrique sion concernela façon dont les donnéessont utiliséesdansun contextede modélisation.En hydrologie,Adamowskiet Feluch(1991)résumentainsicettephilosophie: "An important differencebetweenthe parametricand the nonparametricmethods is how the data are usedin model development.In the parametricmethod, dataareusedasa guidein modelselectionandin parameterestimationof the selected model.Thus informationthat canbe extractedfrom the datais restrictedto what canbe obtainedunderthe assumedpararnetricrnodel.Therefore,this methodis, to a certainextend,a subjectiveone,especiallyconcerningthemodelselection.On the otherhand,when little is knownaboutthe regtessionfunction,informationabout it is containedin the dataratherthanthe personperformingthe study.As a result of this, nonparametricmethodis preferable,where the data speakfor themselves concerningthe actualform of theregressioncurve." pourI'esrécentesde I'approchenon paramétrique Lall (1995),dansunerevuedesapplications estquantà lui beaucoupplusincisif enversleshydrologues timationdefonctionshydrologiques qui utilisentaveuglément I'approcheparamétrique: statisticiens "The zealotryoften associated with the advocacyof particularmodels (e.g., floods are LP3) and parameterestimationprocedures,hasservedto maskthe basic questionfacedby statisticalhydrologists,which is, theestimationof somefunction implicit in the data." structuralrelationships that summarizes Ainsi, dansun contextede régionalisationdes quantilesde crue où il n'existe aucunejustification physiqueà I'utilisation d'un modèlede régressionlinéairemultiple, I'approchenon paramétrique estune avenuequi mérited'êtreexploréeplusprofondément. 18 Modélisationadditiveparpolynômeslocauxpourla régionalisation desquantilesde crue... 2.2 Les principalesméthodesde lissage 2.2.1 Introduction au lissage Afin de se faire une idée de ce que signifie "laisserles donnéesnous montrerla forme de la La figure2.1 montreun exemplede grafonctionde régression", examinonsquelquesdonnées. phiquesde Y en fonction de X où en 2.Ia, on a ajustéune droite de régressionalorsqu'en 2.1b,on a effectuéun lissagepar régressionlinéairelocale.Les donnéesutiliséesproviennent d'une étudesur le diabèteréaliséepar Sockettet al. (1987)et ont déjà été étudiéesde ma(voir par parplusieursauteursdansun contextederégressionnoû paramétrique nièreexhaustive exempleHastieet Tibshirani(1990),Loader(1999)).L étudeinitiale avaitpour objectifl'étude de facteurstels que l'âge et le déficit de base(unemesured'acidité) pouvantinfluencerle niveaud'un sérum,le C-peptide.À la figure2.L, on présentela relationentrele logarithmede la concentration de C-peptide(pmoUml)et un desfacteursexplicatifs,l'âge. o o o o B À o + g o o o o o ooo o o o o o oo/ o o o o o o o o o o o o o o o 5 1 0 1 5 5 r 0 1 a9e a) b) Ftc. 2.1: Comparaison entrea) unerégressionlinéaireet b) un lissage 5 LE LISSAGEPAR RÉGRESSIONLOCALE 19 ne s'ajustepasaux Il sembleclair, en examinantla figure2.1a, que la droitede régression Cependant,le lissagede la figure 2.lb permetd'améliorerI'apparencevisuelle observations. de la relation et ainsi d'observerune certainetendance.Pour effectuercette estimation,on a effectuéun lissagepar droite mobile localementpondéréeselonles étapessuivantes: aux valeursde X les plus voisines 1. au point Xs, on détermineles 11pointscorrespondant de Xo 2. on assigneà chaqueobservationun poids qui dépendde la distance(X - X0) - plus la distanceestfaible,plus le poidsestgrand et par la rnéthodedesmoindrescares pondérés, 3. on estimeà I'aide de ces11observations une droite de régressionpour obtenirÛs,I'estimationde la droitede régressionde Y sur X aupointXs. 4. on répète1,2et 3 pour touslespointsen X deuxobjectifsprincipaux,le premierest d'ordre descriptif,le Le lissagepoursuitgénéralement secondprédictif. Ainsi, le lissagepeut être utilisé pour améliorerI'adéquationd'une relation sur le graphiqlredu lissage,appôlé enfreY et X et permettreainsi I'observationde tendances aussitout simplementle lissage.Le secondobjectifconsisteen I'utilisationde f pour la prédicprédictiveX. Pourla tion Yi de E(YIX) étantdonnéunevaleurparticulièreXa dela variabLe desquantilesdecrue,le lissagedesrelationsentr quantilesde crueset variables régionalisation physiographiques/climatologiques devrait dans un premier tempspermettre,en examinantles I'hypothèsede linéaritéinhédifférentslissages,de détecterles régionsà I'intérieurdesquelles On devraitalors s'attendreà ce renteau modèlede régressionlog-linéairesembleinadéquate. soit préférableet permettede qu'en cesrégions,une approchede régressionnon paramétrique produire,dansun deuxièmetemps,de meilleuresprédictionsdesquantilesde crue en dessites nonjaugés. 2.2.2 Définitiondu lissage en ordre de la variableprédictiveX classées Soitx : (rt, ...,rn) un vecteurde n observations alorsle lissagedesobcroissantet y - (At,...,yn) le vecteurdesréponsesconespondantes, (rt,yt),(rr,yz),...,(ro,y,,) consiste à estimerE(YIX : oo),la moyennede Y au servations s(cs), le lissagede x et y évaluéau point os. point r - ss. On note,S(gl"o),ou simplernent Habituellement,la procédure,appeléeIe lisseur, qui définit s(rs) est définie pour tout point 16. Cependant,il arrivequelquefoisque la fonction s ne soit définieque pour les valeursdes d'interd'effecfueruneprocédure ï1, r.2,...trn. Danscecas,il estalorsnécessaire observations polationafin d'obtenirdesestimations en d'autresvaleursde r. 20 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... 2.2.3 Le régressogramme està I'estimationd'une fonctionde régressionce que I'histogrammeestà Le régressogramme l'estimationd'unefonctionde densité.Il consisteà définirdespointsde coupuresurI'axedesr et à effectuerla moyennedes3rà I'intérieurdela partitionainsiobtenue.Plusformellement,on <...( c6oùe: -oo etcTç- *oo,puisondéfinitlesindices choisitlespointsdecoupurec0 R*: {i;"u < fr;<-cpa1}; k: 0 r . . .K : - l, (2.6) qui définissentla partition. On a alors : si xs € lck,cr+rl. s(rs) : ?rloUrcat"(yr) (2.7) 2.2,4 Le lissagepar moyennesomédianeset droites mobiles on peut alors Si I'on veut produireune estimationau point ri où on a plusieursobservations, prendrela moyennedesvaleursde y en cespointspour estimers(r;). Si on a une seuleobservationau point ï4, ofi peutalorsprendreplutôt la moyennedesvaleursde y aux pointsvoisins de xa.Le choix despointsvoisinsde c; peuts'effectuerenprenantles r pointsà la gaucheainsi que les r points à la droite les plus près de 16. Cetteméthodes'appellela méthodedesplus prochesvoisinssymétriqueset on noteles indicesde cespointspar Ns(r;). Dansle casoù il estimpossiblede prendrer points à droite ou à gauche,on en prendalorsautantquepossible (aveccetteméthodeparticulière).Une définitionformelledesindicesdu voisinagesymétrique est N " (" 0 ) - {ma x(i ,- r, 1) ,...,i - ' J,,i,i + L,...,mi' n(*i r ,n) } . (2.8) On peutalorsdéfinirla moyennemobile par s(ra) : rno! iç1çs (rù(A). (2.e) Et de manièreéquivalente,lamédianemobile par s1rù(A). s(rr) - med,içN (2.10) Une approchealternativeà la méthodedesplusprochesvoisinssymétriquesconsisteà définirle voisinageà I'aide desÀ pointsles plus prèsde o;, pouimportele fait qu'ils setrouventà droite ou à gauche.Cetteméthodes'appellela méthodedesk plus prochesvoisins. LE LISSAGEPARRÉGRESSIONLOCALE 2l Pour I'estimation en un point 16 où on n'a aucuneobservation,il est possible d'utiliser la méthode des /c plus prochesvoisins.On déterminealors les valeursfii. at ï;1.1les plus voisinesde cs telles euê s; ( rs ( c'est-à-dire, ri41 at on effectueune interpolationlinéaire entre s(r;) et s(r6a1), s(rg):m'("n)+#*,'(r,*')pouru;1rg1xi11.(2.ll) Une généralisationsimplede la méthodede la moyennemobile est la méthodede la droite mobileoù I'on ajusteunedroitede régression,à l'aide de la méthodedesmoindrescarrés,dans le voisinagedu point d'estimation.On définit ainsila droite mobile par s(rs):ô(ro)*B@ùrs (2.12) estimésà I'aide desobservations dela droitederégression où ô(c6) et B@ù sontlesparamètres du voisinageNs(rs). danscette section,le nombred'observationsdansle Pour chacunedes méthodesprésentées voisinagedu point d'estimation(la grandeurdu voisinage)contrôleI'apparencede la courbe obtenuepar I'une ou I'auffede cesméthodes.Plusle voisinageseragrand(petit),plusla courbe obtenueseralisse (irrégulière).La grandeurdu voisinageconstitueainsi le paramètre,appelé ajusteren fonctiondu paramètrede lissage,de la modélisationque l'on devraéventuellement niveaude lissagedésiré.Il est souventplus pratiquede penseren terme de grandeurrelative du voisinage(GRV) (span),c'est-à-direen terrnede proportiondesobservationsutiliséespour l'estimation.Ainsi, pourla méthodedesk plusprochesvoisinsGFiY=k/n. 2.2.5 Le lissagepar noyau par produite,aupoint s0, par la méthodede lisslge parnoyaupeutêtrereprésentée I-3estimation dansle voisinagede rs. Pour l'estimationen un point unemoyennepondéréedesobservations 16,le poidsaccordéà I'observationen u3 estdéfinipar : ,Soj : i,(ry) (2.13) déoù d(t) est unefonction,appeléefonction noyau (lcernel),symétriqueet qui généralement croît en fonctionde lf l. Le paramètre) contrôlel'étenduedu voisinage,aussiappeléela largeur de la fenêtrede lissage,et cs est une constantepermettantde rendreunitaire la sommedes pondérations. Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... la moyennede n valeursde g pondéréepar la foncPuisqueI'estimationau point r0 représente tiondepoidsS, on a : ')f g ) s ( r s:=k\4m7" (2.14) puisenremplaçantSorpar (2.I3) on obtient: d(s#) vi s,( r\o ) :Di=' tt@ (2.1s) Pour le lissagepar noyau,deux paramètressont susceptiblesd'affecter le niveaude lissage obtenu: le paramètreÀ qui contrôlel'étenduedu voisinageet la fonctionnoyaud(t). On présente,au tableau2.1, les principalesfonctionsnoyauutiliséespour le lissagedesfonctionsde régression.Les étudesréaliséesjusqu'à présentsuggèrentque le choix du type de noyau est relativementpeu impotranten comparaisondu choix de la largeurde la fenêtreÀ (Hastieet Tibshirani,1990).On peutaussiremarquerquele paramètre) possèdeici la mêmefonctionqueles paramètres k ou r desméthodesdesplusprochesvoisinset sertà déterminerle voisinage.Alors qu'avecla méthodedu noyau,on déterminele voisinageen fonctiond'une métrique(distance), on le fait plutôt selonunedistancede rangpourles plusprochesvoisins. Tns. 2.1: Les principalesfonctionsnoyau (tiré de Loader (1999)) Rectangulaire Triangulaire E p a n e ch n i k ov Doublemenrquadratique Triplementcubique pondéré Triplement Normal d(t) :1 d(t)-1-ltl d( t) - L- t2 d(t) - (1 - t')t d(t) : (1 - ltlu)t d(t) d ( t )- - ((1t --t )t')" ' d(t) : erp(-(2.ït)" dft) erp(-(2.5t)2 /2 lrl < 1 ltl <1 ltl <1 ltl < 1 |tl < 1 ltl < 1 t l< 1 2.2.6 Le lissagepar splines Unespline estune longuelamellede bois utiliséedansle domainede la construction.Anciennement,lesarchitectes navalsutilisaientlessplinespourla conceptionet le dessindescoquesde navires.La formede la coqueétaitobtenueen attachantdespeséesde plomben certainspoints le nombredepesées et en faisantvarierleur position,il était le long de la spline.En augmentant à I'avance.(IVegmanet Wright, 1983) possiblede fairepasserla splineendespointsdéterminés 23 LOCALE LE LISSAGEPARRÉGRESSION Par analogie,une spline mathématique,notéero(") estune fonction polynomialepar morla positiondesdifférentspoints,appelésnoeuds, ceauxoù A : {(r, e2,...,(r} représente qui séparentchacunde ces morceaux.En fonction desdiversescontraintesque I'on impose aux splines,elles peuvent,en analysenumérique,permettrel'interpolationentredeuxnoeuds quelconques ou en statistique,permettrele lissagede fonctionsde régression.Deux approches retenuI'attention desstatisticienssoit de lissageà I'aide dessplinesont plus particulièrement l'approchedessplinescubiquesde lissageet l'approchedessplinesde régression.Aprèsavoir cesdeux montrécomments'effectuele calculdessplinescubiquesd'interpolation,on présenæ de lissage. approches 2.2.6.1 Les splinescubiquesd'interpolation Le problème de I'interpolation consiste à ajuster une courbe passant par les points que les noeudssoientpositionnésaux valeursobservées {(UAù,,i : !,2,...,n}. Supposons queA : {(r : frrtez: rzr...oC* - ro| et qu'enchacundes enr {r1, fi2,...,r,r},c'est-à-dire cubiquede la formesuivante: intervalles [G,Ç+t],i: L,2,...,n - 1,on ait un polynôme ar: ar(r - cr)3* bi(æ- ,u)' + q(n - rù * da (2.16) On appellealorsspline cubique d'interpolation, notéesa{r), la fonction (dontles deuxpres'6 (r) et ri (r) sont continues)forméede polynômes mièresdérivéesnotéesrespectivement - 1-qui interpole{(*r,An),i: grien chacundesintervalles cubiques [Ç,G+r],i :1,2,...,fl lr2r"'rn\' Le calcul de la fonction spline consiste à estimer les différents paramètres ai,bi,q et d; pour r , t + t - 1 6 a t M ; * s ' L @ ' i p) o u r i : 1 r 2 , . . . , n . 8 n p r e n a n t l e s . o s o n sh t : i = 1,2r...,flP premièresdérivéesde 96et en évaluant aux noeuds,on peut montrer que a,; :: (Mu+t-Mà)l6hi b,i : Mp n. At+t v'ù - At h; d,; : 2(h;Mt * h,iM*t) 6 Q.l7) Ut Le problèmeconsistealors à trouver les valeurs desM;. En utilisant le fait que la première dérivéedela splineestcontinueet lesrésultatsde (2.17),on peutobtenirles équationssuivantes M6: qui reliententreeux,pouri :2,3,...,n - 1, lesdifférents : u (W# h*tM*t + z(hà-r+ hùMr * hiM6,y1 æ) (2.r8) 24 desquantilesde crue... Modélisationadditivepar polynômeslocauxpour la régionalisation Enfin, en posantMr : Mn - 0, on obtientun systèmed'équationslinéairestridiagonalqui serésoutfacilernenten O(n) opérationspar éliminationde Gauss.On nommespline cubique naturelle,cettesplineayantcommeconditionqueM1: Mn: 0. 2.2.6.2 Les splinescubiquesde lissage Les splinesd'interpolationsontutiliséesprincipalementen analysenumériqueet ont génêralementpeu d'intérêt en statistique.Cependant,dansun contexted'estimationstatistiquepar lissage,on a développédesméthodesde lissagebaséessur les splines.On a cherchéà obtenir dessplinesqui pouvaientpasserprèsdesobservationssanstoutefoisavoir commecontrainte leur interpolation.La méthodedessplinescubiquesdelissagesatisfaitcettecondition. précédemment où le lissageau point rs Conffairementaux méthodesde lissageprésentées consistaità appliqueruneprocéduredéfiniede manièreexplicite,le lissagepar splinescubiques estplutôt le résultatd'un problèmed'optimisation.Ainsi, parmi toutesles fonctionss(r) ayant leurdeuxpremièresdérivéescontinues,le lissagepar splinescubiques,aussiappeléeI'approche de pénalitéde la rugosité(Greenet Silverman,1994),consisteà calculercellequi minimisela sommepénaliséesuivantedu carrédesrésidus: , s - f { o n- s ( n ù } 2 f*u^{s" (t)}2dt d=l (2.te) " tt où À estuneconstante et a ( 11 ( ... 1 xn {qb. Le termede gauchede l'équation(2.19)constitueune mesurede la proximitédesobservations avecla courbes alors que le termede droite pénalisela rugositéde la fonction s. Avec cette méthodede lissage,le paramètre) permetd'ajusterle niveaude lissagedésiré.De grandes valeursde À produisentdescourbesplus lissesalorsque de plus petitesvaleursproduisentdes À ta timite,lorsqueÀ -+ oo,le termede pénalitédomine courbesplusondulées,plusrugueuses. ce qui oblige s" (*) : 0 partoutet ainsi,la solutionde (2.19)est la droite de régressionqui minimiseles moindrescarrés.D'un autrecôté, lorsqueÀ -+ 0, le termede pénalitédevient négligeableet ainsi,la solutiontend versla fonction doublementdérivablequi interpoleles n soit la splinecubiqued'interpolation. observations, importanteayantfavoriséI'utilisation de cetteapprocheest I'unicité de la Une caractéristique splinecubique.En effet,parmitoutesles fonctionss(r) doublementdérivablesayantleur deux premièresdérivéescontinues,cellequi minimise(2.19)estuniqueet deformeexplicite' il s:agit d'unesplinecubiquenaturelledontlesnoeudssontplacésauxpointstrtï2,...,rn. Ce résultat, LE LISSAGEPARRÉGRESSIONLOCALE 25 combinéà I'utilisationde I'algorithmede Reinsch(1967)permetI'estimationde s en O(n) (voir par exemplela section2.3 de Greenet Silverman(1994)ou 2.10de Hastieet opérations Tibshirani(1990)). 2.2.6.3 Les splinesde régression L approchedes splinesde régressionconsisteà faire I'hypothèseque la forme de la courbe de régressionest une spline, c'est-à-direune fonction polynomialepar morceauxsa(r) où despolynômes la positiondesdifférentsnoeuds.Lesmorceaux, A : {(r, Ç2,...,(6} représente attachésde manièreà ce qu'il y ait continuitédesm - L prede degré7æ,sontgénéralement constitueun exempled'une splinede régression(nz : 0). mièresdérivées.Le régressogramme précédemment, le résultatobtenuici ne mipar splinesprésentées auxapproches Contrairement la courburede la fonctionde régression,n'interpolepas les observations nimise aucunement D'ailleurs,en avecles observations. et la positiondesnoeudsne coincidepasnécessairement pratique,on auragénéralement beaucoupmoinsde noeudsqued'observations. Au sensstrict, l'approchedes splinesde régressionest une approcheparaméniquepuisquela forme fonctionnellede la fonction de régressionest connueà I'exceptionprèsdesvaleursde contrairement à la régressionpolynomialeoù I'ajustementdespaCependant, sesparamètres. ramèûesesteffectuéeglobalement,on conserveavecla méthodedessplinesde régressionune soit le caractèrelocal de I'estimation.En effet, de I'approchenon paramétrique caractéristique du modèle)tels de la modélisation(versusles paramètres en faisantvariercertainsparamètres le degrém delaspline,le nombredenoeudsK etlapositiondesdifférentsnoeudsÇ, on réussit à effectuerun certainlissagedesobservationsmêmesi aucunparamètreparticulier ne contrôle directementle niveaude lissage. possibleOesf,)(rs), la splinede degrém Soit A : {(1, C2,...,(6}, alorsune représentation ayantK noeudsauxpositionsdonnéespar A et évaluéeau point ro est: ,f)(ro) : Ë Êoido+ÉË o*i@s-(o)'* j=0 (2.20) k=l j=0 ou , \ l U ) - r -: ( " siu)0 [ 0 autrement ( (2.2r) puisqu'ellepermetd'exprimerle problèmede I'estimation estintéressante Cettereprésentation multipleordinairepouvantêtrerésoluparla méthode d'unesplineenun problèmederégression 26 traditionnelspermettentde testerI'hypodesmoindrescarrés.De plus,les testsparamétriques de diminuerle degréde certainspolynômesréduisantainsile thèseB6i : 0 afin éventuellement du modèle. nombretotal de paramètres en raisonde la facilité de sonestimation La méthodedessplinesde régressionest intéressante lorsqueles noeudssontdonnés.Cependant,une difÊcultémajeurede I'utilisation de cetteméthodeconcernele choix du nombrede noeudset de leurspositions(Hastieet Tibshirani,1990), qui doiventd'abordêtrefixéespour estimerlesparamètresde la régression. descaractéristiques De plus, cetteméthodene pennetpasde faire varierglobalementle niveaude lissageà I'aide d'un paramètreuniquede lissage. 2.2.7 Le lissagepar polynômesmobiles localementpondérés Dansla littératurestatistique,on retrouvela méthodedu lissagepar polynômesmobileslocalementpondéréssousdiversesappellations: lissagepar ajustementlocal (Clevelandet Loalocale der,L994),par polynômeslocauxde type noyau(Wandet Jones,1990),par rrégression polynomiale(Opsomer,1995),par régressionlocalementpondérée(Cleveland,7979)ou tout simplementpar régressionlocale(Loader,1999).Par soucide clarté,on privilégiera,dansce document,l'emploide la terminologierégressionlocale. quant Avecla méthodedu lissageparrégressionlocale,on nefait globalementaucunehypothèse à la forme de la fonctions. Toutefois,dansle voisinaged'un point d'estimationr, on suppose soitun polynômede degrép. En un ques puisseêtreapproximéeparunefonctionparamétrique, par(n-h(r),n+h(r)). parh(r) etlafenêtredelissage pointc,ondéfinitlalargeurdelafenêne à I'intérieurde cettefenêtre.De PourI'estimationde s(r), on n'utilise alorsquelesobservations décroîtà mesureque un poidsqui, généralement, plus,on assigneà chacunede cesobservations I'on s'éloignedu point d'estimation.De manièreformelle,on assignelespoidsselonla formule suivante: wt(r):*(ffi) (2.22) oùW(u) est une fonctionnoyausymétriquede support[-1, 1Jqui satisfaitles conditionssui0 et W décroîtsurI'intervalle[0,1] (etcroîtsur vantesde Loader(1999):W(0) :l,W(L): [-1,0]). LE LISSAGEPARRÉGRESSIONLOCALE 27 Uneméthodeparticulièred'estimationpar régressionlocaleconsisteà estimerun polynômede degrép = L (unedroite) à I'aide d'une fonctionnoyautriplementcubiqueen choisissanth(r) (les k plusprochesvoisins)pourI'estimationau demanièreà obtenirexactement & observations pointr. Cetteméthode,proposéepar Cleveland(1979)estconnueen statistiquesousle nomde par successivement Iowessou loessen raisondu nom desprocédures d'estimationdéveloppées Clevelandpour le langagede programmation S (Beckeret al., 1988). Unedesparticularitésintéressantes de I'approchede la régressionlocaleestla facilité de traitegénéralernent associée auproblèmedela régiomentde I'hétéroscédasticité, unecaractéristique nalisationdesquantilesde crue.Dansle casd'un modèlede régressionrégionaleavechétérosdu rnodèleen cédasticité, une approcheutiliséeen statistiqueconsisteà estimerles pararnètres utilisantla méthodedesmoindrescarréspondérés(voirparexempleStedingeretTasker(1985)). Avecla régressionlocale,puisquela fonction*{r) estdéjàunefonctionde pondération,I'approcheemployéeconsistetout simplementà modifiercettefonctiont4(r) en la multipliantpar :wetrJ/4.CeconceptdereponI'inversedelavarianceo?,c'est-à-direenredéfinissant'uj(r) dérationestaussiemployépour perrnetfed'obtenir desestimationsplus robustesde la courbe de régression.Par exemple,Cleveland(ï979) proposed'effectuerd'abord une premièreestimation de la courbede régressionpuis de repondérerde manièreà diminuer le poids accordé auxobservations ayantobtenueslesplusgrandeserreurs(ou déviations).Cetteapprochepermet pouvantêtre considérées d'accorderautomatiquement un poids presquenul aux observations commedesoutliersproduisantpar le fait mêmedesestimationsplusrobustes. 2.2.8 Les principaux lisseursde surfaces précédemment peuventse généraliserau casmultidimenLa plupartdesméthodesprésentées de déterminerle voisinageen sionnel(plusieursvariablesexplicatives).Il suffit généralement utilisantune distancemesuréedansun espacede dimensionp. Parexemple,I'approchedu lispour I'estimationpar lissage sagepar une droite mobile de la section2.2.4peut segénéraliser, aupoint xo : ("1, 18,...,r!), en ajustantplutôtunedroitede dimensionp au point x0 à I'aide desk plusprochesvoisinsselonunedistanceeuclidienneséparantdeuxpointsparticuliersxi et xj définiepar : d,ii: (xi - *i)t(*o - xr). (2.23) qu'il s'agit ici de I'approchede où ? est I'opérateurde transpositionde matrice.Remarquons régressionpar région d'influenceproposéepar Taskeret al. (1996) à la seuledifférenceque 28 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation Tâskeret al. (1996)ont plutôt utilisé unedistancede "Mahalanobis" dil: (xi - xi;rD-t1*r - xr) (2.24) où E est la matricede variance-covariance des variablesexplicativessupposéediagonalepar Taskeretal. (1996). Les splinescubiquesde lissageainsi que les splinesde régressionse généralisentaussiau cas : approchedes"splinespar multidimensionnel. senommentalorsrespectivement Cesapproches plaquesminces" (thin-platesplines)et approchedes "splinesde produits tensoriels"(tensor productsplines).Pourunedescriptiondétailléede cesméthodes,le lecteurestréféréà Greenet Silverman(1994). 2.2.9 Comparaison et choix d'une approche de lissage présentés danscettesectionpoursuiventtousun objecLes différentslisseursunidimensionnels possibleunereprésentation approchée, tif communqui estd'obtenirle plusprécisément à I'aide unerelationexistant(ou desdonnéesd'un échantillon,de la fonctioninconnue/ qui représente dont on supposeI'existence)entreunevariabledépendanteYet une variableexplicativeX. En d'étudesthéoriquesportantsurle comportestatistique,on dénombreunequantitéconsidérable (consistance, desdifférentslisseurs mentasymptotique biais,variance,vitessede convergence) (voir parexemplela section2.L0de Hastieet Tibshirani(1990). Les résultatsde cesétudessont constamment utiliséspourla comparaison desdifférentslisseursentreeux et pourle choixd'une méthodeparticulièrede lissage,Par exemple,Mûller (1987)a démontrél'équivalenceasymptotiquede la méthodedu noyauavecla méthodede la droitemobile localementpondéréealors que Silverman(1984)a réussià exprimersousla formed'un noyau,appelénoyau équivalent, équiune splinecubiquede lissagede manièreà ce quecesméthodessoientasymptotiquement valentes.À la lumièrede cesrésultats,Hastieet Tibshirani(1990)indiquentd'ailleurs: "Somerecenttheoricalresults(e.g. Silverman(1984),Mûller (1987))suggest that for appropriatelychosensmoothingparameters,thereare not likely to be large andkercubicsmoothing-splines differencesbetweenlocally-weightedrunning-line, nel smoothers." dispoEn pratiquecependant, notammenten raisonde la taille deséchantillonsgénéralement de nepas et il est alorssouhaitable nibles,il existedesdifférencesnotablesentrecesapproches LE LISSAGEPARRÉGRESSIONLOCALE 29 puisquecommeI'indiquentCleveland trop accorderd'importanceà cesrésultatsasymptotiques etLoader(1994): "Asymptotictheoryfor srnoothinghasin mostcasesnot beenhelpful asa guide for choosingamongdifferentprocedures,sincethe frameworkthat governsmost asymptoticwork is not very realistic.Methodshavebeenput forwardwith a label of "optimal" thatprovideoptimalityin no sensethat is meaningfulfor practice." Il est possibled'interpréterla plupartdes lisseursprésentésdanscette sectioncommeétant Alors despolynômesmobilespondéréspar unefonction quelconquedesdonnéesavoisinantes. que I'approchede la régressionlocaleest généraleet pennetunemodélisationpour différents Ie degrépestfixé dernanièreexplicite degréspdespolynômeslocaux,aveclesautresapproches, de la moyennemobile et du noyaupeuvents'exprimer ou implicitement.Ainsi, les approches La droite mobile constitueun à I'aide de moyennesmobiles(p : 0) localementpondérées. casparticulierde régressionlocalelorsquep : I. Avec les différentesapprochespar splines cubiques,il s'agit implicitementd'ajusterun polynômede degrép : 3. I'objectif principal de la modélisationconsisteà ajusterun En régressionnon paramétrique, modèlede manièreà ce que I'on obtienneun compromisadéquatentrele biais d'estimation B=E{i} - I et la variancede I'estimateurV=var{,f} (cf. 2.3.5).L ordredu polynômelocal De manièregénérale,un constitueun desfacteursqui influencentce compromisbiais/variance. dégrép élevéproduitdesestimationsmoinsbiaiséesmaisplusvariablesqu'un degrêppetit.La questionqu'on est alorsamenéà seposerest : peut-ona priori déterminerle degréoptimalp du polynômelocal à utiliser? en r dansla pentede /, Le niveaude courburede /, mesurépar I'intensitédeschangements constituele premierfacteurà prendreen considérationpour le choix du degrép du polynôme local. Plus la fonction / est composéede pointeset de vallées,plus le degrép doit êtreélevé pourenpermettreuneestimationqui nesoitpastrop biaisée.En pratique,lorsquela courbe/ est d'obtenirde bonsrésultats.Les assezlisse,un polynômede degrép : l permetgénéralement méthodesbaséessur la notionde moyennemobilepondéréep:0, tellesla méthodedu noyau, ne s'avèrentquant à elles que très rarementêtre le meilleurchoix en pratique(Clevelandet puisquele voisinageestasymétrique auxbornesdu domaine Loader,L996a).Aveccesméthodes, de la variableprédictive,I'estimationest alors fortementbiaisée(avecun biais fonctionde la pentede /). Il peut aussiy avoir un problèmede biais à I'intérieurdu domainesi la dispersion possèdeunecourbureprononcée desdonnéesn'est pasuniformeou si la fonctionde régression (Hastieet Loader, 1993). 30 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation En régressionrégionaledesquantilesde crue,puisqueles variablesprédictivessontgénéralepar unefonctionlogarithmique,on devraits'attendreà ce queleur courbure menttransformées ne soit pastrop prononcée. Parconffe,il sembledifficile a priori de déterminersi, pourchacune desvariablesprédictivescomposantle modèle,un degrép : L suffit ou si l'on doit plutôt opter ponr un degtésupérieur.Ainsi, nouscroyonsqu'il estpréférabled'opter pour uneapprochede p n'estpasfixé apriori et deplutôtdéterminer modélisationparrégression localeoù le paramètre les différentesvaleursdep à I'aide de testsdiagnostiques. La régressionlocaleestunevieille méthodede lissagequi a d'abord été développéeversla fin du 19ièmesièclepardesactuairespour la graduationde donnéesde mortalité(voir Clevelandet de nombreux Loader(1996a)pour unerevuehistoriquedétaillée).La régressionlocalepossè.de pointsforts dont certainssontdiscutésen détailpar Hastieet Loader(1993): l. La méthodes'adaptebien aux problèmesde biais aux borneset dans des régionsde grandecourbure; 2. Elle estfacileà comprendreet à interpréter; 3. Desméthodesproduisantdescalculsrapidesont étédéveloppéspour sonestimation; 4. En raisonde sasimplicité,elle peut s'adapterpourprendreen considérationdiverseshypothèsesdedistribution(avechétéroscédasticité, par exemple); 5. Elle nerequièrepasla présenced'hypothèses strictessurle niveaude lissagedela courbe; 6. Elle appartientà la famille deslisseurslinéaires;et 7. Le fait d'avoir un modèlelocal (plutôtqu'uneseuleestimationponctuelleÎ@D, permet de développerdesméthodespour choisir directementla largeurde la fenêtrede mêmeque I'ordredu polynômelocal à I'aide desréponses(prédictions)obtenuespar le modèle. SelonClevelandet Loader(1996a),aucunde cespointsforts ne procure,à lui seul,uneraison évidentepour choisir cetteapprocheplutôt qu'uneautre; il s'agit plutôt de la combinaisonde ceux-ciqui rendI'approchederégressionlocaleattrayante. 2.3 La modéIisationpar régressionlocale 2.3.1 Le modèle de régressionlocale La régressionlocaleestutiliséepour modéliserunerelationenffeune variableprédictive(ou indépendante)X et la variable de réponseY (ou variable dépendante)qui est reliée à LE LISSAGEPAR RÉGRESSIONLOCALE 31 cette variable prédictive. Supposons qu'on ait un ensemble de n paires d'observations localeest : {(rn,Uo),i: 1,2,...,n}, alorsle modèlede régression yu: f (16)*e,i (2.2s) où /(r) est une fonctioninconnueêt €; est un termed'erreuraléatoire.On supposeaussique de moyenneO; E(e;) : 0, et de les erreursé; soûtindépendantes et identiquementdistribué,es variancefinie ; nk) : 02.De plus,bienqu'on ne fasseglobalementaucunehypothèsequantà la formede la fonction/, on supposenéanmoinsque,dansle voisinaged'un point d'estimation r, / puisseêtreapproximéepar un polynômede degrép. 2.3.2 L'estimation de la courbe de régression Commeon I'a déjàmentionnéà la section2.2,|'estimation/(r) de la courbede régression en un point r consisteà ajuster,à I'intérieurde la fenêtrede lissage(r - â(r), u * â(r)), un 16de la polynômede degrép en accordantune pondérationw6{r) à chacunedesobservations fenêtrede lissage.Ainsi, soit P(u) le polynômede degrép ayantla forrnesuivante: P(u)Êo+r.t(u-s)+ kry+...+ ory (2.26) : (Ê0,...,Ê)' peutêtreobtenu lorsquelu*rl < h(").Alors, levecteurdeparamètt"sp en appliquantlocalementla méthodedesmoindrescarréspondérés,ce qui consisteà obtenirle vecteurde paramètresp qui minimise ta L*o(r) i=l ( o'^ -\ o('t-")'l' - Êo- Ê{q P t t ' ' t '-6 -r) 'r')-"'-* 7yo Pl I \ (2.27) wt(r):*(ffi) En faisantI'hypothèseque la matriceXl'WrX, est inversible(dansle cas contraire,on peut faire en sortequ'elle le devienneen modifiant à.),on peut montrerque la solutionde (2.27) donnéepar la théorieclassiquedesmoindrescarréspondérésest(Wandet Jones,1990): ô: (x|w,x,)-ixT\i!/,Y où: Y _ (yr,...,grr)" estle vecteurdesréponses, (2.28) Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... x1-r I x": 1 L ù æ n - &r @çx)n --T- I It estla matricede conceptionde dimensionn x (p + 1) et : I (æv-x)e I --7!-J de dimensionrùx n,despondérations. W" : diag{tu1(r),...,wn(r)} estla matricediagonale par leursestimateurs, En posantu, : r dansl'équation(2.26)et en substituantles paramètres on obtient: f @): 0o (2.2e) î@): "TÊ: eflxfw,x')-1xl\M"Y (2.30) ou en notation matricielle (p + 1) x L tel quee1 : (1,0,0,...,0)r. où e1estun vecteurde dimension 2.3.3 La modélisation des données De manièregénérale,lorsquooneffectueune régressionlinéaire(simpleou multiple),on porte du modèle.On supposequele modèleestimé principalement notreattentionsur les paramènes est appropriépuis on se demandecommentles estimateursdes paramètresajustentbien les puis on construitdes vraisparamèfres. On calcule,par exemple,la variancede cesestimateurs On nes'intéresseà peuprèspasà la fonction(droite) intervallesdeconfiancesurcesparamètres. localeou, demanière coûlmetelle.Avecl'approchedemodélisationparrégression derégression plus générale,avec une approchenon paramétrique,il en est tout autrement.Au lieu de se du modèle,on s'intéresseà la courbede régression/ estimê'e.La concentrersur lesparamètres que I'on doit alorsseposerest : quel estle niveaude précisionapporté questionfondamentale pat Î@) pour I'estimationde la vraie courbef @)? Ainsi, dansla plupart des applications, I'objectif principalde la modélisationlocaleconsisteà obteniruneestimationde / qui permette de produiredesestimationsqui soientlesplusprécisespossibles. LE LISSAGEPARRÉGRESSIONLOCALE JJ Avec en main une mesurequelconquede ce que désignela précision,un objectif de la modélisationconsistealorsà maximisercetteprécision.Soit eu: i @o)- f @ù I'erreurponctuelle utiliséescommemesuredeprécisionde d'estimationaupoint fi;, unedesmesuresgénéralement aussiappeléeI'erreur quadraI'estimationau point 11estI'espérance de I'erreurquadratique, tique moyenne(EQM) : EQM(rr): E{i@ù-r@ù}' : [r{i("n)}-f(nù12+var{i(r1)} (2.3r) Remarquonsque le termede gauchereprésentele carrédu biais alors que celui de droitereprésentela variancede I'estimatewi@). Une autrequantitéqui ne diffère de I'EQM quepar une constante,la variancede I'erreur 02, estI'espérancede l'erreur quadratiquede prédiction appeléetout simplementI'erreur quadratique de prédiction (EQP).L'EQP mesureI'efficaPourlesmodèles cité desmodèlesà effectuerdesprédictionsà partir de nouvellesobservations. I'espérancedu carréde la différenceentreune réponsefuture de régression,I'EQP représente Y* et sa prédictionà partir du modèlei1r;. fuisque par hypothèseYf : f @ù + ef avecei de ê6,on obtientalorsque : indépendant EQP(r;)_ E{Yr.-i@u)}' : E{Y.- r@ù+ l@ù- î@o)}, :_ E{ei - ê6}2 _ o2 + EQM(r;) (2.32) coûlmuneauxdifférentslisseursestqu'il estpossibled'ajusterle niveaude Une caractéristique lissagedésiré.Avecl'approchedessplinesde lissage,on utilisele paramètreÀ pour déterminer on peutfairevarierle nombreK de noeuds, ce niveaude lissage.Pourles splinesde régression, leur position A ainsi que le degrérn desdifférentessplines.Avec I'approchede la régression locale, le lissageest influencépar la taille du voisinage(en valeur absolueâ ou en nombre I,7 utiliséeainsiquepar le degrép des k), parla fonctionnoyauou depondération d'observations polynômeslocaux.Cesparamètres contrôlentce qunonappelleen régressionnon paramétrique le compromis entre le biais et la variancepuisqu'enfaisantvarierchacunde cesparamètres, soit une diminutionde la variancede I'estimateuti@) combinéeà on observegénéralement unediminutiondu biais combinéeà une du biaisde celui-ciou inversement, une augmentation consistealors dela variance.Un desobjectifsdela modélisationnonparamétrique augmentation entrele biaiset la variancede I'estimateur. à trouverun compromisacceptable desquantilesde crue... Modélisationadditiveparpolynômeslocauxpourla régionalisation En pratique,deux approchessont principalementutiliséesafin de déterminerce compromis biais/variance: 1. I'examenvisueldesdifférentslissagesproduitspar régressionlocalepour différentesvaleursde h, p etW afrnde retenir le lissagequi semblele plus approprié,c'est-à-direni plusendétail,à la section2.3.5,comment ffop biaisé,ni trop variable.Nousexaminerons l'estimationae f(r). de lissage(h,W et p) influencent lesdifférentsparamètres (Stone,1974),lavalidation 2. l'optimisationdecritèresde sélectiontelsla validation-croisée (Cravenet Wahba,1979)ou la statistiqueCo de Mallows (Mallows, croiséegénéralisée 1973)adaptéepourla régressionlocalepar Clevelandet Devlin (1988).Nousdiscuterons aussiplus en détail, à la section2.3.6, de la sélectionautomatiquedes paramètresde lissage. 2.3.4 Définitions relatives aux lisseurslinéaires 2.3.4.1 Le lissagelinéaire Par définition,un lisseurest linéaire si I'estimationpar lissageau point r peut s'écrirede la manièresuivante: î@) :Ltn(r)ro _LTy (2.33) i=1 où tf : (11(r),Ir(r),...,1"(r)) est un vecteurnomménoyau équivalentou diagrammede pondération qui ne dépendpas des Ar En examinantl'équation(2.30), on peut voir que le lisseurde régressionlocaleestun lisseurlinéaireavec: LT: ef(xfw,x,)-1xfw,. (2.34) En s'intéressantplus particulièrementà I'estimationde / pour les observationsï1, fr2,...,itrr,,oll obtient: i@,) LT, LT, At Uz r@") L.E. Un f @') (2.3s) ou en notation matricielle. f:SrY (2.36) 35 LE LISSAGEPAR RÉGRESSIONLOCALE nxn quel'on nommematrice oùSr : LT^ "rt onematricededimension tî, Lî" fr I de lissageutilisépour desparamètres le ou I'ensemble ) désigne de lissageet le sous-indice I'estimation. 2.3.4.2 Le biais Pourun lisseurlinéaire,le vecteurde biaisestdéfini par : b.r: f -E{SÀY}: f - Srf (2-37) biaisés.Par Pourune fonctionarbitraireet inconnue/, les lisseurslinéairessontgénéralement contre,ils peuventêtre non biaiséspour une classeparticulièrede fonctions.Par exemple,le lissagepar splinescubiquesde lissagereproduitsansbiais les fonctionslinéaires(Buja et al., localeà I'aide d'un polynômede degrép, on peutdémon1939).Pourle lissagepar régression trer, en supposantque la vraie fonction /(r) est p * 2 fois dérivable,que le biais ponctuel, b(r) : E{i@} * f @),estégalà (Loader,1999): - ry$fL ) . b(r) lp+ *... (2.3s) ,,{')t"i-r)b+r; .##D,,OA.-r)@+z) i=r La régressionlocale par un polynôme de degrép permet ainsi d'estimer sansbiais une fonction danscecas,1b+t)1r) : 7@+z)(r)- . . . - 0. polynomiale I @)d'ordrep puisque 2.3.4.3 La variance La variancede I'estimateurlinéairedel'équation(2.33)est : v(z): "'ftn@)' : o2LTL, (2.3e) i=l et enremplaçantLl pat(2.34),onobtient: v(r) : o2ef(xfw,x")-t(Xfwlx,l 1xf'w'x,;-le'. Q.4a) desvaleursajustéesf : SrY est: Pourun lisseurlinéaire,la matricede variance-covariance COV(f): o2S,rST. (2.41) la normalitédeserreurs,il estpossibled'utiliser (2.41)pourformer desintervalles En supposant pasconsidérercesintervallesd'écartponctuelsd'écart-typepourle lissage.Il ne faut cependant type commeétant des intervallesde confiancepuisqu'ils ne contiennentaucuneinformation 36 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... pour ce que le lisseurestime,c'est-à-dire sur le biaisde i; il s'agitd'intervallesde confiance qu'il s'agitici dela mêmeproblématique rencontrée, E{S)Y} (Bujaet a1.,1989).Mentionnons par exempleen hydrologie,pour I'estimationdesintervallesde confiancedesquantilesde crue Les intervallesde confiancedesquantiles estiméspar une loi à deux ou à trois paramètres. plus petitsmaisseulement parcequ'ils estiméspar uneloi à deuxparamètres sontgénéralement ne tiennentpascomptedu biais de modélisationintroduiten utilisantuneloi à deuxparamètres plutôt qu'à troisparamètres. avecune hypothèsed'homogénéitéde la variance. Les résultatsprécédents ont été développés le modèlede régressionlocalepeut s'adapterau commeon I'a vu précédemment, Cependant, problèmede variancesinégales;E(ef) : o? < oo. Rappelonsqu'avecla régressionlocale, puisquela fonctionw{r) estdéjàunefonctiondepondération,I'approcheemployéepourchanger la procédured'estimationconsistetout simplementà modifier la fonction,r(r) en la multipliant par I'inversede la varianceof , c'est-à-direen redéfinissantw'n@): w,i(r)lo?. Ainsi, enposantVr: diag{llol,Llol,...,Ilo'*},onobtientlenouveaudiagrammedepondération suivant: L'T: ef(xfw,v,x,)-1xï'w,v,. (2.42) La variancede I'estimateurlinéairede l'équation(2.33),pour un modèleavecvariancesnon (NH), devient: homogènes vNn(r) : I - L'Tv;'L', t6(n)2o! (2.43) à=L et en remplaçaûV| par sonexpression en(2.42),onobtient: vNn(r): ef (xfw,v,x,)-l(xlw3v"x") (xT\M,v,x,)-1e1. (2.M) 2.3.4.4 Llerreur quadratique moyenne À la section2.3.3,nous avonsprésentéles notionsd'erreur quadratiquemoyenne(EQM) et d'erreurquadratique deprédiction(EQP)pourle lissageenun point particulierri.Enrégression d'avoir unemesureplus globalede ceserreurs.On non paramétrique, il estsouventnécessaire s'intéresseainsi à la moyennede ceserïeurspour I'ensembledes valeursajustéesi@6). Var LE LISSAGEPAR RÉGRESSIONLOCALE 37 analogieavecles équations(2.31)et (2.32),on obtient: EeM(À): :1 n 1 n * ; I b(rn)' f r tvar{i(r;)} x--L u:! tr(SiSf)_, " +, lbTb^ E Q M ( À: ) (2.4s) où tr(.), I'opérateur matriciel de trace, représentela somme des élémentsde la diagonale de la matrice (i.e. ici, des variances).On obtient aussi : f tr(S1si)l ':-:zt o'* _, , bTb^ EQP(À) I ï tl I (2.46) puisqu'ellespermettent Ceséquationssontd'une grandeutilité en régressionnon pararnétrique "optimal" de lissageÀ*.En d'ajusterle niveaude lissage,à I'aide de À, et de choisir un niveau effet,puisqu'il sembleêtreappropriédechoisir,parmiun ensembledernodèles,celui possédant la plus petite erïeur quadratiquede prédiction,un des objectifsde I'ajustementdu niveaude lissagedesmodèlesestd'obtenirla valeurÀ* qui minimiseEQP(À),notée À*: âr Bm^in{ EQP( À) } . (2.47) le niveaude lissageÀ, on devraits'attendreà observerune De manièregénérale,en augmentant du biaisdu lissage.Il s'avèrequecela diminutionde la variancecombinéeà une augmentation est généralementle cas puisqu'en augmentantle niveau de lissage ), la quantité tr(S1S{) a tendanceà diminuer,alorsque les élémentsde b1 ont plutôt tendanceà augmenter (Hastieet Tibshirani,1990). 2.3.4.5 Le nombre de degrésde liberté Afin de permettreune comparaisondesdifférentslisseurslinéairessur un mêmebase,il serait intéressantde savoircombiende degrésde liberté (une notion empruntéeà la régressionlinéaire)ont étéutiliséspour le lissage.Buja et al. (1989)ont proposétrois définitions,obtenues linéaire,dela notiondedegrédeliberté,aussiappelée, paranalogieavecle modèlederégression le nombre de paramètreseffectifsd'un lisseurlinéaire. Définition 1 : le nombre de degrésde liberté z1 d'un lisseur linéaire zr : tr(S.lST) var(y;) : po2,où le nombrededegrés linéairemultiple,on a !!, Pourle modèlederégression de liberté p est le nombrede paramètresou de variablesprédictivesdu modèle.La définition analoguedu nombrede degrésde libertéd'un lisseurlinéaire(cf.éq. 2.45) estdonctr(S1Sf). Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... Définition 2 : le nombre de degrésde liberté v2 d'un lisseur linéaire vz: tr(ZSr- SrST) Pour un lisseurlinéaire,I'espérancede la sommedu carrédeserreursSCE = (f - i)"(f est: E{SCE}: [n -tr(2S1 - SÀST)]cr2 + bful i) (2.48) Encoreunefois, le nombrede degrésde liberté= tr(2S,1- S.IST)est égalà p pour I'espérance de la SCEdu modèlede régressionlinéaireà p variablesprédictives. Définition 3 : le nombre de degrésde liberté z3d'un lisseur linéaire Ya: tr(S.l) Une interprétation de la statistique C, de Mallows est qu'elle corrige la SCE de manière à ce qu'elle soit non biaisée pour I'estimation de l'erreur quadratique de prédiction en ajoutant la quantité 2p û2,où â2 est un estimateurnon biaiséde o2 etp représentele nombre de paramètres du modèle de régressionlinéaire. Dans un contextede lissagelinéaire, la quantité que I'on doit alors ajouter est 2 tr(S1) ô2, d'où la définition 3. 2.3.5 Ltajustement du niveau de lissage: un compromis biais/variance la largeurdela fenêtredelissageestun desprincipauxfacteurs En régressionnonparamétrique, qui contrôlentle compromisentrele biais et la varianceae i(r). On présente,àlafigure2.2, le lissagedes donnéesdécritesen 2.2.1pour différenteslargeursâ de la fenêtrede lissage. Lorsquela fenêtrede lissageest trop étroite(h=l), un nombreinsufÊsantd'observationsest utilisé pour I'estimationde la courbe.Il en résulteun lissagetrès inégulier avecbeaucoupde bruit et unegrandevariabilité(variance).À I'inverse,unefenêtrede lissagetrop grande(â=15) de la courbesoientperdues.Le lissageest peutfaire en sortequede véritablescaractéristiques examinons ce phénomène, d'un fort biais. Pour illustrermathématiquement alorsaccompagné l'exempledu lisseurpar moyennemobileprésentéà la section2.2.4. En choisissantla fenêtrede lissageà I'aide de la méthodedes (r) plus prochesvoisinssymé' triques,on peutécrire(cf. équation2.9) : î@o)- T ie Nf,(tr ) yj 2 r* I (2.4e) 39 LE LISSAGEPARRÉGRESSIONLOCALE h=1 h=15 h=5 o oo oo o o o o o o OO g ' \" + - o vl o o oo o , / o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o 5 1 0 ag3 1 5 5 1 0 1 5 5 1 0 1 5 â9e a9e Ftc. 2.2:Exemplesde compromisbiais/variance Il s'agitici de la moyennedesvaleursde y aupoint 15ainsiqu'auxr plusprochesvoisinsà droite : et à gauchede n6.La moyenneainsiquela variancede cetestimateursontrespectivement S L .r r@i) n{î@n)}-sff}-, var{f(r;)} - 02 (2.s0) (2.s1) 2r*L la largeurde la fenêtrede On peut remarquerqu'en augmentant r (ou de manièreéquivalente, le biaisa plutôt tendanceà augmenter lissage),la variancede l'estimateurdiminue.Cependant, puisqueI'espérance en (2.50)comportealorsplus de termes/0 dontla valeurdiffèrede /(r;). De rnanièreéquivalente, en diminuantr, on augmentela variancede I'estimateuralorsque son desestimateursseproduit aussipour les biais à tendanceà diminuer.Ce mêmecomportement différentsautreslisseurs.Parexemple,pour les splinesdelissage,le biaisdiminueet la variance augmentelorsqueÀ + 0, et I'inversese produit lorsqueÀ + oo (Hastieet Tibshirani,1990). Pourla régressionlocale,la largeurde la fenêtrede lissageh,le degrédu polynômelocal p de mêmeque la fonction de pondérationu influencentle comprornisbiaidvariance" Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue ... 2.3.5,1 La largeur de la fenêtre de lissage ExaminonsI'effet causépar un changement de la fenêtrede lissageh à I'aide d'un exemple. Reprenons les donnéesdécritesen 2.2.1et estimonspour différentesvaleursde â unedroite en utilisantunefonctiondepondération triplementcubique,c'està direutilisonsle /oess(cf.2.2.7). le résultatde ceslissages. Pourla pluspetitelargeurde fenêtre,h:2,La La figure2.3présente /r : 4 et h : 8,la courbeestiméesembleun peutrop ondulée.Pourleslargeursintermédiaires, courbesemblerefléterassezbien I'allure généraledesdonnées.Parcontre,lorsqueh : 16, on peutobserverce qu'on appelledu surlissage,c'est-à-direuneestimationtrop lisseet par le fait mêmebiaisée,notammentdansI'intervalled'âgesà la limite inférieurede la courbe. h=2 h=4 o a R - o o o + o o o o . 9 ï a o a9e a9€ h=8 h=16 @ @ F - o o o a a o a dela largeurde la fenêfrede lissage Ftc.2.3: Effetdu changement De manièregénérale,I'estimationaux limites est un problèmeassociéà I'estimationnon papeu élevéde ramétrique.Une partie de ce problèmeest causéepar le nombregénéralement donnéesobservéesen æs endroits.Pour faire faceà cette problématique,une approcherecommandéeconsisteà choisir une largeurde fenêtrequi puissevarieren fonctionde la densitédes observations disponibles.L'approchedes,t plus prochesvoisinspermetcettevariation.Avec cetteapproche,plutôt que de déterminerunelargeurde fenêtrefixe /r.(r) : â, on la choisitde LOCALE LE LISSAGEPAR RÉGRESSION 4t à la /cièmeplus petitedistanced(r,r) : tn - r;l entre manièreà ce que h(r) corresponde que cettedéfinitionde h(r) permet le point d'estimationr et les observationsn4.Remarquons I'obtentiond'une fenêtrede lissagesymétrique,une contrainteet hypothèse(cf. 2.3.2)de la modélisationpar régressionlocale.Notonsd'ailleursque la méthodedesplus prochesvoisins des symétriquesn'est pasapplicableen régressionlocalepuisqu'onobtientalorsgénéralement de la forme (n - h1(r),r * h2(r)). Enfin,une auftefafenêtresde lissagenon symétriques çon de choisir /r,(c)consisteà utiliser le maximumentrela valeurâ(r) obtenuepar les k plus déterminéeâ. Cetteapprochepermetderéglerdes prochesvoisinset unevaleurpréalablernent problèmesde biaisreliésà I'utilisation de trop faiblesvaleursde h. 2.3.5.2 Le degrédu polynômelocal Tout commela largeurde la fenêtrede lissage,te degrédu polynômelocal utilisé influence le biais et la variancede I'estimateurf. WanOet Jones(1990)ont montréque la performance Ils notenttoutefoisquepuisque asymptotiquede / s'améliorelorsquela valeurdep augmente. pourqu'il la variancede / augmenteavecp, detrèsgrandséchantillonspeuventêtrenécessaires Certainsauteurs(e.g.Wand de la performance. y ait, en pratique,uneaméliorationsubstantielle ainsid'utiliser,au plus,un polynômecubique. et Jones(1990),Loader(1999))recommandent La figure 2.4 montredesrésultatsde lissagepour desdegrésde p - 0 à p : 3. Notonsquele paramètreh aétê,choisidemanièreà ce quechaquelissageait un nombredeparamètreseffectifs similaire,au sensde la définition I (cf.2.3.4.5).En agissantainsi,on se trouve à équilibrerla variabilité desestimateurs.On peut remarquerque mêmeen ayant choisi ainsi le paramètreh, I'estimationlocalepar uneconstantep: 0 demeuremoinslisse.Ce résultatestcaractéristique de l'utilisation du lissagepar régressionlocalelorsqueP : 0, En effet,dansce cas'un biaisest introduitpar la pentede la vraiefonctionde régression(Loader,1999).Plusla penteestélevée, plus I'estimationestbiaisée.De plus,avecI'estimationlocalepar constante,notonsle problème de biais d'ajustement,dont on a discutéà la section2.2,prèsde la limite inférieure(à gauche). En raison du peu de différencesvisiblesentreI'ajustementpar polynômesde degrésP = L, p : 2 êt p - 3, l'examenvisuel de la figure 2.4 suggèreque I'utilisation d'un polynômede la courbef @). degrép : I suffitpourestimercorrectement 2.3.5.3 La fonction de pondération La fonctionde pondérationI4r(u) influencele compromisbiais/variancernaisbeaucoupmoins que la largeurde la fenêtrede lissageou que le degrédu polynômelocaL.I-a' fonction de 42 P=0 @ P=1 @ o & a q a q o o o age age 9=2 P=3 @ o $ o + o @ o o o o Ftc.2.4: Effet du changement du degrédu polynômelocal pondérationa cependantplus d'effet sur le niveaude lissagede la courbeajustée.Parexemple, I'utilisationd'une fonction rectangulaireproduitun ajustementcomportantdesdiscontinuités alorsqueles autresfonctionsproduisentgénéralement un ajustementbeaucouppluslisse. Au tableau2.2, on peut remarquerque les diversesfonctionsde pondérationrencontrées dans la littératureont à peu prèstoutesla mêmeefÊcacitéasymptotique ponctuellepour I'estimation lorsquep : I (pourplus de détails,voir le chapire 13 de Loader(1999). Bien quela fonction d'Epanechnikovsoit la plus efficace,il estpréférabled'utiliser les fonctionsdoublementquadratique,triplementcubiqueou triplementpondéréepuisqu'ellesdemeurentfortementefficace tout enproduisantun meilleurlissagequela fonctiond'Epanechnikov(Loader,1999).De plus, il estimportantde rappelerqueles statisticiens s'entendentsur le fait quele choix dela fonction de pondérationWest relativementpeu importanten comparaisondu choix de la largeurde la fenêtrede lissageâ. LOCALE LE LISSAGEPARRÉGRESSION 43 Ttn.2,2z Efficacitéasymptotiqueponctuelledesfonctionsde pondérationutiliséespour la régressionlocalelinéaire (tiré de Loader (1999) 1.000 Epanechnikov 0.998 Triplementcubique Doublementquadratique0.994 0.987 Triplementpondéré 0.986 Triangulaire 0.951 Normal 0.930 Rectangulaire 2.3.6 La sélectionautomatique desparamètres de lissage Rappelonsquepuisqu'il sembleappropriédechoisir,parmiun ensemblede modèles,celuipossédantla plus petiteerreurquadratiquede prédiction,un des objectifs de I'ajustementdu niveaude lissagedesmodèlesest de rechercher,parmi I'ensembledesparamètresde lissageÀ, À* tel que À* - argminl{EQP(À)} (cf. éq.2.a7).Pourle modèlede le vecteurde paramètres optimauxÀ* : (h*,p*,W*). régressionlocale,on doit alorsobtenirle vecteurde paramètres puisseêtreapplicableen pratique,il estd'abordnécessaire Pourquela sélectiondesparamètres de produireune estimationde I'EQP définieen (2.46).Intuitivement,on pourraitêtreportéà utiliserla moyennedu carrédeserreurs(MCE) : :*i*,MCE î(,ù\" (2.s2) maiscettemesureestbeaucouptrop "optimiste"puisqueleserreursproviennentd'observations qui ont d'abordété utiliséespour I'estimation.Efron et Tibshirani(1993)nommentd'ailleurs de ce typede mesureI'erreurapparentede prédiction.En statistique,de nombreuxestimateurs statistiqueCo I'EQP ont étéproposés: Jacklmife,Bootstrap,Bootstrap.632,validation-croisée, les de Mallows (voir par exempleEfron et Tibshirani(1993)).En régressionnon paramétrique, ainsiqu'àl'aide de I'EQP par validationcroisée,par validationcroiséegénéralisée estimateurs d'uneadaptationde la statistiqueCode Mallowsconstituentles méthodeslesplusgénéralement utilisées. desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation 2.3.6.1 La validation croisée La validation croisée (VC) est un outil standardutilisé pour I'estimation de I'EQP. En régression non paramétrique,I'approche consisteà laisser de côté, I'un aprèsI'autre, chacun des n couples - 1 couples restants.Le @t,g) puis à estimerpar lissagela courbeau point 16 à I'aide des n couple mis de côté est alors considérécomme une nouvelle observationau sens de l'équation (2.32). On obtient alors que I'estimateur par validation croiséede I'EQMP est : :*D*,vc(À) Î;o(,u)\' (2.s3) etf ^t(r;) indiquel'estimationparlissage oùÀ: (h,p,W) représentelesparamètresdelissage de côté.L utilisationde cetteprocédured'estimation aupoint rr en laissantla iièmeobservation peutêtrejustifiéeparle fait queE{VC(À)} = EQP(À) (Hastieet Tibshirani,1990). 2,3.6.2 La validation croiséepour un lisseur linéaire d'effectuern,estimationsparlissagepour le calculdes En principe,le calculdeVC(À) nécessite pourun lisseurlinéairef.r : S,rY, on a la relationsuivante: n valeursae fli(r;). Cependant, î-ôr , Ut-ft@ù Ut.-Ix-\rt.): I _,Sdm d'effectuern lissagespuisquechacunedesestimationslli(r;) Il n'estdoncplusnécessaire On a doncquepourun lisseurlinéaire: êtreobtenueà partir de fi(r;) et de ,96;(À). :*E{t=*gî}' vc(,) (2.s4) peut (2.ss) on rencontreaussila méthodede la Dansla littératuretraitantde régressionnon paramétrique, validationcroiséegénéralisée(VCG). Avec cetteméthode,on obtientune approximationdes élémentsSre(À)de la diagonalede la matricede lissageS.rParla moyennede ceux-ci,c'est-àdire par la tracede la matrice51 diviséparn et ainsi,2.55s'écrit : (2.s6) Cetteapproximationa permis,pour I'approchedessplinesde lissage,la réductiondu tempsde calculpuisqu'onne savaitpas,jusqu'à tout récemment,commentcalculerles éléments,Sa(À) (Hastieet Tibshirani,1990). enO(n) opérations LOCALE LE LISSAGEPARRÉGRESSION 45 2.3.6.3 La statistique Co de Mallows En régressionlinéaire multiple traditionnelle avecp variablesprédictives,la statistiqueCo (Mallows, 1973)constitueun estimateurde I'EQP.On définit alors cette statistiquepar: cp : MCE+2pû2ln (2.s7) où ô2 estun estimateurde la variancedesrésidus.La statistiqveCp, un casspécialdu critère d'informationd'Akaike, s'obtienten ajustanttaMCE de manièreà ce qu'elle soit approximativementnonbiaiséepour I'erreurdeprédiction: E{CÀ æ EQP (Efron et Tibshirani,1993).En on obtient régressionnon paraméhique,en effectuantla mêmecorrectionque précédemment, pourun lisseurlinéaire: co(À): MCE(À)+ 2tr(s5jô2fn. (2.s8) Mentionnonsqu'ence qui concemeI'estimationdeà2,un estirnateurnonbiaisédeo2 estdonné par: ô2: scE(À) rl - v1 (2.se) où z; peut représenterI'une ou I'autre destrois définitions du nombrede paramètreseffectifs (cf. 2.3.4.5).Une autreapprocheconsisteà calprécédemment d'un lisseurlinéaireprésentées culer I'estimateuren (2.59)en utilisantun paramètrede lissageÀ*, différentde À, de manière à n'effectuerqu'un faible niveaude lissage.D'autresestimateursont aussiétéproposés(pour plusde détails,voir par exemplela section3.5de Opsomer(1995)). desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation 3. LA MODÉLISATIONADDITIVE Dansle chapitreprécédent,nous avonsprésentéles notionsde basereliéesà l'estimationnon avec c'est-à-direle lissageunidimensionnel paramériquepar lissagedescourbesderégression, une seulevariableexplicative(d : 1). Bien que les différentestechniquesde lissagepeuvent pour I'estimationde surfacede régression(d > 1), cette façonde faire est être généralisées souventproblématiqueen raisonnotammentdu problèmede la raréfactiondesdonnéesdans un espaceà grandedimension.Dansce chapitre,nollsproposonsune approchedemodélisation qui ne souffrepasdeceproblèrne: la modélisationadditive.Nousintroduisons nonparamétrique formellementle modèleadditif dansla cetteapprochedansla section3.1 pour ensuiteprésenter section3.2.Parla suite,nousmontronsdansla section3.3 comments'effectuel'estimationdes modèlesadditifspour enfin discuter,dansla section3.4, de la modélisationdesdonnées,c'estlors du choix : (1) desvariablesexplicativesà à-diredesélémentsà prendreen considération incluredansle modèleet (2) du niveaudelissageassociéà chacunedecesvariablesexplicatives. 3.L I/approche de modéIisationadditive Rappelonsle résultatclassiqueselon lequella fonction / qui minimise E{Y - /(X)}2 est l'espéranceconditionnellede Y étantdonnéX, soit r8): E(Ylx). (3.1) Dansle casoù I'on considèreplusieursvariablesprédictives,un desoutils les plusutiliséspour linéairemultiple suivant: représenter cettefonctionestle modèlederégression E ( Y I X LX , 2 , . . . , X a: ) a * f u X 1* Ê z X z +. ' . + g a X a (3.2) les paramètres du modèle.Dansle modèlelinéaire(3.2),on fait une où o et 0t.ç=t-.a1sont est de E(Y) surX1, . . . ,Xd,,soit quela dépendance hypothèseforte à proposde la dépendance non À I'inverse,avecl'approchederégression linéairepourchacunedesd variablesprédictives. paramétriqueprésentéeau chapitreprécédent,aucunehypothèsen'est faite quantà la forme de la surfacede régressionsi ce n'est le fait qu'elle soit lisse.Rappelonsqu'on a alorsle modèle suivant: E(YlXb X2,...,Xù : f (Xt, Xz, ...,Xa) (3.3) 48 desquantilesde crue... Modélisationadditivepar polynômeslocauxpour la régionalisation de lissageprésentée à où la fonction/(X1, X2,...,X6) peutêneestiméepar unedestechniques la section2.2.8. de locaUn problèmecommunaux différentslisseursde surfaceconcernela caractéristique lité de l'estimationen grandesdimensions.Ce problèmede dimensionalitéest bien connuen régressionnon paramétriquesousle nom de curse of d.imensionality: les voisinagesavec un nombrefixé d'observationsdeviennentde moins en moins locaux lorsquela dimension que les observaaugmente(Bellman, 1961).La figure 3.1 illustre ce phénomène.Supposons tionssoientrépartiesuniformémentà I'intérieurd'un cubeunitairede dimensionp et que nous voulionsconsffuireun voisinageen formede cubedébutantpar I'origine de manièreà capturer (enmoyenne)(100 x GRV)7odesobservations la grandeurrelativedu voisioù GRV représente devraitavoir nage(i.e.le span)(cf.2.2.4).On peutalorsmontrerquela dimensiondu sous-cube unearêtede longueurGRVl/p. Pourp=l et GRV=0,1on obtientunearêtede 0,1. Par contre, pourp=lQ (et GRV=O,1)on obtientenviron0,8 ce qui n'est plus vraimentlocal (mêmeavecun sous-cube composéd'arêtesde longueur0,8, on ne réussit,en dimensionp, qu'à capturerque l07o desobservations). c p€ 9-2 q o E P .9 g 'ii - @ P-t o q o N ci ê o 0.4 0.6 span Frc. 3.1: Illustrationdu problèmede dimensionalité(tiré de Hastieet Tibshirani(1990)) techniquesde régressionnon paraméAu coursdesdeux dernièresdécennies,de nombreuses (e.g.le modèledela afinderepondreà ceproblèmede dimensionalité triqueont étédéveloppées poursuitepar projectionde Friedmanet Stuetzle(1981),le modèled'alternancede I'espérance conditionnellede Breimanet Friedman(1985),le modèleadditif généraliséde Hastieet Tib- LA MODÉLISATIONADDITIVE 49 shirani(1990),etc.)(pourune descriptiondesprincipalesméthodes,voir, par exemple,Hârdle (1989)).Un de cesmodèlesqui sesitueà mi-cheminentrela régressionlinéairemultiple(équa(équation3.3), a plus particulièrement tion 3.2) et le lissagede surfacesmultidimensionnelles retenuI'attentiondespraticiens,il s'agit du modèleadditif (Hastieet Tibshirani,1987;Buja et al., 1989;Hastieet Tibshirani,1990): E ( Y l & , X 2 , . . . , X a ) :a + f { X ) + f z ( X r )+ . . . + f a ( X a ) (3.4) lisses,de forme non spécifiéea priori, associées où les fi sontdesfonctionsunidimensionnelles par le à chacunedesvariablesexplicativesXl(l=r...a).Ce modèleestcaractérisé respectivement En effet, Stone(1982)a étudiéla fait qu'il n'est pasaffectépar le problèmede dimensionalité. pouvant desmodèlesadditifs et a prouvéque la vitesseoptimalede convergence convergence êtreatteinte(pour/ declasseCz) estde I'ordredeO(n-t/s), soitla mêmequepourI'estimation de la modé(d - 1) (cf. 1.1.3).Une autrecaractéristique d'une fonctionunidimensionnelle lisation additivequi distingued'ailleurs le modèleadditif des autrestechniquesde régression estrelativeà la facilité d'interprétationdesrésultats.En effet,tout commeen non paramétrique régressionlinéairemultiple, il est possibleavecun modèleadditif d'examinergraphiquement à la présencedes I'effet de chacunedesvariablesprédictives,une à la fois, conditionnellement autresvariablesprédictives.Il devientalorspossibled'effectuerune validationdeshypothèses de linéaritéémisespar le modèlede régressionlinéairemultiple. De plus, I'implantationde la contriet Hastie,L992)a grandement modélisationadditivedansle logiciel S-PLUS(Chambers buéà sonessor. 3.2 Le modèleadditif unerelationentred variablesprédictives La modélisationadditiveest utiliséepour représenter qui (ou indépendantes) Xr, Xz, . . . , Xa et une variablede réponseY (ou variabledépendante) est reliée à ces variablesprédictives.Supposonsqu'on ait I'ensembled'observationssuivant du modèleadditifest: {((Xi, X;,..., Xl),Y),'i : I,2,...,n}, alorsla formegénérale ...+ fa(X'o)+ et Yr: a+ f1(xi) + fz(J {'â)+ (3.s) distribuéesde moyenneE(e6): g, desXj etidentiquement où les erïeurs€1sontindépendantes de varianceE(ril : o2 etoù chacunedesfonctionsfi telle que E(/3) : 0 estunefonctionde forme non spécifiéepouvantêtre estiméepar lissageunivarié.Dansce document,noussupposeronsque les lisseursutiliséspour I'estimationdesfonctions,f3sontlinéaires.De plus,nous relaxeronsI'hypothèsede varianceconstanteo2 et permettronsqueE(el) : o7. desquantilesde crue... Modélisationadditivepar polynômeslocauxpour la régionalisation 3.3 Llestimation desmodèlesadditifs on peutnoterle vecà I'ajustementd'un modèleadditif aux valeursobservées, En s'intéressant teurdesvaleursestimées: (3.6) î:d*Îr+Îz+...+Îa où ô : Y et Î1,Îr,...,ia sontdeslisseurslinéairesunivariéstels que fi : SiYli=r...a; (cf. pourle lissagedans 2.3.4.1)où Sr,Sz,...,Sasontlesmatricesdelissageutiliséesrespectvement X1, X2,...,Xa.Pourdeslisseurslinéaires,il estpossiblede l'espacedesvariablesexplicatives Îr,îr,..., Î6 constituentles solutionsdu système montrer(Buja et a1.,1989)queles estimateurs d'équationsnormalessuivant: I S1 Sz r t, ... Sa ... ::l :'t s'l f î, I J (Y-ô) f, De plus,si la matrice M: I S1 Sz r Sr . . . Sz t, S a . . (3.7) (3.8) ; estinversible,alorsles estimateursîr,îr, ...,Î6 existentet f1 î, î : M-l Sr Sz (Y-ô) (3.e) t, sontdedimensionzl x rzet quechacunedeslignes(et colonnes) Puisqueles matricesS; 16=1,...,d; de M est composéede d de ces matrices,M est de dimensionnd x nd^ En théorie,il est possiblede résoudrele systèmed'équations(3.7) à I'aide d'une méthodenon-itérativetelle 1améthodede la décompositionQR (Burdenet Faires,1989).Un problèmepratiqueest que (3.7) est un systèmede dimensionnd x nd et que desméthodestellesla décompositionQR requièrentO(*') opérationspourrésoudreun systèmede dimensionrn x rn, ce qui signifieici LA MODÉLISATIONADDITIVE 5l Uneméthodeitérative,I'algorithme debackfitting,peutalorsêtreutilisée O((nd,)3)opérations. à I'estimation.L'algorithmede backfining, afin de diminuerle nombred'opérationsnécessaires (Burdenet Faires,1989),ne requied,lorsqueles uneméthoded'itérationde type Gauss-Seidel lisseurspeuventêtreestimésen O(n) opérations(c'estle caspour la régressionlocalelinéaire), queO(np) opérations(Hastieet Tibshirani,1990). 3.3.L I/algorithme de backfi.tting : ; , X ? , . . . , X T ) ' , t j : ( f j ( X ; ) , f i 6 î ) , . . . , f t $ i ) ) e t S il a P o ujr : 7 , 2 , . . . , d , n o t o n s X r(.X (cf. section2.3.4.1)aux depondération matricedelissagedontleslignessontlesdiagrammes les àla figure3.2,estime Xl,Xl, ...,Xi.L algorithmedebacffitting,présenté observées valeurs (3.4)E(Ylh,Xz,...,Xa):a+h(Xù+fz(Xz)+...+fd(Xd). fonctions/3dumodèleadditif il est nécessaire de définirdesvaleursinitialespourfr0.Hastieet PourdébuterI'algorithme, n'estdisponiblea priori surla forme information lorsqu'aucune Tibshirani(1990)suggèrent, de ces fonctions, d'utiliser les fonctions linéaires obtenuespar régressionde Y sur les variables explicatives. 1.Initialiserfi -- fl, i : 1,2,...,d, ù : * 2. Furepourj : L,2,...,d fi:Si(Y-a-Du*rfo) 3. Répéter2. jusqu'àce quelesfonctionsQ convergent Fta. 3.2:Algorithmedebacffitting baséessur la notion de rétrécissement Buja et al. (1939)ont donnédesconditionssuffisantes, (shrinking).garantissant la convergence de I'algorithme.Pardéfinition,pourtoutenormematricielle ll.ll,on noûrmelisseurrétrécissantla matriceS, si pour tout vecteury,llsyll S llyll. Pourun lisseurstrictementrétrécissant,on a llsyll < llyll pour tout y. Buja et al. (1989) la convergence ont montréque si tousles lisseursutilisésdansI'algorithmesont rétrécissants, versune alorsla convergence estgarantieet si deplus,les lisseurssontstrictementrétrécissants, solutionuniqueestassurée.Dansle casdeslisseurspar régressionlocale,il n'y a pasgarantie soientdifficilesà trouver. bienqueles contre-exemples de convergence 52 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation peut obtenupar Hastieet Tibshirani(1990),estqu'un lisseurrétrécissant Un résultatintéressant, ce qui garantitI'unicité de la solution,en êtretransforméen un lisseurstrictementrétrécissant, effectuantun centrage,c'est-à-direen remplaçantles matricesde lissageSr' par deslisseurs centrésS; : (I - LLT ln)S; où 1 estune mafficeunitairede dimensionn x n. Notonsqu'en procédantainsi,nousnoustrouvonsalors à employerI'algorithmede backfittingmodifré,présentéà la figure3.3,qui estimeplutôt les fonctions/i du modèleadditif sansconstantesuivant: E ( Y I X L , X 2 , . . . , X a ) :/ r ( X t ) + f z ( X z )+ . . . + f a ( X a ) . fi : fr9,i : I,2, ...,d 1.Initialiser 2.Fwepourj:t,2,...,d fi: Si(Y -Luaofo) 3. Répéter2. jusqu'à ce queles fonctionsfj convergent Flc. 3.3: Algorithmede baclfittingmodifié 3.3.2 Définitionsrelativesaux modèlesadditifs de lisseurslinéaires à la section2.3.4surles lisseurslinéaires,nousprésenParanalogieaveclesrésultatsprésentés pour un modèleadditif composéde lisseurslinéaires. tonsici desdéfinitionsanalogues 3.3.2.1 Desestimateurslinéaires Notonsd'abord que le fait d'effectuerun centragedeslisseurslinéairesrevient à estimernon pasle systèmed'équations(3.7)maisplutôt le systèmesuivant: f r sî I I:T Lt,s; .: En supposantquela matrice si s; f1 î2 :li; L'; fa ; -.:l* si si r . . . si s; ... (3.10) ; (3.11) 53 LA MODÉLISATIONADDITIVE est inversible, alors les estimateursf1, f2, . . . ,f 4 e x i Stentet sontuniques;ils sontdonnéspar : lï1" L: L',1 - M*-1 (3.12) Lléquation(3.L2) permetd'observerque les estimateurssont linéairesen Y. Les estimateurs estatteinte,sontaussilinéaires produitspar la procédurede baclstting,lorsquela convergence enY.Il estdoncpossibled'obtenirû : RrY' iz : RzY, et ainside suited'où : Î:ô1+t+îz+...+ia:RY ( 3.13) où i est le vecteurdes valeursajustées.Avec la procédurede baclfittircg,les matricesR3 et IÙ peuventêtre obtenuesen applicantI'algorithmeà la séquencede vecteursde réponses €1 : (1,0,0,...,0)",êz : (0,1,0,...,0)1,...,ên : (0,0,...,L)" (pourplusde détails,voir Hastieet Tibshirani(1987)). 3.3.2.2 Le biaisr la varianceet I'erreur quadratique moyenne quelesestimateurs du modèleadditif sontlinéairesenY, on obtient,paranalogie En considérant du vecteurde biais : avecl'équation(2.37),commeexpression b:f-E{Ry}:f-Rf (3.14) Mentionnonsque pour une fonctionarbitraireet inconnue/, les modèlesadditifs sontbiaisés bienqu'ils puissenttoutefoisêtrenonbiaiséspourune classeparticulièrede fonctions. et devariance distribuées identiquement quelesobservations sontindépendantes, En considérant desvaleursajustéesi : RY est : constanteo2, alorsla matricede variance-covariance Cov(î) : o2RR?. (3.1s) la normalitédeserreurs,il estpossibled'utiliser (3.15)pourobtenirdesintervalles En supposant du modèleadditif. De plus,il estpossibled'obtenir ponctuelsd'écart-typepour les estimateurs desintervallesponctuelsd'écart-typepourchacundeslisseursunivariésiy enutilisantle fait que COV(ij) : ozp-ip.T. (3.16) 54 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpourla régionalisation pasconsidérercesintervallesd'écart-typecommeétantdes Rappelonsqu'il ne faut cependant aucuneinformationsurle biais intervallesdeconfiancepuisqu'ilsnecontiennentrespectivement de confiancepourcequi estestimé(cf.23.a3). deî et de ii ; il s'agitd'intervalles d'homoscédasticité. Lesrésultatsprécédents avecunehypothèse Cependant, ont étédéveloppés le modèleadditif peut s'adapterau casdesvariances commeon I'a mentionnéprécédemment, au inégales; E(ef) : o?. La procédure consistealorsà ramenerceproblèmed'hétéroscédasticité eneffectuantlestransformations suivantes: Y' : l/L/zY castraditionnelavechomoscédasticité e t f j - Y L / z fi o ù V : d i a g {L l o l ,L /o3,...,I/o?}( pour plusdedétails,voir lasection5.4de Hastieet Tibshirani(1990). En ce qui concernelesnotionsd'erreurquadratiquemoyenneet d'erreurquadratiquedeprédiction, il estaussipossibled'obtenir,par analogieavecles équations(2.45)et (2.46) : EeM - tr(RRr) oz*brb n n (3.r7) et EeP-{'.ry\u.* ( 3.18) 3.3.2.3 Le nombre de degrésde liberté en 2.3.4.5a son analoguenaturel ici : u1 : tr(R^R"), Chacunedes 3 définitionsprésentées vz : tr(2R - R,Rî) et vs - tr(R). Deux facteurslimitent cependantI'utilisation pratiquede cesdéfinitions.D'abord,le calculde cesdéûnitionsesttrèsexigeantdu point de vuedu nombre d'opérations.De plus,un inconvénientmajeuraveccesdéfinitionsest qu'ellesne déterminent quele nombretotal de degrésde liberté (ou de paramètreseffectifs) de la modélisationadditive. En pratique,il estplutôt souhaitable deconnaîtrele nombrededegrésde libertéassociéà chacun deslisseurs,c'est-à-direà chacunedesvariablesexplicatives.En ce sens,Hastieet Tibshirani (1990)suggèrent d'utiliser: fz:tr(25,.-sjsï) -1 (3.1e) 4:tr(Sr')-1 (3.20) ou LA MODÉLISATIONADDITIVE 55 commemesuredu nombrededegrésdelibenéassociéà la variableprédictiveXi. Cesdéfinitions sontbaséesrespectivement sur les approximations suivantes: p uz: ft(2r"- n,Rt)æ1* - sjsT)- 1} IJ = t {r.tzsj (3.2r) e1 p vs: tr(R) ry 1 * f {tr{s3)- t} (3.22) ;-r Ainsi, le nombre total de degrésde liberté est représentépar la somrnedes degrésde liberté associés à chacunedesvariablesexplicativesà laquelleon rajouteun polr tenir comptede I'esde bonsrésultatssaufdans timationde la constante.Cesapproximations donnentgénéralenoent le casde fortes corrélationsentreles variablesprédictivesou lorsquede très petits paramètres de lissagesontutilisés(Hastieet Tibshirani,1990). 3.4 La modélisationdesdonnées Au chapitreprécédent(cf. 2.3.5,2.3.6),nousavonsdiscutéde I'ajustementdu niveaude lissagedesmodèlesde régressionlocaleà une seulevariableprédictive.Rappelonsquedanscette situation,une approcheretenuepour la sélectiondu modèlefinal consisteà choisir,parmi un la plus petiteerreurde prédiction,c'est-à-dire ensemblede modèlesÎ : SrY, celui possédant parmiI'ensembledesparamètres qu'il s'agitderechercher, delissage), le vecteurdeparamètres À* tel que À* - arg minl{EQP(À)}. Rappelonsaussiquepour quela sélectiondesparamètres et ont puisseêtre applicableen pratique,desmesures(estimations)de I'EQP sontnécessaires (cf. 2.3.6). d'ailleursétéprésentées De manièreéquivalente,pour un modèleadditif, il sembleappropriéde choisir, parmi un ensemblede modèlesÎ : S.rrY * SlrY + ... + SrrY, celui possédantla plus petite erreurde prédiction.Il s'agit ici de rechercher,parmi I'ensemblede vecteursde paramètresde lissage À* tel queÂ* - argminl{EQP(Â)}. Encore le vecteurde paramètres  : (Àr, À2,...,Àa), puisseêtreapplicableenpratique,desmesuresde unefois, pour quela sélectiondesparamètres I'EQP pour un modèleadditif sontnécessaires. Modélisationadditiveparpolynômeslocauxpourla régionalisatondesquantilesde crue... 3.4.1 Lesmesuresde l'ajustement Rappelonsqu'intuitivement,on pourraitêtreportéà utiliser,cornmemesurede I'ajustement,la moyennedu carrédeserreurs(MCE) : MCE(^): :>,{,,-f,î,,^,a,,t\' (3.23) "optimiste"puisqueles erreursproviennentd'obsermais que cettemesureest beaucouptrop de I'EQP par validaton vationsqui ont d'abordétéutiliséespour I'estimation.Les estirnateurs ainsiqu'à I'aide d'uneadaptationde la statistiqueC, croisée,par validationcroiséegénéralisée nonparamétriqueconstituentaussides dansun contextede régression de Mallows développées utiliséesen modélisationadditive. méthodesgénéralement Pourun modèleadditil on peutdéfinir,par analogieà l'équation(2.56),le critèrede validation (VCG) par : croiséegénéralisée vcc(^): (1-MCE(^) rr(R^)1")"' (3.24) Gu et V/ahba(1988)ont développéun algorithmepermettant,pour des splinesde lissage,le en raisonde la difficultéà calculerde manièreefÊcacele dénocalculde VCG(Â). Cependant, O(nt) opérations.Ilestcependant minateurdel'expression(3.24),lecalculdeVCG(Â)requiert possible,afin de réduirele tempsde calcul,d'utiliserl'approximation(3.22)afin d'obtenir: vcc-(^)- MCE(^) (1- [1*Doi=r{tr(S1,;- t}11"), (3.2s) qui ne requiert que O(n) opérations. Dans le contexte de I'utilisation de I'analyse discriminantepour la sélection de modèles,Hastie et al. (1993) ont proposé,comme mesurepermettantla discrimination, l'utilisation de VCG.(c,À) : MCE(A) (1- [1+"DI=r{tr(s1,;-t}11")" (3.26) où c représenteun facteurde pénalité(une fonction de coût) associéau nombrede paramètres d'un modè1eadditif. Notonsque VCG* implique un facteurde pénalitéunitaire alorsque de que nombreuxauteurs(e.g.Friedman(1991),Owen(1991),Hastieet al. (1993))mentionnent c:2 constitueplutôtunevaleurappropriée. LA MODÉLISATIONADDITIVE 57 Unedernièremesure,connuedansla littératuresousle nom de AIC (AknikeInformationCriterion) de Hastie(Hastieet Tibshirani,1990),esten fait la statistiquede Co de l'équation(2.58) adaptéeà la modélisationadditive.On définitcettestatistiquepar : Arc(A): MCE(A ) +2l{tr1s1,; - t} a2ln (3.27) j:l où ô2 est un estimateurde la variancedesrésidus.Mentionnonsqu'il s'agit de la mesureemployéedansle logiciel S-Pluspour la discriminationde différentsmodèlesadditifs.En ce qui sontdisponiblesdont par exemple,I'esconcerneI'estimationde à2, de nombreuxestimateurs timateurnonbiaisésuivant: scE(^) ^, -"'-""-'-:-' Ç- : Il-ut (3.28) en 3.3.2.3,du nombretotal de où z; peutreprésenter I'une ou I'autredesdéfinitions,présentées paramètres effectifsd'un modèleadditif. 3.4.2 Les procéduresde sélectiondu modèle queI'on ait à sélectionner un modèleoptirnal,au sensde I'un descritèresénumérés Supposons précédemment, parmi I'ensembledesmodèlesadditifscomposésde polynômeslocauxdont la forme généraleest : E(Ylh, Xz, ...,Xa): SÀrY* SlrY + ...+ S.\dY (3.2e) = (hr,,pa,W;).supposons où I'on a pourun lisseurcomposéde polynômeslocaux,Àl(,i=r...a) maintenantqueI'on déterminea prtort et Vala fonctionde pondérationW;employée,que I'on qu'auxfonctionspolynomiales d'ordreL et2 (i.e.pt € {1,2}) et qu'enfin,I'on ne s'intéresse déterminela largeurde la fenêtrede lissageà l'aide de la méthodedesk plus prochesvoisins (i.e.quepourun échantillondetaillen, ht € {I,2, ...,n}). Supposons deplusqueI'on permette quechacundestermesdu modèlepuisseêtresoitignoréou remplacéparun teffneparamétrique linéairede la forme/iXi, alorsun exerciced'analysecombinatoirepermetd'obtenirquepour un échantillonde taille n, le nombretotal de modèlespotentielsestégalà (2n + 2)d.Ainsi, par exemple,pour un échantillonde taille n : 49 et d : 5 variablesexplicativespotentielles,il existeenviron1005: 1010soit 10 milliards de modèlesdifférents.Cet exercicemontrebien que danscette situation, il serait en pratiquetrop exigeant,en temps de calcul, de tenter de déterminerle modèleoptimal en estimantchacunde cesmodèlespotentielset en calculantpour chacund'entreeux le critèreretenu. 58 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation Puisqu'enpratiqueil sembleirréalisabled'examinerchacundesmodèlespotentiels,de nomet/ou proposéesdont les ont été développées breusesprocéduresplus ou moins automatiques par en avant,par en arrièreou dansles deuxdirections(Hastieet procéduresde type pas-à-pas I'algorithmede baclfitting employantde manièreadaptative Tibshirani,1990)et lesprocédures tellesl'algorithmeBRUTO(Hastieet Tibshirani,1990)ou la méthodede sélectionautomatique desparamètres de lissagede Opsomer(1995).Bien quecesdernièresapprochessoientplusefficacesau niveaudu nombred'opérationsà effectuer,leur utilisationpratiqueest généralement limitée par le manqued'outils informatiquesconviviauxpermettantleur application.De plus, d'êûetestéeen profondeur(Hastie I'algorithmeBRUTO estunenouvelleméthodequi nécessite et Tibshirani,1990)alorsque la méthodede Opsomer(1995)estune méthodede typeplug-in, obtenus un type de méthodeamenéà disparaîtreen raisondesmauvaisrésultatsgénéralement et Loader(1996b): commel'indiquentCleveland "Plug-inmethodsshouldbe consideredan ideathat failed,andallowedto die a naturaldeath." Dansce travail,et ce en raison,entreautres,de la disponibilitéd'outils informatiquesefÊcaces dansles uneprocédurede type pas-à-pas et conviviauxdansle logiciel s-Plus,nousadopterons deuxdirections.Afin de pouvoirutiliser,en pratique,uneprocédurede type pas-à-pas,l'ondoit de lissageassociésà chacunedes desparamètres d'abordeffectuerun certainordonnancement selonl'échelle desdegrés s'effectuegénéralement variablesexplicatives.Cet ordonnancement de libertéen utilisantla relationdirecteexistantentrela notionde paramètrede lissage(via 51) et la notion de degréde liberté,notéedésormaisdl, (unefonctionde S1).Ainsi, pour un modèle quel'on permetteque chacundestennes additif composéde polynômeslinéaires,en supposant du modèlepuisseêtre soit (l) ignoré (i.e. d,l - 0), (2) remplacépar un terme paramétrique linéairede la forme ÊiXi Q.e.dI : 1) ou (3) lisséà I'aide de sesk plus prochesvoisins(i.e. natureldesparamètres de k), alors,un ordonnancement dl > | et est unefonctiondécroissante de lissagepotentielspourla variableprédictiveX3'estle vecteur: * 'î)* t , L j _ ( ^ 1 , ^ ? , . . . , ^ : i , . . . , X ^] ,iÀ : ((1 ,1 ,w ), (2 ,!,w ),. . . , ( ii,l,w) , . . . , ( r ,l,w) , ( n, 1,r ect) ,( 0,1,tl) ) ( 3.30) quelconque et rect estla fonctiondepondérationrectanguoù urestunefonctiondepondération queI'emploi de {+1 : (n,1, rect) équivautà estimerle termelinêaoire laire.Remarquons BiXi alorsque I'emploi de \i+2 : (0, 1,ar) équivautà ignorerla variableexplicativeXi (puisque À: 0). LA MODÉLISATIONADDITIVE 59 La procédurede type pas-à-pasconsisteà estimer,dans un premier temps,le modèlecorau vecteurde paramètres de lissage1(o) - (^ol,^!;,...,^'f). On estimeensuite respondant de lissagediffère 6s ^(o) d'une seuleposition tous les modèlesdont un seul des paramètres aux vec(selonI'ordonnancement établi en 3.30).Il s'agit ainsi des modèlescorrespondant (ÀI, ÀT,...,^:f-t), (Ài', À?, ...,^7*t). On choisitensuitele meilleurdetouscesmodèlesque I'on compareaumodèleinitial. Si le modèleinitial estle meilleur,la procédures'arête. Sinon, avecle meilleurdecesmodèlescommenouveaumodèle les étapesprécédentes on recommence vers la soluconvergence initial. Notonsqu'aveccetteprocédure,il n'y a pasnécessairement tion optimale;il peut s'agir d'un maximumlocalet I'atteintede cet optirnumestalorsrelié aux en pratique,d'effectuerla procédureavecdifféconditionsinitiales.Il est donc recommandé, rentsparamènesinitiaux. Mentionnonsaussiqu'aveccetteprocédure,il n'est paspossiblede qui tiennecomptedu degrédespolynôrneslocaux.Nousrecornmancréerun ordonnancement donsainsid'analyserles graphiquesobtenuspar la modélisationadditivea6ndevérifierqueles polynômesde degré1 décriventbienlesobservations. 3.4.3 l/aspect graphique et la linéarité des modèlesde régression Rappelonsqu'en pratique, l'utilisation d'une approchede modélisationnon paramétrique, deux objectifsprincipaux,le premier commela modélisationadditive,poursuitgénéralement d'ordre descriptif,le secondprédictif.Ainsi, I'utilisation d'une approchede modélisationadditive permetnon seulement(1) d'effectuerune modélisationdes donnéesobservéesafin de produireun lisseuradditif pouvantêtre utilisé pour la prédiction,mais aussi(2) de suggérer Par exemple,un examenvisueldu graphique I'emploi d'un modèleparamétriquequelconque. de la figure3.4apourraitsuggérerI'emploid'unedroitede régression. Mentionnonsque pour la régionalisationdesquantilesde crue, le lissagedes relationsentre quantilesde crueset variablesphysiographiques / climatologiquesdevraitpermettre,dansun premiertemps,en examinantles différentslissages,de détecterles régionsà I'intérieur desquellesI'hypothèsede linéaritéinhérenteau modèletraditionnelde régressionlog-linéaireest inadéquate. On devraitalorss'attendreà ce qu'en cesrégions,une approchede régressionnon paramétrique commeI'approchede modélisationadditivesoit préférableet permettede produire,dansun deuxièmetemps,de meilleuresprédictionsdesquantilesde crueen dessitesnon jaugés.La figure3.4 constitued'ailleursun exempledu lissagede la relationenEele logarithme décimaldu quantilede crue Qsoet le logarithmedécimalde I'aire (A) des bassinsversants pourdeuxrégionshydrologiquesdesÉtats-Unis.La figure3.4asuggèrequepour la région 1, le desquantilesde crue... Modélisationadditiveparpolynômeslocauxpourla régionalisation modèlelog-linéairetraditionnelpeutêtreadéquatalorsquepour la région L2 (fig.3.4b),le graphiquede droite,I'emploi d'unemodélisationadditivepeutpermettreI'obtentionde meilleures prédictions. Région12 du USGS Région01 du USGS (| q Ë o P < t I a: T € q o o 9 a Ë ç 6 ç c q q rl 1 2 3 r.s 2.o 2.5 3.0 3.5 4.O 4.5 A A ^\ b) 4) Frc. 3.4: Visualisationde I'hypothèsede linéaritépour 2 régionshydrologiquesdéfiniespar le USGS(cf. 5.1 pour unedescriptiondétailléedesrégions)' c'est-à-direen modélisationlocale et en modélisationaddiEn régressionnon paramétrique, tive, des testsd'hypothèsespeuventêtre utilisésafin de validerl'hypothèsequ'un lisseurest supérieurà un aufrelisseur.PourtesterI'hypothèse: significativement f/o tfrro : RroY contre I' hypothèsealternative H1:înr: RlrY il faut d'abord calculer la statistique: n t : (SCE(A9)- SCE(^IDlQrot - vr0:)) (3.31) LA MODÉLISATIONADDITIVE 6t le nombrede r/(0),SCE(40)etv$),SCE(^I) respectivement où n estle nombred'observations, degréde libertéet la sommedu carrédeserreursdeslisseursÎ1o et Î1r. On utiliseensuitele fait queF estapproximativement distribuéeselonuneloi Fr.rll-,<rr,n-;o)et on rejètefls à un niveau lorsqueF" > IL). de confiance o lorsqueo(.F) < o (c'est-à-dire Une façonpossiblede validerI'hypothèsede linéaritéconsisteà utiliser le testprécédentavec : d,* 1oùdestlenom br edeva r i abl es ' i : P Y p o u rl aquelleonar ' ( 0) I ' h y p o th è se Ifo explicativesdu modèlede régressionlinéairernultiple.L applicationde tels testspour valider les hypothèsesde linéaritédes lissagesde la figure 3.4 ont donnécommerésultats,selonle logiciel S-Plus,que o(F) : 0,289 pour la région01 (cf. frg. 3.4a)et a(F) - 0,017 pour la région T2 (cf. fig. 3.4b). Ces résultatsindiquent,tels que I'on devrait s'attendre,que pour linéaire,diminuesignificativement la région 12,I'applicationd'un lisseurplutôt qu'un modètre la variancerésiduellealors qu'aucunediminution significativen'est observéepour la région de bons résultatspour deslisseurspar 01. Le testF approximatifen 3.31 donnegénéralernent plus polynômeslocauxde degréI (Hastieet Tibshirani,1990)(pour d'autresapproximations précisesvoir, par exemple,Clevelandet Devlin (1988)). desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation 4. LAnÉCTONALTSATIONDESQUANTTLESDE CRUE par lequelon déduit des caractéristiques en La régionalisationhydrologiqueest un processus dessitesoù ellesne sontpasmesurées. En hydrologiede surface,on s'intéresse,par exemple, à la régionalisationdesdébitsde crue, des étiages,des précipitations,etc. Dans le cadrede plusparticulièrement desquantilesde crue,c'estcettethèse,on s'intéresse à la régionalisation à-dire à I'estimation,en un site non jaugé, d'un quantileparticulier,le quantilede périodede retourT, notéQr, dela distributionde fréquencedescruesannuelles.Mentionnonsquedansce document,nousne traitonsquede la régionalisation, conçuepour I'estimationen dessitssnon jaugés,quenousdistinguonsde I'analyserégionale,conçuepour I'estimationen dessitesnon jaugésmaisaussien dessitespartiellementjaugéscontenantpeu d'infornrationhydrologique. Nous référonsle lecteurà (GREHYS, 1996a,1996b)pour une descriptiondu problèmeplus génêxalde I'analyserégionaleet de I'estimationen dessitespartiellementjaugés. Dansle casoù desmesuresdeDMA sontdisponiblesausiteoù I'on désireproduireuneestimation, le problèmede I'estimationdu quantilede crueQ7 consisteà approxirnerla distributionde ("r,rr,...,r,n)desDMA fréquencecumuléeF,puisque Qr: ^F"-t(1-LlT),àl'aidedelasérie (où n est le nombred'annéespassées pour lesquelleson connaîtle débit maximumannuel).I1 s'agit alorsde modéliserla relationexistantentrelesquantilesde crueet leur périodederetour. Dansla littératurehydrologique,on qualifiegénéralement de temporelle ce type de modélisation aux sitesjaugés(locale).Lorsqu'aucune informationhydrométriquen'est disponibleausite où I'on désireproduireuneestimation,I'on se doit de s'intéresserdavantageà la modélisation spatiale(régionale)descaractéristiques de crue. Le but de ce chapitreest de présentercertainsconceptsde baseliés au problèmede la régionalisationdesquantilesde crue.Il s'agit d'effectuerune revuede la littératuredesapproches de de modélisationjugéespertinentespour le travailen courssoientles approchesstatistiques modélisationtemporelle(locale)et spatiale(régionale)desquantilesde crue.Aprèsavoirdécrit, dans la section4.l,La problématiquehydrologiqueétudiée,nous présentonsrespectivement, localeset régionalesde modélisation. dansles sections4.2 et4.3,lesprincipalesapproches 64 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpourla régionalisation 4.1 Descriptionde la problématique En pratique,desestimationsde quantilesde crueQ1 sontrequises,entreautres,pour la gestion pourle dimensionnement desstructuresde protectionet de contrôledes desplainesinondables, cruesde mêmeque pour le dimensionnement de touteautrestructuresoumiseà un risquede défaillance(parexempledébordement). Ainsi, auxÉtats-Unis,en matièrede gestiondesplaines inondables I'achatd'unepoliced'assurance-inonProgramoblige ,le NationalFtood.Insurance dation aux genshabitantles zonesdont le débit Q1e6(débitde périodede retourT = 100ans) est susceptiblede causerdesdommages. On sedoit alorsd'obtenirI'estimationde Qlss afin de déterminerles zonesà risque.Un autreexempled'utilisationde Qy est le calcul du débit de permettantle dimensionnement desouvragesconstruitsenrivière.On conception,un paramètre ici tout particulièrement à cetteproblématique. s'intéressera de façon à pouvoirrésisterà En général,les ouvragesconstruitsen rivière sontdimensionnés une crue que I'on nommecrue de conception(designflood) ou crue de projet. La crue de conceptionestdéfiniecommeétantle débitmaximumqu'unestructurepeutsupportersansqu'il en résultedesdommages appréciables. En hydrologie,il estde pratiquecourantede dimensionner les ouvragesde manièreà ce qu'ils puissentrésisterà une crue d'une périodede retourT donnée,notéeQr. On peutd'ailleursmontrerquele risqueannuelde défaillancep (c'est-à-dire la probabilitéaudépassement) d'un ouvrageconçupourrésisterà unecruede périodede retour T estp : t/T (Bobéeet Rasmussen, 1994).Parexemple,le risquequ'un ouvragedimensionné pour résisterà une cruecentennale(7 : 100)soit détruitau coursd'une annéedonnéeestde unechancesur 100. À t'étapede la planificationdesouvrages,on doit d'abordûxer le niveaude risquequeI'on est prêt à accepter.Idéalement,une analysedu risque,une analysesupportantla prisede décision par la quantificationdesconséquences ainsi quede leur probabilitéd'occurrenceOIRC, 1988) devrait être effectuéeafin de déterminerle niveaude risqueà accepter(pou plus de détails sur I'analysedu risque,voir par exempleDucksteinet Parent(L997)).Cependant,en pratique, a priori en lorsqu'aucunenormen'irnposele niveaude risque,on le déterminegénéralement dommageables d'une défaillance.Ainsi, on intégrantintuitivementI'ampleurdesconséquences peutaccepterqu'unpont desservant soit submergéunefois tousles 10 uneroutehèssecondaire ans; les pontsd'autoroutessontplutôt conçuspour résisterà unecrue survenantunefois toutes (destruction peuventêtre désastreuses les 50 ou 100 années.Enfin, lorsqueles conséquences d'une usinenucléaireou du barraged'un grandréservoir),on utilise plutôt la cruemillennale (7 - 10 000)afin de concevoircesouvrages. (T : 7 000)ou mêmela cruedécamillennale LA RÉGIONALISATIONDES QUANTILES DE CRUE &5 Pourun niveaude risquespécifié,il estimportantd'obtenirI'estimationla plusprécisepossible de Qr en raisond'une part, descoûtsde constructioninjustifiésqu'entraîneune surestimation du débitde conceptionet d'autrepart,de I'augmentationdu risqueréel de défaillanceet par le qu'enffaîneune sous-estimation de Qr.En règle généde dommages fait même,dnoccurrence I'hydrologuen'estpasla personne décisionnel, rale,bienqu'il soit impliquédansle processus qui prendles décisionsen matièrede dimensionnement desouvrages.L'hydrologueest plutôt techniquesdansles domainesde I'hydrologie le détenteurdes informationset connaissances et de I'hydraulique(Bernier, 1997).Les décisionssont quant à elles prisesà un niveauplus élevépar ùn gestionnaire(ou décideur)qui demandeà I'hydrologuede lui foumir I'information à sonanalyse.Généralement, cetteinformationconsisteen uneestimahydrologiquenécessaire tion de Q7 accompagnêe d'un intervalledeconfiance,c'est-à-dired'unemesuredeI'incertitude reliée à son estimation.Le gestionnairea par la suite commetâchel'évaluationdes diverses qu'hydrologiquessusceptibles stratégiques incertitudestant économiques, socio-économiques, d'affectersaprise de décision,c'est-à-direle choix du débit de conceptionqui ultérieurement, serviraà la constructionde l'ouvrage. Pour le gestionnairede projet,le problèmedu choix du débit de conceptionest un problème d'analysede la décisionen avenirincertain.Diversesthéoriestant économiques(théoriede (théorieBayesienne dela décision(Fortin, 1997)) I'utilité (Bowerset al., 1986))questatistiques permettentla prisede décisionen environnement incertain.Cunnane(1987)a déjà mis en évides dencele fait qu'en pratique,en dépit du caractèreéconomiquerelié au dimensionnement séparéedu problèmedécisionnelde natureplus ouvrages,I'estimationde Qr estgénéralement économiqueque constituela conceptiondesouvrages.De plus, Bernier(1990)a montréI'intérêt d'utiliser une approchepennettantune analyseintégréedesproblèmesd'estimationhydes de planificationen tenantcompterationnellement drologiqueet desproblèmesdécisionnels pas diversesincertitudesintervenantdanscesproblèmes.L'objectif de ce travailn'estcependant Il s'avèretoutefoisessentield'insistersurI'effet des l'étudedesdiversesthéoriesdécisionnelles. incertitudessur la prisede décision.En effet,peu importela théorieretenue,uneréductiondes plus réalistes. la prisede décisionséconomiquement diversesincertitudespermetgénéralement desouvrages,une approcheclassiquede prise en Parexemple,en matièrede dimensionnement ouvragesenprenantnonpasI'estimation comptedesincertitudesconsisteà surdimensionnerles de Qr commedébit de conceptionmaisplutôt la limite supérieurede I'intervallede confiance à95Vode cetteestimation(voir, par exemple,Bernier(1990)).Il estdoncclair qu'unedirninution def incertitudeentourantI'estimationdeQr (doncde I'intervalledeconfiance),incertitude de I'estimation,permetde réduire quantifiéedanscet exemplepar la variabilitééchantillonnale 66 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation desouvrageset par le fait même,les coûtsde constnrctionde ceux-ci. le surdimensionnement qu'à la réductiondesincertitudeshyDansle cadrede ce travail,nousne nousintéresserons incertitudestechnologiques(Bernier,1990)entourantI'estimation drologiques,aussiappelées deQr- 4.1.L Les incertitudes hydrologiques en eau,unegrandeconfusionexisteconcernantla difféPuisquedansle domainedesressources renceentreles notionsd'incertitude,d'imprécision,d'erreuret d'aléaqueI'on regroupesouvent sousle termeincertitude(Abi-Zeid, t997), il s'avèreimportantde définir cesnotionsdansce document.On emploiele termeincertitudepour traduirenotre faible degréde connaissance d'un phénomène.L'incertitudepeut découlerde I'ereur ou de I'imprécisionmaisn'est synonymed'aucunde ies termes.L'erreurestunedéviationpar rapportà une valeurcorrectetandis que I'imprécisionfait plutôt appelà la notion de "vague"où I'affirmation n'est pasen terme queparmiles nombreuses incertitudessusclair (Abi-Zeid, t997). On mentionnegénéralement ceptiblesd'affecterla prise de décisiond'un gestionnairede la ressourceeau,on retrouveles incertitudesnaturellesou aléasprovenantdesfluctuationstemporelleset spatialesdesphénonotredéfinitionde I'incenituden'inclut pascettenoCependant, mèneshydrométéorologiques. tion d'aléa.On a choisidedistinguerles aléasdesauhessourcesd'incertitudesen raisonde leur la stochasticité inéductibilité.En effet,puisqueles aléashydrologiquesreflètentgénéralement de phénomènes soumisaux forcesde la nature(précipitation,écoulementen rivière),I'hydronaturels;il ne peut que les mesurer. logue n'a pasde moyend'intervenirsur cesphénomènes Il a cependantcommetâchela modélisation,sousdiversesincertitudeshydrologiques,de ces phénomènes aléatoires. L'incertitudehydrologiquecomporteffois sourcesdistinctesd'incertitude(Bernier,1990): 1. I'incertitude échantillonnaleprovenantde donnéesennombreinsuffisantou comportant deserreursde mesure, et 2. I'incertitude d'estimationprovenantde méthodesd'estimationmal adaptées, 3. f incertitude de modélisationprovenantde la difficulté à modéliserdes phénomènes complexes. Mentionnonsqu'en ce qui concerneI'estimationde Qy en un site non jaugé, desincertitudes hydrologiquesse retrouventtant au niveaude la modélisationlocaleet de l'estimationlocale decrueauxsitesjaugés(voir la section4.2) qu'auniveaude la modélisation descaractéristiques spatialeet de I'estimationdesrelationsrégionales(voir la section4.3). LA RÉGIONALISATIONDES QUANTILES DE CRUE 61 La littératurehydrologiqueabondede modèleset de méthodesd'estimationtant localesque régionalespermettantI'estimationde Qy. Cependant,commeI'indiquent d'ailleursde nombreuxauteurs(e.g.Potter(1987),Bobéeet al. (1993),Fortin (1994)),peu a étéfut au niveau (évaluation)desdiversesprocédures d'estimation.L objectifici n'est pasde de la comparaison maisbien de clariûerdeuxélémentsgénéraleproposerunenouvelleprocédurede comparaison fondamentauxpour l'évaluationdesdiverses mentignoréspar les hydrologuesmaiscependant de I'incertiprocédures d'estimation: la distinctionentre(1) la formed'un modèle,responsable et tudede modélisationet (2) I'estimationde ce dernier,reliéeaux incertitudeséchantillonnale d' estimation.En hydrologie Puisquenotreobjectifprincipaldansce travailestla réductiondesdiversesincertitudeshydrologiquesentourantI'estimationde Qy en dessitesnonjaugés,I'on sedoit aussideproposerune Dansla littératurehydrologique,la mesurede cesincertitudescommecritèrede comparaison. qu'aux problèmesdebiaisd'estimagénéralement majoritédesétudespubliéesne s'intéressent c'est-à-direqueI'on négligeI'incertitudede modélisation. tion et de variabilitééchantillonnale, moyenne(EQM) utiliséeestI'erreurquadratique alorscouramment Unemesuredecomparaison (ou laracinecarréede celle-ci): pQvr(Qr)- n{r|}' - E{Qr - QrI': [b(Qr)]' + var(Q1) (4.1) où efl : 8r - Qr représenteI'erreurd'estimationentrela valeurréelleinconnueQ1 et l'esle biaisd'estimationet var(Qr) : E{Qr timationùr,b(Qr) - E{Qr * Qr} représente la variancede I'estimateur.Puisqu'enpratique,la waie valeurde Qa est n{Qrl],." représente employéepour le calculde I'EQM consiste,par exemple inconnue,uneapprochegénéralement pour une estimationparamétriqueaux sitesjaugés(voir la section4.2), à simulerdeséchann à partir d'une distributionparentequelconqueD (on connaît tillons de taille prédéterminée alors8r) et à estimerQ11à l'aide d'uneméthodeparticulièred'estimationM et dela loi parente D utiliséepour les simulations.En procédantainsi,on setrouveà négligerle biais(ou I'ereur, i.e. I'incertitude)de modélisationet à ainsine s'intéresserqunauxerreurs(incertitudes)d'estiPar analogieaux mesuresde précisionprésenmation(incluantl'incertitudeéchantillonnale). téesà la section2.3.3,1'EQMcalculéeainsine constituequ'unemesuredescriptivepermettant de comparerdifférentesprocéduresd'estimation.Cettefaçonde faire s'estd'ailleursattiréede critiquesen hydrologe (e.g.Landwehret al. (1987),Bobéeet al. (1993),Fortin nombreuses (1994)) et ce notammentpuisqueI'on fait alorsI'hypothèsenon vérifiableet doncdifûcilement justifiableque les débitsde cruesappartiennent à une distributionparenteconnueD. Dansce document,nousemploieronsla notiondeprécisionde I'estimation pour faire référenceà toute mesured'incertituden'incluantpasI'incertitudede modélisation. 68 desquantilesde crue... Modélisationadditivepar polynômeslocauxpour la régionalisation unemesuredeI'incerplusopportund'avoir ennotrepossession En pratique,il estgénéralement titudehydrologique,c'est-à-direunemesurequi n'inclut passeulementles incertitudeséchantillonnaleet d'estimationmais aussiI'incertitudede modélisation.Une revuesommairede la littératurehydrologiqueindiqueque V/eberet al. (1973) ont été les premiersà discuterde I'importancede tenir comptede I'incertitudede modélisationlors de l'évaluationdesmodèles importantde se rappeler hydrologiques.Ces auteursmentionnentainsi qu'il est extrêmement quetouteprédictionà partir d'un modèleest conditionnelleà la formedu modèle(responsable de I'incertitudede modélisation)ainsiqu'à la méthoded'estimationdesparamètres(reliéeaux et d'estimation)de ce modèle. incenitudeséchantillonnale Weberet al. (1973)indiquentqu'un modèleest sujetà deux sourcesdistinctesd'erreur : une ou biais et uneerreuraléatoireou variance.Ils utilisentle termeaccuracy erïeursystématique (exactitude)pour faire référenceà la qualitéqu'un modèlea de produiredes estimationsnon biaisées(sansbiais de modélisation)alorsqueletermeprecision(précisionde I'estimation)fait plutôt référenceà la qualité de produireces estimationsavecune faible variabilité.Un point importantà prendrealors en considérationest qu'il est possibled'améliorerla précision(de la taille de l'échantillonservantà sacalibrationou en I'estimation)d'un modèleen augmentant alorsqueI'exactitudede ce modèlene peut utilisantdesméthodesd'estimationmieuxadaptées êtreamélioréequ'en changeantla forme de celui-ci. Il estdoncimportantet mêmenécessaire lors de l'évaluationde modèlesde tenir comptede cesdeuxsourcesd'erreur(aléatoireet systévarierla précision matique)puisquedesméthodesd'estimationdifférentesferontgénéralement deI'estimationdu modèle(partiealéatoire)alorsquedifférentesformesdemodèlesferontplutôt varierI'exactitudede celui-ci (partiesystématique). à la section2.3.3,nousproposonsI'emploi, Par analogieaux mesuresde précisionprésentées à I'estimationde Qr, de I'erreurquadracommemesurede l'incertitudehydrologiqueassociée tiquede prédiction(EQP): pQp(ôr) : n{ri]t' : E{Qr - Qr}t (4.2) I'erreurdeprédiction.Mentionnonsquela différenceentreI'EQR où €Ë: Qr - Qr représente deI'erreuren4.1 estcalculéepour définieen4.2,et IJEQM, définieen4.1,estqueI'espérance le deserreursobtenueslors de I'estimationdeQy sousI'hypothèsequeI'on connaîtexactement de l'erreur en 4.2 estplutôt calculéepour desereurs modèle(sa forme) alors que I'espérance obtenues sousl'hypothèsequele modèleestinconnuou inexact.En hydrologie,unetellemesure de I'EQP peutêffe obtenue,par exemple,en simulantdeséchantillonsà I'aide d'une loi parente possiblesde lois parentes généraleD maisen estimantplutôt à I'aide de diversescombinaisons w LA RÉGIONALISATIONDESQUANTILESDE CRUE D' (différentesde D) et de méthodesd'estimationM. Dansla littératurehydrologique,on quad'estimationpossédantles plus faibles lifie alors de robustes(Kuczera,I9SZ) les procédures constitueprésentement unepropriétéqui reçoit une attentionbien méritée EQP.La robustesse de la part deshydrologuespour la comparaisonde diversesprocéduresd'estimationparamétriques.Dansce document,nousprivilégieronsI'emploi du termeprécision prédictive,plutôt pour faire référenceà cettemesurede I'incertitudehydrologique(i.e. incluant que robustesse, l' incertitudede modélisation). 4.2 Llanalyselocale de la distribution des crues annuelles 4.2.1 Les objectifs L objectif premierde I'analyselocale (au sitejaugé)de la distributiondescruesannuellesest la plusprécisepossibledela distributiondefréquenceréellecumud'obteniruneapproximation à I'aide de la série(rr,rr,...,rn) desDMA disponibleau sitejaugé LéeF descruesannuelles, où I'on désireproduireune estimation;n est le nombrede valeursdu débit maximumannuel dansl'échantillon.De manièregénérale,cetteestimationa pour objectif I'estimation,au site jaugé,desquantilesde crueQr ou, dansun contexted'analyserégionale(voir la section4.3), de paramènesde cettedisnibution. 4.2.2 Les hypothèses Avec I'approchede modélisationdes cruesannuelles,on ne considèrequ'une seulecrue par annéecorrespondantà la valeur maximale du débit atteinteau cours de cette année.On fait ensuiteI'hypothèseque le débit maximumannueld'une annéequelconqueest une variable aléatoireX issued'une populationP ayantune fonction de densitéde probabilitécumulée stationnaireF telle que : .F(r)-PrlX<rl (4.3) Seloncetteapproche,l'amplitudeQ7 du débit de la crueayantune probabilitéau dépassement au coursd'une annéedonnéecorrespondau préalablement définiep : 1/T d'être dépassée (1 - p)ièmequantilede la distributiondesdébitsmaximumsannuels,soit : Qr: F-'(1 - p) - F-'(1 - Vr) (4.4) Aprèsavoir extraitd'une sériede débitsjournaliersmesurésles débitsmaximumspour chaque hypothèses de il estnécessaire de vérifierquela série(r1, 12,...,r,r) respectecerfaines années, 70 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesdecrue... baseafinqueI'analysedefréquencelocalesoitthéoriquement acceptable. On doit alorss'assurer que(Bobéeet Ashkar,1991;Roy, 1993): l. le débit est naturel, c'est-à-direque les fluctuationsdesobservationssont naturelleset non induitesartificiellement(réservoircontrôlé,rivière régularisée,etc). 2. lesobservationsde l'échantillon (ordonnéeschronologiquement)sont indépendantes. maissi, Généralement, les valeursmaximumsannuelsde débitsne sontpasautocorrélées par exemple,une crue(au senslargedu terme)se produisaità la fin d'une annéedonnée ne serait et sepoursuivaitjusqu'audébutdeI'annéesuivante,I'hypothèsed'indépendance pasrespectée. 3. ltéchantillon est homogène,c'est-à-direque la populationP descruesannuellesn'est par qued'élémentshomogènes causées soitpar exemple,descruesprintanières composée par desprécipitapar desouragans,descruescausées la fontede neige,descruescausées tionsextrêmes,etc. 4. la sérieeststationnaire,c'est-à-direquelesprobabilitésdedépassement annuellesne varient pasaveclesannées.On rejette,parexemple,I'hypothèsequ'il peuty avoirdescycles (changements de la climatiquestelsle réchauffement hydro-météorologiques interannuels planète,phénomènes du typeEl-Nifro,etc.). 5. la série est dépourvue de valeurs singulières.Il arriveparfois quedeserreursgrossières de mesureou de transcriptionseproduisent.Il faut alorsretranchercesvaleursde l'échantillon. 4.2.3 Lfestimation de ta distribution des crues annuelles LorsqueI'on disposed'un échantillond'observationsde DMA homogèneset indépendantes permettant utiliséespar (rt,*r,...,ïn), deuxapproches I'estimationde F sontprincipalement d'estimationà l'aide d'uneformuledeprobabilité leshydrologues: I'approchenonparamétrique classiqueconsistant empirique(FPE)ou d'une techniquede lissageet I'approcheparamétrique à ajusterune distributionparamétriquestatistique.F'(r;9) où O représentele vecteurde paramètresde cettedistribution. 4.2.3.1 Llapprochenon paramétrique de la distributionF sontbaséessur I'ordre Plusieursméthodesd'estimationnon paramétrique on qu'occupechaqueobservation dansl'échantillonclassédesdébits,noté (c1r1,û(z)t...tr1rr1). peutobteniruneapproximationde F(rU) à I'aide d'une fonctionde i et de n appeléeformule 7l LA RÉGIONALISATIONDES QUANTILES DE CRUE de probabilité empirique (FPE)(plottingposition)dont la formegénéraleestdonnéepar : (4.s) F(r<nt):;ffi, où a estuneconstante.Le tableau4.1 présenteles FPEles plusemployéesen hydrologie. Tls. 4.1: Formulesde probabilité empirique (tiré de Bobéeet Ashkar (1991)) Référence Nom de la formule Hazen(a - 0,5) F(r1ry)# : Hazen(l9Iaa) V/eibull(a : 0) F ( r t r l ): 1 Weibull(1939) (a : 0,3) Chegodayev F(*u):m Chow(1964) C u n n a n(a e :0 ,4) F(ro):m Cunnane(1978) parinterpolationlinéaire. on procèdegénéralement PourI'estimationendespointsnonobservés, L'estimationpar uneFPEselimite alorsauxcasoù T- llT estinférieurà F(r1"y). En pratique, utilisée,commel'indique d'ailleurs son appellation I'estimationpar FPE n'est généralement anglaise,quepour produireun graphiquedela relation entreles valeursde crueobservéeset leur (ou périodederetour)associée.Cegraphiquepermetéventuellement probabilitéde dépassement de vérifier I'adéquationde fonctions"F'paramétriquesaux fréquencesobservées(selonla FPE). Une autre approchenon paramétriqueapparuedans la littérature hydrologiqueau milieu des annéesquatre-vingtpour I'estimationde la distributiondescruesannuellesest I'approchepar d'unefonctionde densitéou lissage.Quece soit pourI'estimationd'unefonctionderégression, par lissagepoursuit d'unefonctionde répartition,I'approchede modélisationnon paramétrique toujoursle même objectif soit celui d'estimer,avecune erreurqui diminue lorsquela taille deséchantillonsaugmente,unefonctioninconnueet arbitrairedesdonnées;chaqueestimation (Lall, 1995).La étantlocale,c'est-à-direinfluencéeseulementpar les donnéesenvironnantes philosophieest aussila même: I'informationseretrouvedansles donnéeset il faut les laisser nousindiquerla forme de la vraie fonctionde densité(ou de répartition)des crues.De plus, les différentestechniquesde lissageprésentéesau chapitre2 peuventêtre appliquées,presque pour I'estimationdefonctionsde densitéou de fonctionsde répartition. intégralement, 72 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation L'approchede modélisationnon paramétriquepar lissagecomportedeux étapes: (1) le choix d'une méthodeparticulièrede lissage,appeléun lisseuret (2) le choix d'une méthoded'ajustementdu niveaude lissage(e.g.le choix du typede noyau,de la taille du voisinage,etc.).Dans une revuedesprincipalesapplicationshydrologiquesdesméthodesd'estimationnon paramétrique,Lall (1995)mentionnequeYakowitz(1985)et Adamowski(1985)ont étélespremiers, I'estimationpar au congrèsde I'AGU de I'automne1983,à introduirede manièreindépendante noyaupour I'estimationde distributionsde crues.En hydrologie,on a utilisé différentstypes de noyau : noyaufixe de type rectangulaireet de Cauchy(Adamowski,1985),noyaufixe de Gumbel(Bardsley,1989),noyauvariable(Adamowski,1989).On a aussiutilisédifférentesméthodespour choisirla fenêtreoptimale: méthoded'Adamowski(Adamowski,1985),validation croisée(Adamowskiet Feluch,l99I; Gingraset al., 1995),validationcroiséepar maximumde (Adamowski,1989),validationcroiséepar moindrescarrés(Adamowski,1996). vraisemblance De plus, on a lissétantôtla fonctionde densité(Adamowski,1989),tantôtla fonctionde probabilitéempirique,aussiappeléefonctionde quantile(Moon et Lall, 1994;IVu et Woo, 1989). Une desseulesexceptionsà I'utilisation du lissagepar noyaurevientà Wu et V/oo (1989)qui ont proposéI'utilisationdessériesdeFourier,uneméthodedela famille dessériesorthogonales, pour le lissagede la fonctionde probabilitéempirique. 4.2.3.2 l/approche paramétrique L'approcheparamétrique d'estimationde f' comporteaussideux étapes.La premièreconsiste à choisir une distributionD pour représenterles débitsmaximumsannuels.Chaquedistribupar unefonctionde densitéde probabilitécumuléedifférente estcaractérisée tion paramétrique de la distributionD. En utilisantla relation le vecteurdesparamètres F(c; 9), où O représente en (4.4),on obtientalorscommeexpressiondu quantilede crue : Qr :F-1(1 -p; o) : f'-r(l - lr ;@) (4.6) La deuxièmeétapeconsisteà obtenir I'estimateurO du vecteurde paramètresO, à partir de M. Puis,enreml'échantillon(rr, fizt...,rr,) desDMA, en utilisantuneméthoded'ajustement plaçantle vecteurde paramètresO par sonestimateurô dans(4.6),on obtientI'expressionde l'estimateurlocal paramétrique du quantilede crue: Q , : F - t ( 1- p ; ô ) : r ' - 1 ( 1- l r ; 6 ) (4.7) LA RÉGIONALISATIONDES QUANTILESDE CRUE 73 En hydrologiestatistique,plusieursdistributionscombinéesà diversesméthodesd'estimation ont étéutiliséespour approximerla distributiondescruesannuellesou de madesparamètres rehydrologiquesextrêmes.De nombreuses nièreplus générale,la distributiond'événements vuesde cesdiversesdistributionset méthodesd'estimationont d'ailleurs déjàété effectuées (e.g.Greis(1983),Potter(1987),Cunnane(1987),Bobéeet Ashkar(1991),Stedingeret al. qu'enhydrologie,laloi normalesemble (1993),Bobéeet Rasmussen(1994,1995)). Soulignons avoirétéla premièreloi à êtreemployéepar Horton(1913).Parla suite,réalisantqueles séries de cruesannuellesétaientasymétriques, Hazen(1914b)a montréque la loi log-normaleajushistorique,la loi de Gumbel tait mieuxles sériesde cruesannuelles.Puis,dansuneperspective (aussiappeléeloi de valeurextrêmede type 1 (EVl)) a probablement été,par la suite,la loi la 1994).Au débutdesannées plusutiliséepourdécrirelesdonnéesdecrues(Bobéeet Rasmussen, de la f,onctionde densitéde probabilitédes quarante, réalisantquela rapiditédela décroissance avecles lois usuelles,pour lestrèsgrandesvaleursde la variable,s'avéraitparfoisen désaccord observations empiriques,Halphen(1941)a proposéde nouvelleslois de probabilitéà 3 paramètres(lois de typeA et B) et Morlat (1956)en a présentéuneextensionpourobtenirla famille deslois de Halphen(typesA, B et B-\. Toutefois,en raisonde la complexitéde la formeanade lytiquede leur fonctionde densitédeprobabilité,l'ajustementdeslois deHalphennécessitait laborieuxcalculsce qui, à cetteépoque,a fait en sortequ'ellesn'ont pasretenuI'attentiondes (e.g.log-normale,Gumbel,etc.) sontgénépraticiens.De nosjours, les lois à deuxparamètres desvaleurs par d'auffesdistributionsplus flexiblestellesla loi généralisée ralementremplacées extrêmes(GEV) (Jenkinson,1955)ou la loi log-Pearsonà 3 paramètres(LP3) (Bobée,1975). au Royaume-Uni(NERC, 1975)alors L applicationde la loi GEV estd'ailleursrecommandée qu'auxÉtats-Unis(USWRC, 19Sl) et en Australie(IEA, 1987),la loi LP3 proposéedès 1968 (Benson,1968)estimposée. méthodesd'estimation Pour I'estimationdes distributionsde cruesannuelles,de nombreuses ont été employées.Notonsqu'uneproblématiqueparticulièreà I'estimationde la distribution entre20 etTA descruesannuellesestla faible taille deséchantillonsdisponibles(généralement à I'aide de la s'effectuaitprincipalement Durantles annéessoixante,l'estimation observations). ou par moindrescarrés,la FPE à méthodedesmoments(MM) ou en ajustant,graphiquement (MMV) était aussiutilisée la distributionF(r;O). La méthodedu maximumde vraisemblance (LN2) et la loi de Gumbel.Durantles pour la loi log-norrraleàZparamètres occasionnellement annéessoixante-dix,la MMV estdevenuepluspopulairesn raisonnotamment,de sonefficacité asymptotique, bien queI'on ait déjàobservédesfaiblessesen présenced'échantillonsde faible taille ou lorsquela loi retenuen'ajustaitpasbien les observations(Fill, 1994).Diversesmé- desquantilesde crue ... Modélisationadditiveparpolynômeslocauxpour la régionalisation à la méthodeclassiquedesmoments(i.e.la méthodedesmomentsmixtes, thodess'apparentant pour I'estimationde lois etc.) ont aussiété développées la méthodedes momentsgénéralisés, hydrologiques(voir par exemplele livre de Bobéeet Ashkar(1991)).Depuisle débutdesannéesquatre-vingt,une méthodea plus particulièrementretenuI'attentiondeshydrologues: la méthodedesL-moments(Hosking,1990),présentéeà I'annexeA, qui se dérivede la théorie desmomentspondéréspar probabilités(Greenwoodet al., 1979;Hosking,1986).La principale de l'estimationà I'aide de L-momentsest que I'on accordeune moins grande caractéristique lors de I'estimationdesL-momentset des importanceaux grandeset aux petitesobservations ratiosde L-moments(l'équivalentdesmomentset desratiosde moments).Ceci se traduit par desestimationsmoinssensiblesà la présencede valeurssingulièresdansles échantillonset par enprésenced'échand'une plus granderobustesse le fait même,à desestimationsgénéralement tillons de petiæ taille. Toutefois,selonBernier (1993),pour l'estimationde quantilesélevés, cetteapproched'estimationpeutêtretrop robustedansla mesureoù I'on accordepeud'importanceà desinformationsimportantesprovenantde la queuede la distributionparente.Enfin,la de la loi de Halphenet ce, récemmentpourI'ajustementdesparamètres MMV a étéressuscitée de la MMV pour I'estimationdesparamètres intéressantes en raisondespropriétésstatistiques d'une loi de la famille exponentiellepour laquelleil existedesstatistiquesexhaustives(pour plusde détails,voir Perreaultet al. (1999a,1999b). 4.2.4 Le choix d'une procédure dtestimation locale Puisquela crue d'une rivière est la résultanted'une multitudede facteurset de phénomènes physiquesdu bassinversant,contriphysiquescomplexes(conditionsmétéo,caractéristiques ...), il est en pratiqueimpossiblede déterminerthéoriquementla butiondeseaux souterraines, distributionstatistiqueréelle du débit maximumannuelet mêmesi tel était le cas,elle serait pour avoir unequelconqueutilité en pratique d'un trop grandnombrede paramètres composée (Stedingeret al., 1993).L objectif premierde I'analysede la distributiondescruesannuelles estdoncd'obtenirla meilleuredistributionapproximativepossiblede la distributionréellemais dansle domained'intérêt inconnueF desdébitsmaximumsannuelset ce,plusparticulièrement de la variablealéatoireX (i.e.prèsde F(Qr) pour I'estimationde 8r). En hydrologie,Cunnane(1987)a étéun despremiersauteursà élaborersurlescritèresà prendre c'est-à-dire en considérationlors de la sélectiond'une procédured'estimation(paramétrique), d'unecombinaisonD/IVI(distribution/méthoded'estimation).Cunnane(1987)a ainsiintroduit les notons de capacitédescriptiveet prédictive d'une distribution.SelonCunnane(1987),un stamodèlepossèdeunebonnecapacitédescriptives'il permetde préserverles caractéristiques LA RÉGIONALISATIONDES QUANTTLESDE CRUE 75 prédictivesfont plutôtréférence alorsquelescapacités tistiquesdesdonnéesde cruesobservées les aux propriétésstatistiques desestimateursdesquantileset ce, en ignoranttemporairement queI'emploi par Cunnane(1987)du termeprédictifestinconRemarquons donnéesobservées. En effet, au sensoù nous sistantavecla notionde précisionprédictivedéfinieprécédemment. I'entendonsdansce document,la notionde capacitéprédictiveconstitueunemesurede la précision de I'estimationet non de la précisionprédictive.Par ailleurs,selonnotreterminologie, la la notion de capacitédescriptiveconstitueune mesurequalitativepermettantde soupçonner présenced'un biaisde modélisation. desquantilesles plus couramDansla littératurehydrotogique,une despropriétésstatistiques mentutiliséescommemesurede la capacitéprédictive(au sensde Cunnane(1987) d'uneprocédured'estimationestI'erreurquadratiquemoyenne(ou la racinecarréede celle-ci),définieà l'équation4.1. Rappelonsquepuisqu'enpratique,la vraie valeurde Qr estinconnue,une approchegénéralement employéepour le calcul de I'EQM consisteà simulerdeséchantillonsde taille prédéterminée n à partir d'une distributionparentequelconqueD (on connaîtalors8r) et à estimerQs à I'aide d'une méthodeparticulièred'estimationM et de la loi parenteD utiliséepour les simulations.Cetteapprochea étécritiquéeen raisonnotammentde la non prise en comptede I'incertitudede modélisation.Rappelonsenfinqu'unevéritablemesurede la prédesprocédures d'estimationpeutêtreobtenueen simulantdes cisionprédictive(ou robustesse) échantillonsà I'aide d'une loi parentegénéraleD maisen estimantplutôt à I'aide de diverses combinaisonspossiblesD'/I\d. Mentionnons,de plus, que rien n'empêched'utiliser cetteapprochede simulationproposéepour évaluerla précisionprédictivedesprocéduresd'estimation quenon paramétriques. tant paramétriques parla fonction PourI'estimationlocaleddsquantilesdecrue,la formedu modèleestreprésentée de répartitioninverse.F'-1(1- LlT.) (cf. éq.4.4).Laprécisionde I'estimationd'un modèlene peutêtreamélioréequ'enaugmentant la taille de l'échantillonservantà sacalibrationou enutilisant desméthodesd'estimationmieux adaptées(cf. 4.1.1).L'exactituded'un modèlene peut quantà elle êtreamélioréequ'en changeantla formede ce dernier(cf. 4.I.1). Examinonsmaintenantl'évolution desdifférentesprocéduresemployéespour I'estimationlocaledesquantiles de crueen tenantcomptede cesnotionsd'exactitudeet deprécisionde I'estimation. ou non) du modèle,on peut D'abord, en ce qui concernele choix de la forme (paramétrique remarquerque pour I'obtentionde meilleuresqualitésdescriptives(c'est-à-direreproduirele statistiques(coefficientde variation(CV), coefficientd'asymieux possibleles caractéristques métrie (CS), etc.) deséchantillonsobservés),on a eu recoursà des lois possédantde plus en 76 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... le caslimite étantI'applicationdu lissageoù I'adéquationavecles données plus de paramètres, pourI'emploid'une peutêtrepresqueparfaite.D'ailleurs,unemotivationmentionnée observées procédurenon paramétriqueest que ce type d'estimationpemet I'estimation(puisquefortement descriptive)de fonctionsde densitémultimodalesauxquelleson fait mêmeun lien avec différentspouvantcauserles crues(Gingraset Adamowski,1993; le nombrede mécanismes Adamowskiet al., 1994;Moon et Lall, 1994). De manièregénérale,on remarqueque le prix à payerpour I'utilisation de lois avecde plus en estcependantunediminutiondesqualitésprédictivesdesmodèles.En effet, plus de paramètres (1994)rapportequedesrésultatsde Kuczera(1982)et d'autreschercheurs Bobéeet Rasmussen de meilleursrésultats dequantilesindiquentquegénéralement, desestimateurs surla robustesse de la réalité,avecdeslois à 2 parasontobtenus,pour destailles d'échantillonsreprésentatifs De plus,mêmepourdeslois à valeursde CS fixées(commela mètresplutôtqu'à 3 paramètres. loi EVl) pour lesquellesdesestimationsfortementbiaiseespeuventêtreproduites,la diminuplus quecontrebalance tion au niveaude la varianceen raisond'uneparcimoniede paramètres, desestimationsplus robustes. I'effet du biaiset produithabituellement En ce qui concernele choix d'une méthodeparticulièred'estimation,il semblequela méthode desL-momentsprocureles meilleursrésultatsau niveaude la précisionde I'estimation.On devraitaussis'attendreà ce que cetteméthodesoit aussiefûcace,en raisonde la taille des disponible,auniveaudelaprécisionprédictivesaufpeut-être,comme échantillonsgénéralement I'indique Bernier(1993),dansle casde I'estimationde quantilesélevésoù un biais de modélisationrisqued'être introduit par la non priseen compted'informationsimportantesdansles queues. En conclusion,mentionnonsque I'analyselocalede la distributon descruesannuelles(ADC) publicationsau coursdesdernièresdécennieset demeureun sujet a fait l'objet de nombreuses Lors du d.ernierRapportNationalpréd'intérêt et de grandeimportancepour les chercheurs. sentéà la InternationalUnion of GeodesyandGeophysics(IUGG) traitantdesdéveloppements (1995)ont fait remarquerquela recherche récents(199I-1994)de I'ADC, Bobéeet Rasmussen Ils mentionnenten effetquedusurI'ADC a variéenintensitéaucoursdesdernièresdécennies. rant les annéessoixante-dixet quatre-vingts,les efforts ont étéconcentréssur le développement réalisantde efficacesd'estimationauxsitesjaugés.Puis,les chercheurs denouvellesprocédures plusenplusquele manqued'informationdisponibleauxsitesjaugés(i.e. unegrandeincertitude causéepar desdonnéesen nombreinsufÊsant)limite le degréde sophistication échantillonnale maintenant dad'estimation,on s'intéresse quepeuventatteindrede façonjustifiéecesméthodes LA RÉGIONALISATIONDES QUANTILESDE CRUE t! vantageaux méthodespermettantl'intégration d'information supplémentaire.Il est par exemple possibled'utiliser I'information sur des crues survenuesavant la période de jaugeage (information historique). Cette information peut provenir des souvenirsdes résidentsde longue date, de documentsou de journaux publiés avantla période de jaugeage(Taskeret Stedinger, 1987).Des techniquesde paléohydrologie permettent aussi d'obtenir de I'information supplémentaireen étudiant le mouvement de I'eau à travers les dépôts sédimentaires(Stedinger et Cohn, 1986). Dans ce travail, nous nous intéressonsplutôt à I'intégration de I'information régionale à I'aide de méthodesd'analyse régionale de la distribution des crues. 4.3 L'analyse régionalede la distribution descrues annuelles 4.3.1 Les objectifs (1) pour (ARDC) a été développée L'analyserégionalede la distributiondescruesannuelLes permettreI'estimationde Qy,le débit ayantune périodede retour de T années,en dessites non jaugéset (2) pour améliorerla précisiondes estimationsen des sitescontenantpeu de qu'au premier objectif, c'estdonnées.En ce qui nousconcerne,nousne nous intéresserons à-direà I'estimationde Qr en dessitesnon jaugés.Ce type d'estimation(site non jaugé) est d'ailleurs,et de loin,le casle plusrencontréen pratique(Linsley,1986). L'ARDC consisteà utiliser desprocéduresde régionalisationafin de transférerl'information disponibleen dessitesjaugésversle sitenonjaugé, appeléle site cible, où I'on désireproduire une estimation.De manièregénérale,une procédurede régionalisationcomportedeux étapes distinctesqui consistentà (1) choisirles sitesjaugésà partir desquelss'effectuerale ffansfert d'informationet (2) appliqueraux siteschoisisun modèlede transfertd'informationrégionale, un modèlerégionalestuneéquationou un enaussiappeléle modèterégional.Généralement, de crued'unerégion. sembled'équationsqui reliententreellesuneou plusieurscaractéristiques L'ARDC consisteà modéliserla variabilitédescruesdansI'espaceplutôt quedansle temps.La de cruescalculéesaux sitesjaugésestcomposée: variabilitéentreles caractéristiques (physiographiques et 1. de variabilité spatiale dueaux différencesentreles caractéristiques desbassinsversants, météorologiques) 2. devariabilité temporelledueà l'échantillonnageauxsitesjaugés,et 3. d'unepart inconnuede variabilité due aux erreurs de modélisation. 78 Modélisationadditivepar polynômeslocauxpourla régionalisation desquantilesde crue... SelonRiggs (1990),une procédurede régionalisationdevrait expliquer,le plus précisément possible(i.e. avecla plus petiteeneur de modélisationpossible),les variationsduesauxcaractéristiquesdesbassinsversantstout en "moyennant"les variationsduesà I'échantillonnage aux sitesjaugés.Ainsi, en régionalisation,I'intérêt devraitêtre accordéprincipalementau modèle régional(reliéà 1.)plutôtqu'aumodèlelocalQy : f'-l(1 - VT.) (reliéà 2.) employé. 4.3.2 Le choix des sites Avant de pouvoir transférerau site cible I'informationrégionaleprovenantde sitesjaugés,il estprimordialde bien choisir les sitesjaugésà partir desquelss'effectuerale tnansfertd'information régionale.À cette étape,l'hydrologuedoit répondreà la questionsuivante: de quels sitesprovientl'information permettantd'estimerde la meilleurefaçon possiblele modèlede transfertapplicableau sitenonjaugé? Uétapedu choix dessitescomprendgénéralement deux sous-étapes. La premièreconsisteà regrouperdifférentesstationsafin de former desrégions hydrologiques.Ilfaut ensuiteassignerla stationnonjaugéeà unede cesrégionsainsiformées. Uétapedu regroupement de sitesen régionsconsisteà définir et déterminer{1) desrégionsdont les stationsont un comportement hydrologiquesimilaireou (2) desrégionshomogènes, c'est-àdire desrégionsdont les stationsont unede leurscaractéristiques de crue,généralement le CY constanteà l'échellerégionale.Rappelonsquedansla littératurehydrologique,lesnotionsde similaritéhydrologiqueet d'homogénéitérégionalesontgénéralement confondues(cf. 1.1.2pour une distinctiondétaillée).Dansce document,nousemploieronsla terminologierégion hydrologique lorsqu'il ne serapasnécessaire de distinguerentrehomogénêité régionaleet similarité hydrologique. Un projetderechercheaétémenépar uneéquipede scientifiquescanadiens(GREHYS,1996a, 1996b)afin de comparerles principauxmodèlesd'estimationrégionaledes cruesutilisésen Amériquedu Nord. Les résultatsde f intercomparaison indiquentque, pour l'étape du choix des sites,la méthodede la région d'influence(Burn, 1990a;Znnji et Bum, 1994)et la mé(Cavadias, thoded'analysedescorrélationscanoniques 1989,1990;Ribeiro-Corréa et al., 1995; Ouardaet al., 1997)se distinguentdesautres.Nousprésentonsun aperçu,inspiréde Ouarda et al. (1999),desprincipalesméthodesde déterminationde régionshydrologiquesemployées et décrivonsbrièvementla méthodedesrégionsd'influenceet de I'analysecanoniquedescorrélations.Pourunerevueplus détailléede l'évolutiondesprocéduresde déterminationde régions hydrologiques, voir parexemplela section1.3.1deRoy (1993). LA RÉGIONALISATIONDES QUANTILESDE CRUE w 4.3.2.1 Les méthodesde déterminationde régionshydrologiques On distinguedeuxtypesd'approchepourla déterminationderégionshydrologiques: 1. approche baséesur des régionsfixes : ensemblede stationsformantune mêmerégion : peuventêtreconsidérés hydrologique.Deux sous-groupes peuventêtre dét Régionsgéographiquement contiguës.Cesrégionsgéographiques finies a priori par desdélimitationsterritoriales(États,provinces,...) ou administratives(régionsdu USGS(cf. 5.1)). Ces régionspeuventaussiêtre définies,par exemple,à partir d'uneanalysedu signedesrésidusde modèlesde régression(Jendes nings et a1.,1994)ou à partir de la similaritédesdensitésnon-paramétriques débitsde crue(Gingraset Adamowski,1993). définiesen fonctionde la sio Régionsnon-contiguës. Cesrégionssontgénéralement Cesrégionspeuvent physiqueseUouhydrologiques. milaritédeleurscaractéristiques par exemple,par une analysediscrirninante(DeCoursey,1973), être déterminées, (White, 1975),une analysede regrouune analysefactorielledescorrespondances pement(clusteranalysis)(Mosley,1981;Tasker,1982),etc. 2. approche baséesur des régions du type voisinage: où on associeà chaquestation cible son proprevoisinage.La méthodede la régiond'influence(Burn, 1990a;Znnji et Burn, t994) définit la proximitéde deux sitespar une distancedans un espacemultiet physiographiques hydrologiques, dimensionneldont les axessontdescaractéristiques Les voisinagespeuventaussiêtre définispar une analysedescorrélamétéorologiques. tionscanoniques(Cavadias,1989,1990). 4.3.2.2 l/assignation de la station cible aux régions hydrologiques ou selonuneapprochede selondescritèresgéographiques Lorsqueles régionssontdéterminées voisinage,le problèmede I'assignationde la stationcible à une régionparticulièrene se pose sur la basede leurs lorsqu'il s'agit de régionsdont les stationssontregroupées pas.Cependant, de définiruneapnécessaire il estgénéralement physiquesetlouhydrologiques, caractéristiques d'ailleursque pour l'assignationd'une stationnon jaugée proched'assignation.Remarquons survient: où aucuneinformationhydrologiquen'est disponible,un problèmesupplémentaire hydrologiquesde la stationnon jaugée. il n'est pas possiblede déterminerles caractéristiques lesméthodesdedéterminationde régionshydroloAfin detenir comptede cetteproblématique, giquesconçoiventles similaritésdansI'espacedesvariablesphysiographiques/météorologiques et non hydrologiques.On peut aussiavoir recoursà une analysediscriminante(Tasker,1982) 80 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... d'unestationnonjaugéeà unerégionpréalablement afin d'établirla probabilitéd'appartenance définie.Il est alorspossibled'assignerla stationà la régiondont la probabilitéd'appartenance fractionnaire(Tasker, est maximale.Une approchealternative,appeléconceptd'appartenance 1982;Wiltshire, 1986b),consisteà appliquerle modèlerégionalen chacunedesrégionset à estimerle quantilede crueau site cible à I'aide d'une moyennepondérée(par les probabilités desquantilescalculésen chacunedesrégionshydrologiques. d'appartenance) 4.3.2.3 La méthodede la région d'influence Selonla méthodede la région d'influenceproposéed'abord par Burn (1990a)pour des sites ciblesjaugéspuis par ZlJlnjiet Burn (L994) pour des sitesnon jaugés,chaquesite cible est considérécommele centrede sa propre région. Le critère permettantalors la sélectionde la régiond'influenceestla distanceeuclidienne daj: f,,6[') - Y$)f (4.8) l=1 estune fonction de pondérationpermettantla dansl'espacedesvariablesexplicativesX1 où u.r1 desvariablesexplicatives.La régiond'influenceau site i est alorsdéfiniepar standardisation I'ensembledessitesj tels quedii est inférieureà un certainpoint de coupure0t orl,lorsquece point de coupureesttrop restrictif,par l'ensembledesK sitesayantles K pluspetitesdistances d;j.où K estle nombreminimumde stationsdésiré. Burn (1990a)proposeaussiI'utilisationd'unefonctionde pondération(fonctionnoyau)afin de refléterla proximité relativedesdifférentssitesvoisinsdu site cible dont la forme est : u;,j:l- (#)" (4.e) de la fonctiondepondération. où TP et n sontdesparamètres 4.3.2.4 La méthodednanalysedescorrélationscanoniques permetd'identifier les sitesdont le régime La méthoded'analysedescorrélationscanoniques de crue est similaireau site cible (Cavadias,1989,1990;Ribeiro-Conéaet al.,1995; Ouarda et al., Igg'1,1998).L'analysedes corrélationscanoniquesest un outil d'analysestatistique multivariéequi permetde décrire la relation de dépendanceexistant entre deux ensemblesde variablesaléatoires.Cetteméthodepermetde déterminerdespairesde combinaisonslinéaires LA RÉGIONALISATION DES QUANTILES DE CRUE 81 de chaqueensemblede variables,que I'on appelledesvariablescanoniques,tellesque la corrélation entre les variablescanoniquesd'une paire est maximisée,et la corrélationentreles variablesde pairesdifférentesestnulle. On obtientainsi un ensemblede variablescanoniques pour les deux ensembles à descoefÊcientsde corrélationcade variablesaléatoiresassociées nonique.Il est alorspossibled'inférer sur les variablescanoniquesd'un ensembleconnaissant les variablescanoniquesde I'autre ensemble.On peut aussicalculerune distanceentredeux variablescanoniquesce qui permetde déterminerdesvoisinageshydrologiques.Lorsqu'onne revientà une I'analysedescorrélationscanoniques disposequed'uneseulevariabledépendante, analysede régressionmultiple. Plusformellement, on noteYT : (Yr,Yr,...,Yr)et X" : (Xt, X2,...,d) respectivement la géomorphoet I'ensembledesvariablescaractérisant l'ensembledesvariableshydrologiques logie et la météorologiedesbassinsversants.On note W le vecteurde variablescanoniques (À1,À2,...,)o) les coefficientsde hydrologiques,V le vecteurde variablesphysiographiques, corrélationcanonique,et  la matricediagonaleforméepar lescoefficientsde corrélationcano'W nique.On supposeque les vecteursdesvariablescanoniques et V suiventune distribution multi-normale.La distributionconditionnellede'W étantdonnéV est alors p-normale.Par par un vecteurcanosemblableset représentés conséquent,desbassinsphysiographiquement niquecorrmun V, serontrépartisautourd'une positionmoyenneÂV dansI'espacecanonique hydrologique.La distanceà la positionmoyenneestconkôléeparla formequadratiquedela dispar une distancede Mahalanobisavecune distributiondu tribution conditionnellereprésentée Khi-deuxà p degrésdeliberté(X|). four lesbassinsnonjaugés,la positionmoyenneestdéterminée,en utilisantuneestimationde ^, par ÂVs où Vs estle vecteurcanoniquephysiographique connu.On peutainsidéfinirle voisinaged'un bassinnon-jaugéà un niveaude confiance(1 - a) par I'ensemblede bassinsdont la position'W dansl'espacecanoniquehydrologiquevérifiela relation : (w - Âvo;"1ro- ÂÂt)-t(\ / - Âv0) S x?*,o (4.10) où I o est la matrice identité d'ordre p. 4.3.3 Les principaux modèlesrégionaux qu'en chacunedesN stationsdejaugeaged'unerégiondonnée,I'on disposed'une Supposons (r1, t2r "..,tnr) de DMA. homogènes et indépendantes sériede tailleniU=l...ff)d'observations I'on disposed'unesérie{X1,X2, ..., Xr) de deplusqu'enchacune decesN stations, Supposons 82 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation du bassinversantde la station.Supp caractéistiques physiographiques etlou climatologiques posonsenfin que I'on désireproduireune estimationd'un quantilede crue Qr en un sitenon jaugé mais où I'on disposenéanmoinsdesp caractéistiques physiographiques etlou climatologiquesdu bassinversantdu site cible. Danscettesituation,deux approchesde modélisation étéutiliséespar leshydrologues: la méthodede I'indice decrueet régionaleont principalement la méthodede la régressionrégionaledesquantiles. 4.3.3.1 La méthodede I'indice de crue ThomasJr. (199a)rapporteque la méthodede I'indice de crue (indexflood) a êtédéveloppée la méthode durantlesannées 40 parlesingénieursdu USGS.Guptaet Waymire(1997)associent à Kinnisonet Colby (1945)alorsque la majoritédesauteursfont plutôt référenceà Dalrymple (1960)pour I'introductionde cetteméthodeen hydrologie.L hypothèsede basede la méthode et suiventla même est que les donnéesaux différentssites d'une région sont indépendantes distributionstatistiqueà un facteurd'échelleprès.La méthodede I'indice de crue comprend les données,c'est-à-direqu'à chaque trois étapes.La premièreétapeconsisteà standardiser en divisantpar un indicateur site i et pour chaqueannéet, les donnéest6p sontstandardisées de tendancecentrale(moyenne,médiane,etc.)1ti (l'indice de crue). À l'étape 2, les données afin d'estimerla distributionrégionale standardisées ri,t/ltt, desdifférentssitessontregroupées Fn(r;Ô) puisle quantilerégionalcorrespondant ÔF : fit(t - llT;ô). fetape 3 consisteà physiographiques,l'indice parrégressionen foncton descaractéristiques estimer,généralernent de crueFs du sitenonjaugé^9où I'on désireproduireuneestimation(le sitecible).Le quantile decruedésiré8ï u"site cible,Sestalorsobtenupar: 8*: QFp' (4.11) et suiventla L hypothèsequeles donnéesaux différentssitesd'unerégion sont indépendantes mêmedistributionstatistiqueà un facteurd'échelleprèséquivautà supposerquele coefficient devariation(CV) et tousles autresratiosde momentsd'ordresupérieursontégauxà chacundes sitesrégionaux.Une aufe hypothèseintrinsèqueà la méthodeestl'égalitédesquantilesdecrue normalisésQi/ tt, en chacundessitesi d'où, pourunevaleurde 7 fixée,le modèlerégional: a?rltt Êo* et (4.t2) le quantilede cruenormalisérégionalmoyenet e6est la où B0 est une constantereprésentant composante d'erreurdu modèle. LA RÉGIONALISATION DES QUANTILES DE CRUE 83 Aux États-Unis,le USGSa d'abordutilisé la méthodede I'indice de crue durantles années quaranteet ce,jusqu'au débutdes annéessoixante.Cependant,les étudesde Dawdy (1961) et de Benson(1962)ont montréquepour plusieursrégionsdesÉtats-Unis,l'hypothèsed'un CV tendà diminuerlorsqueI'aire CV constantne pouvaits'appliquerpuisqueempiriquement, desbassinsversantsaugmente.C'est pourquoile USGSa remplacéla méthodede I'indice de régionaledesquantiles.Mentionnonsqu'à cetteépoque,le terme cruepar cellede la régression des Avec le développement régionn'était utilisé que pour désignerune région géographique. où le CV est constantà l'échelle méthodespermettantla déterminationde régionshomogènes régionale,les critiquesdu USGSquantà la constancedu CV n'avaientplus leur raisond'être. La méthodede I'indice de cruea alorsété réintroduiteen hydrologieet a fait I'objet de nouveauxdéveloppements : nouvellesdistributionsrégionales,utilisationdes momentspondérés par probabilités(réf. AnnexeA) plutôt que desmomentsordinaires,etc.La performancede la méthodedépendcependantde deux facteursimportants: il doit être possible(1) d'identifier desrégionshomogènes et (2) d'assignercoffectementle site nonjaugéà uneréadéquatement la méthodede gion homogène.Guptaet al. (1994)mentionnentà cet effet qu'en abandonnant la régression régionalepourla méthodede I'indice decrue,on setrouveà transférerle problème et non à le résoudre.Fill del'estmation du modèleversla déterminationdesrégionshomogènes et Stedinger(1998)indiquentquantà eux que I'applicationde cetteméthodepour I'estimation en dessitesnonjaugésdemeureproblématiquepuisqu'il estsouventdiffrcile d'assignerun site nonjaugéà unerégionhomogène. 4.3.3.2 La méthode de Ia régressionrégionale des quantiles La méthodede la régressionrégionalepermetd'établir unerelationdirecteentreles quantiles X1, Xz, ..., X, des et météorologiques decrueQr etlesvariablesexplicativesphysiographiques bassinsversants.La méthodea I'avantaged'être simple,rapideet de permettred'utiliser des les débitsde cruedanschacundessitesd'une distributionsde cruedifférentespourreprésenter mêmerégion.De plus, la méthoden'est pas sensibleà I'hétérogénéitéqui peut existerdansla suivante: En pratique,la fonctionayantla formede puissance régionconsidérée. Qr:aox{'xf'.xf' (4.13) utilisée.L'estimationdecettefonction deparamètreseo,Êr, Ê2,... et Bo estlaplus généralement non linéaire estgénéralementeffectuéeen utilisant unetransformatonlogarithmiquede façonà obtenirle modèleclassiquede régressionlinéairemultiplesuivant: los(Qb): go* Érlos(XT)+ gz\oe(xi)+... + Brtos(x|)+.n (4.r4) 84 Modélisationadditiveparpolynômeslocauxpourla régionalisation desquantilesde crue... où É0,0t, 02,...rÉpsontdesparamètres à estimeret e1estla composante d'erreur.En supposant une telle relationrégionale,il est alorspossibled'appliquerla techniquede régressionlinéaire multiple pour l'estimationdesparamètresdu modèlede mêmeque pour le choix desvariables explicatives. Benson(1g62)a utilisé la méthodedesmoindrescarrésordinairespour l'estimationdesparapuisquela variabledépendante mètresde (4.14).Cependant, 8r du modèlede régressionest en réalitéun estimateurayantdéjà fait l'objet d'une estimationlocale,I'hypothèsede variance constanteinhérenteà la méthodedesmoindrescarrésordinairesest peujustifiable.En effet,les estimateurs locauxdesquantiles,étantbaséssur destaillesd'échantillon(de DMA) différentes, à la taille des échantillons.Afin devraientavoir des variances(inversement)proportionnelles de remédierà ce problème,il est alorspossibled'utiliser la méthodedesmoindrescarréspondérés(Stedingeret Tasker,1985,1986)qui tient comptede cesvariancesdifférentes.Un autre problèmeassociéà I'utilisationde la régression régionaleestqu'enraisonde la dépendance spatiale entrelesstations,il estprobablequeleseneursdu modèlesoientcorrélées.La méthodedes moindrescarrésgénéralisésa alors étéproposéepour faire faceà cetteproblématique(Stedinger et Tasker,1985,1986).Enfin,un dernierproblèmerelatif à I'estimationrégionalepar régression des quantilesde crue est la dépendancegénéralementobservéeentre les différentesvariables explicatives.Afin de pallier à ce problèmede collinéarité,Roy et al. (1989)ont proposéI'utilisationde la régression de (4.14). ridgeafin d'estimerdemanièreplusappropriéeles paramètres Mentionnonsenfinquel'équation4.14 supposeun termed'erreurmultiplicatif en 4.13.Nguyen et Pandey(1994)ont utiliséun algorithmed'optmisationnon-linéaireafind'estimerdirectement 4.13 sousI'hypothèsed'un termed'erreuradditif. 4.3.3.3 Les principaux modèlesalternatifs Au coursdesdernièresannées,de nouveauxmodèlesrégionauxsont apparusdansla littérature Parexemple,réalisantquel'hypoafin de comblercertainesdeslacunesde leursprédécesseurs. avecles relationsconnuesenffe thèsede basede la méthodedeI'indice decrueestinconsistante le CV et I'aire desbassinsversants,Fill et Stedinger(1998)indiquentquelesméthodesd'estimaobservéedesquantiles.decrue tion régionaledevraientfaire intervenir davantagela dépendance physiographiques importantes.Ils avecI'aire desbassinsversantset les auffescaractéristiques par proposentl'utilisation de la méthodede la régressiondesquantilesnormalisés,développée Fill (1994),qui consisteà combinerles modèlesde I'indice decrueet de la régressionrégionale desquantilesafin d'obtenirun modèledont la formeest : LA RÉGIONALISATIONDES QUANTILES DE CRUE L"s(T): 0o* Ê$i+ Êzxâ + ...+ Box|+ el 85 (4.1s) Cemodèlepermetd'appliquerla notiondescalingpropreà la rnéthodedeI'indice decrueendes régionaledu quantilenormalisé pasnécessairement I'hypothèsede constance sitesnerespectant (ou CV) puisquecelui-ci se trouvemodéliséà l'échelle régionalepar régressionlinéaire.On dela méthodedeI'indice decrue peutremarquerquecetteapprocheconstitueunegénéralisation puisqu'enprésence I'estimationdevraitconduireà Êt: 9z: ... : 0p:0. d'un CV constant, Considérantqu'il n'existe aucunejustificationpleysiqueà la sélectiond'une relationlinéaire multiple entrele logarithmedes quantilesde crue Qr et les différentesvariablesphysiographiqueset climatologiquesdesbassinsversants,Gingraset al. (1995)proposentplutôt, pour la modélisationrégionaledesquantilesde crue,I'utilisation de la régressionnon paramétrique suivante: log(Qh): r.r(Xl,Xâ,...,Xi) + et (4.16) où s est une fonction (courbeou surface)de régressionlisse (smooth)de forme non spécifiée de lissageeteilacomposanted'erreur.Gingraset al. aprioride dimensionp,.l estle paramètre (1995)ont estiméle modèlede l'équation4.l6 à I'aide du lissagepar Noyaupour desfonctions derégressionde dimensionp : I et p - l. L'analyserégionaleestimplicitementou explicitementbaséesur la présenced'une distribution de paramètresrégionauxO, d'où la relation de probabilitédes cruesannuellesr' dépendante (Rossiet Villani, 1994a): Q r : F - ' ( 1- L l r ; o ) (4.r7) de crue(paramètesde la distribution,mooù O estun vecteurde longueurp decaractéristiques ments,ratiosdemoments,L-moments,etc.).Pourprocéderà I'estimationdeQr, denombreuses étudesrégionales(e.g.Rossiet Villani (1994b)en ltalie, Mimikou (1990)en Grèce)consistent à utiliser un modèlede transfert,par exemplede régressionrégionale,afin d'estimerchacun desparamètres de O au site cible. Le modèlede cetteapprochede régionalisationest doncreprésentépar un ensemblede p relationsrégionalesoù chacunea pour objectif de transférerun paramètreparticulierde O au sitecible. 86 Modélisationadditivepar polynômeslocaux pour la régionalisationdesquantilesde crue ... (e.g. Yevyevich(1974),Potter (1987),NRC (1988), recommandations Suite aux nombreuses (1995))seretrouvantdansla littératureà I'effet que l'on devraitdévelopBobéeet Rasmussen per davantageles approchesd'analysede la distributiondescruesbaséessur les phénomènes purementstatistiques descruesplutôtquelesapproches responsables hydrologiques(physiques) Roy (1993)a développéla méthodeHYBRIIDS,uneméthodecombinantles ou mathématiques, statistqueet déterministe(physique)baséesurI'estimationstatistiquede donnéessiapproches muléesà partir d'un modèledéterministede bassinversant.Guptaet al. (1994)ont quantà eux régionaledescruesbaséesurlesnotionsd'invariance développéunethéoriephysique-statistique d'échellesimpleet multiple. La théoriede I'invarianced'échellesimple supposela présenced'un CV constantet est donc éffoitementreliée à la méthodede I'indice de crue.Pour les théoriesd'invarianced'échelle proposéespar Gupta et al. (1994), seulel'aire des bassinsversants(A) est utiliséecomme facteurd'échelle(= indicede crue).Il estpossiblede montrer(Guptaet al., L994)quelorsque alors(1) la relationentrelog(A) et d'invarianced'échellesimplesontrespectées leshypothèses log(Qr) estlinéaireet (2) la pentede cetterelationne dépendpasde T. En utilisantla notation de I'aire sur les quantilesde crue, (1) et (2) Qr@) pour insistersur la notion de dépendance peuventsetraduirepar: Qr(A) - c(T)Ao (4.18) où c(7) est un coefficientqui dépendde la périodede retourT alorsque I'exposantde miseà il estalorspossible ne sontpasrespectées, l'échelle0 n'en dépendpas.Lorsqueceshypothèses d'utiliser le modèled'invarianced'échellemultiple : Qr@) :61714eQ) (4.re) pourlequelI'exposantdemiseà l'échelled dépenddeT. Avecle modèled'invarianced'échelle à la multiple,le CV varieen fonctionde l'aire desbassinsversantsselonla relationreprésentée figure4.1. On peutremarquerla présenced'une relationdifférentepour les petits 1æ< 50km2) et les grandsbassinsversants.Guptaet Dawdy (1995)ont étudiéles variationsrégionalesde l'exposantde miseà l'échelle0 à I'aide deséquationsde régressionde trois Étatsaméricains. Leursconclusionssuggèrentquepour les régionsoù les cruessontcauséesprincipalementpar |a fonte de neige,I'hypothèsed'invarianced'échellesimplesemblevérifiéealorsquepour les cruescauséesdavantagepar des épisodesde précipitations,le modèled'invarianced'échelle multipledoit plutôt êtreemployé. LA RÉGIONALISATIONDES QUANTILES DE CRUE g o 87 I I I I I Ac DninageArcaA ._..-€ Flc. 4.1: Variationrégionaledu CV en fonctionde I'aire (A) desbassinsversants(tiré de Gupta et al., 1994) Modélisationadditivepar polynômeslocaux pour la régionalisationdesquantilesde crue ... 5. APPLICATIONSET COMPARAISON Dans ce chapitre,nousappliquonset évaluonsI'approchede modélisationadditivepar polynômeslocauxà trois régionshydrologiquesdesÉtats-Unis.Nous débutonsce chapite par une description,dansla section5.1, desdiversesdonnéeset basesde donnéesutiliséespour la mode la méthodologie délisation.Nouseffectuonspar la suite,dansla section5.2,uneprésentation de I'approchede modélisationpar polynômeslocaux,de même d'évaluationet decomparaison Cetteméthodoloquedesdiversesapproches de modélisationretenuespourfin de comparaison. auxrégionsdu Texas,de la gie estensuiteappliquée,dansles sections5.3 à 5.5,respectivement et deI'Arkansas.Nousapportonsfinalement,dansla section5.6,certaines Nouvelle-Angleterre conclusionssurlesrésultatsobtenuslors de cesapplications. 5.L Présentationdesdonnées Aux États-Unis,la gestiondu réseaude mesureshydrologiquesestassuréepar le UnitedStates présentéau chapitre1, impliquédansle déveGeologicalSurvey(USGS),le mêmeorganisme, loppementdes procéduresde régionalisationpour chacundes É,tatsaméricains.Au début des annéesquatre-vingtdix, le USGS a regroupédiversesbasesde donnéesrégionalesde manière à constituerunebasede donnéesnationaleafin de permettrel'étudedesconditionsde l'écoulement suiteà desfluctuationsde conditionsclimatiques.Cettebasede donnée,appeléeHydrodedébitsprovenantde 1659sites ClimaticDataNetwork(HCDN),estconstituéed'observations à traversles États-Uniset sesTerritoires(Slacket al., 1993).Le choix desdiverssitesde même que desdiversesobservations de débit a été effectuéde manièrerigoureuseen respectantdes critèresprécissur I'exactitudedes mesureset sur les conditionsnaturellesde l'écoulement: aucunesériede débit n'a fait l'objet de quelquereconstructionque ce soit (pour plus de décontenirau tails, voir Slacket Landwehr(1992)).Les sitesretenusdevaientaussigénéralement À chacundessitesde la basede donnéesestassociéun vecteur moins20 annéesd'observations. physiographiques tels quela superficiedu bassinversant, et climatologiques de caractéristiques l'élévationmoyennedu bassin,la penteet la longueurdu coursd'eauprincipalet la précipitation moyenneannuellesurvenantsur le bassinversant. Dansle cadredu projet HCDN, les États-Unisont été divisésen 2l grandesrégionshydrologiques,présentées dansla figure 5.1. Afin de déterminerdesstationspropicesà l'étude,nous avonseffectué,danschacunede cesrégions,uneanalysepréliminairede la log-linéaritéexistant 90 Modélisationadditiveparpolynômeslocauxpour la régionalisation desquantilesde crue... Ftc. 5.1: Les régionshydrologiquesAméricainesdu HCDN entrele quantilede crue Qso,le quantileétudiélors desétudesde régressionpar région d'influencede Taskeret Slade(1994)et deTaskeret al. (1996),et la superficiedesbassinsversants, la variableexplicativeapparaissant le plusfréquemmentet le plus significativementlors d'études de régressiondesquantiles(Ienningset al., 1994\.Le tableau5.1 montreles résultatsobtenus par I'applicationdu testF présentédansla section3.4.3.Nousavonsindiquéen caractèregras les régionsoù I'on observe,selonce testF, une réductionsignificativeau niveaude confiance a : 0,05, c'est-à-direpour CI(F) < 0,05 (cf. 3.4.3),de la variancede I'erreuren utilisantla modélisationadditiveplutôt qu'un modèleparamétriquelog-linéaire.Pourfins d'analyse,nous avonschoiside retenirunerégionoù le testest significatifet unerégionoù il ne I'est pas.Nous avonsainsichoisi,commerégionoù la modélisationadditiveestsusceptible deproduiredebons résultats,la régiontZ,larégion du Texaset du Golfe du Mexique.Nousavonsanêténotrechoix sur la région 12 puisquecetterégionestcomposéeprincipalementde sitesdu Texas,la région étudiéepar Taskeret Slade(1994).Quantà I'autre région,nousavonschoisi la région01, la régionde la Nouvelle-Angleterre, en raisonde saproximitédu Québec. Une caractéristiquepropreaux diversesrégionsdu HCDN est la faible densitéspatialedesstations,c'est-à-direpar le fait même,la présenced'une faible corrélationspatialeentreles mesuresde débitsdes sitesde la région.Afin de vérifier I'effet de la corrélationspatialesur les résultatsobtenuspar la modélisationadditive,nousavonsaussivoulu appliquerI'approchede par un plus fort niveaude corrélationspatiale. modélisationadditiveà une régioncaractérisée 91 APPLICATIONSET COMPARAISON TLn. 5.1: Les régionshydrologiquesdu HCDN : Analysepréliminaire de la log-linéarité Nombrede stations 7T NewEngland L67 Mid-Atlantic 193 SouthAtlantic-Gulf 57 GreatLakes r"08 Ohio 44 Tbnnessee 127 UpperMississippi 23 Lower Mississippi 39 Souris-Red-Rainy r44 Missouri 87 Arkansas-White-Red 90 Texas-Gulf 22 Rio Grande 44 Upper Colorado L7 Inwer Colorado 32 GreatBasin L9l, Pacifi.cNorthwest 115 California 31 Alnska 42 Hawaii 15 Caribbean Nom de la région 01 a2 03 04 05 06 07 08 09 10 11 L2 13 14 15 16 t7 18 t9 20 2l a, 0,289 0,042 0,011 0,749 0,004 0,23r 0,060 0,763 0,247 0,017 0,239 0$17 0,081 a329 0,056 0,289 0,004 0,716 0,017 0,953 0,123 Pour ce faire, nousavonsutilisé les mêmesdonnéesque Taskeret al. (1996),c'est-à-direles donnéesprovenantde 204 stationsde I'Arkansas.Les donnéesdu Texas(région 12) et de la (région01) du HCDN, disponiblessurinternetvia FTP à I'adresseinternet Nouvelle-Angleterre ftp ://ftprvares.er.usgs.govlhcdng2l,ont été reproduitesrespectivementaux annexesB et C. dansHodgeet Tasker(1995),seretrouvent Les donnéesde I'Arkansas,publiéesintégralement quantà ellesà I'annexeD. 5.2 La méthodologied'évaluation et de comparaison L objectifprincipalde cetterechercheestd'évaluerI'utilisationde la modélisationadditivepar polynômeslocaux cornmeméthodealternatived'estimationrégionaledes débitsde crue Qa en dessitesnonjaugés.Afin d'atteindrecet objectif, nousavonschoisi d'évaluerles qualités prédictives de cetteapprocheet de la comparerà I'approchede la régressionrégionalepar desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation par un modèlelogJinéaire. régiond'influencede mêmequ'à l'approcheclassiquede régression par Cestrois approchesd'estimationrégionaledesdébitsde crueQ7 peuventêtrereprésentées le modèlede typeboîtenoiresuivant: ...,loe(&) --* log(X1),los(X2), I --+ log(Qî) (s.1) phyen entréele logarithmedécimalde variables où log(X1),log(Xz),...,log(&) représentent à un site particulieret prédictivesXr,Xz,...,Xa associées / climatologiques siographiques du modèle,le logarithmedécimaldu log(8r) représentela réponse(ou variabledépendante) quantilede crue 8r du siteen question. 5.2.1 Les simulations vs les procéduresde séparation de données Il est peuventêtreutiliséespour la comparaison. De manièregénérale,deuxgrandesapproches d'abordpossibled'effectuerdessimulationsde type MonteCarloà partir de relationsfonctionconnues.Gingraset al. (1995)ont utilisé par la boîtenoire)paramétriques nelles(représentées cegenred'approcheafind'évaluerl'utilisationde la régressionparnoyaupourla régionalisation qu'ils et exponentielles desquantilesde crue.Ils ont simulédesrelationslinéaires,quadratiques et non paramétriques. ont par la suiteestimeesà I'aide de modèlesde régressionpararnétriques Cettefaçon de faire est cependantdiscutablepuisqu'enpratique,les véritablesrelationsentre lesvariablesde réponseet les variablesexplicatvessontinconnues.En ce sens,nousproposons plutôtI'utilisationdeprocéduresde séparationde données(datasplittingproceduresou.qplirsampleexpertments)qui consistentà séparerles observationsdisponiblesen un échantillon d'estimation servantà la calibrationdu modèleet en un échantillon de prédiction servantà la validationdu modèle,c'est-à-direà l'évaluationde sespropriétésprédictives. Lesprocéduresde séparationde données,aussiappeléestechniquesde rééchantillonnage,simulentla collectionde nouvellesdonnées(ici, de nouveauxsites)afin de vérifier les habilités prédictivesdes modèles.En pratique,il n'existepasde règlesgénéralessur la façon de séparer les données.Une techniquede rééchantillonnagecourammentutilisée, appeléeiackknife (sites),rzfois la pro(Quenouille,1956),consisteà répéter,lorsqu'ondisposede n observations I1 s'agit cédurede séparationconsistantà laisserde côté tour à tour chacunedesobservations. et deséchantillons alorsd'utiliser deséchantillonsd'estimationcomposésde n - 1 observations Nousutiliseronscetteapprochepour les trois de validationcomposésd'une seuleobservation. régionssousétude. APPLICATIONSET COMPARAISON Mentionnonsque pour la comparaisonde procéduresde régressionparamétriques à desprocéduresde régressionnon paramétriques, sur la basedeserreursde prédictionsobtenuesdans l'échantillonde prédiction,le choix de la taille de l'échantillonpeut jouer un rôle important sur l'évaluationcomparativedesdifférentesapproches. En effet, puisquerappelons-le, les estimateursparamétriques convergentplusrapidement(parexemple,en moyennequadratique) que les estimateurs non pararnétriques versla véritablefonctionde régression,une taille d'échantillon trop petitedevraitavoir tendanceà désavantager I'approchenon paramétrique. En ce sens, la procéduredejaclcknifeconstitueuneapprochede comparaisondesplus objectivespuisqu'il s'agit de la procédureemployantla plusgrandetaille possiblepour l'échantillond'estimation. 5.2.2 Les critères de comparaison Les procéduresde séparationde donnéespermettentde vérifier les capacitésprédictivesdesmodèles.Il suffit deprocéderà une analysedesprédictionseffectuéespar les différentsmodèles.Il estd'abordpossibled'effectuerun examenvisuelde la distributiondeserreurs(absolues, relatives,quadratiques, etc.)de prédictionsafin d'en mesurer,par exemple,la dispersion,à I'aidede graphiquesen boîte(box-plot).Il estcependant plus courantd'effectuerune moyennedesdifférenteserreursde prédictions.Dansce document,nousavonsretenucommemesured'évaluation descapacitésprédictivesdesmodèles,la racine canêedeserreursquadratiquesmoyennes (RMSE) (pour root meansquareenor) de prédiction, calculéedansl'espacelogarithmique, RMSEPREO: , V (s.2) I€PRED de mêmequela déviationrelativemoyenne(DRM), expriméeen pourcentage, desprédictions, =tlNp DRMPRED I lQr,r-Qr,il i€pRED (5.3) Y.I 'r où les sommationssonteffectuéessur les sitesde l'échantillonde prédiction(PRED),Qr,l est I'estimateurdu quantilede crue(depériodederetour?) du site i basésur lesdonnéesde DMA du siteen question I'estimationrégionale,selonle modèlederégression retenu, , Qy,6représente du quantilede crueau sitei et No estle nombrede sitesdansl'échantillon(ou les échantillons) de prédiction. 5.2.3 La calibration des différents modèles La modélisationnon paramétriquesedistinguede I'approcheparamétriqueprincipalementpar deux caractéristiques importantes: (1) le tempsde calcul nécessaireà I'estimationet (2) le 94 Modélisationadditivepar polynômeslocauxpour la régionalisation desquantilesde crue... nécessité d'avoir en notreposd'obtenirun aperçuvisueldesestimations.Il estdoncnécessaire sessiondesoutils informatiquesefÊcaces. Le logiciel S-Plusestun de ceslogicielsoffrantune interfacegraphiqueintéressante efficacesd'estimation de mêmequedesprocéduresstatistiques par lissageet par modélisationadditive.La calibrationdesdifférentsmodèlesretenuspour la comparaison a doncétéeffectuéeavecle logiciel S-Plus.Mentionnonsqu'ici, la calibrationdes différentsmodèleconsisteà: 1. choisirles variablesprédictivesà incluredansle modèle, 2. choisirle niveaude lissage(pourlesmodèlesnon paramétriques), et 3. procéderà I'estimationdesdifférentsmodèles. Nousprésentons, dansce qui suit, les différentesapprochesde calibrationretenues.Dansbien descas,le choix de I'approchede calibrationreposesur les particularitéset limites desdifférentesprocédures disponiblesdansle logicielS-Plus. 5.2.3.1 Le modèIede régressionlog-linéaireet de régressionpar région d'influence parrégiond'influence, Pourla calibrationdesmodèlesderégression log-linéaireet derégression nousutilisonsle fait que cesmodèlesappartiennent à la famille desmodèlesde régressionlo(Loader,t999). Le modèlederégression par régiond'incalepolynomialemultidimensionnelle parun modèlede régressionlocalepolynomialede degré1.Le fluencepeutainsiêtrereprésenté quantà lui qu'un casparticulierde modèlede modèlede régressionlog-linéairene représente régressionlocale: il s'agit d'utiliser unefonctionnoyaurectangulaireet de choisirle paramètre delargeurde fenêtrede manièreà ce quetoutesles observationsappartiennentà celle-ci. Rappelonsenfinquela seuledistinctionpouvantêtreapportéeentrele modèleclassiquede régression localeet le modèlede régressionparrégiond'influenceestquece dernierpermetqu'en chacun despointsestimés,I'estimationde la fonctionde régressionpuisseêtrebaséesur desvariables (ou ensemblesde variables)explicativesdifférentesalors qu'avecle modèlede régressionlocale,unefois choisies,les variablesexplicativessontobligatoirementtoutesutiliséesen chacun despoints(sites)où I'on désireeffectueruneestimation. En régressionrégionaledes quantilesde crue, il est bien connu (Stedingeret Tasker,1985, estplusreprésentatif de la pro1986)qu'un modèlede moindrescarréspondérésou généralisés dela variance blématiqueréellede I'estimationrégionaledesquantilesenraisonrespectivement inégaledesestimateurslocauxQ1,a@asés sur destaillesd'échantillondifférentes)et de la cor* voisins.Le rélationspatialeannuellepouvantexisterentredesDMA de sitesgéographiquement modèlederégressionlocalenepermetI'utilisationqued'uneapprocheparticulièred'estimation APPLICATIONSET COMPARAISON 95 a priori de la pondération par moindrescarréspondérés.Llestimationrequiertuneconnaissance (chacundessites).Nousutiliseronsune telle approcheen accordéeà chacunedesobservations pondérantchacundessitesselonla taille deséchantillonsà cessites. En S-Plus,deux procéduresde régressionlocalemultidimensionnelle(et unidimensionnelle) dansle logiciel et la procédure sontdisponibles: la procédureloess,incluseautomatiquement locfit, un moduleexternede Clive Loader,I'auteurd'un livre parurécemmentsur la régression locale (e.g.Loader(1999)).La procédureloessestplus effrcaceau niveaudu tempsde calcul desestimationsmaisne permetpasde choisirunefonctionde pondérationautrequela fonction triplementcubiquealorsque la procédurelocfit permetI'utilisation de chacunedesfonctions dansle tableau2.1. Puisquenous avons,dansune certaine de pondération(noyau)présentées mesure,commeobjectifdereproduireles résultatsde Taskeret Slade(1994)et deTaskeret al. (1996)qui utilisentunefonctionde pondérationrectangulaire, nousavonsdoncchoisid'utiliser la procédurelocfit. Il est en effet possible,en utilisantI'opLa procédurelocfit possèdeune option intéressante. (evaluation=cross), d'effectuer(très rapidement)une tion d'estimationpar validation-croisée estimationenchacundesn sitesen laissantde côtéI'informationdu siteenquestionet enn'utilisant queI'informationprovenantdesn - L autressites.Cetteoption permetainside calculer deséquations5.2 et5.3.Nousutiliseronstout particulièrapidementlescritèresde comparaison rementle RMSE prédictifde l'équation5.2 tant pour choisirles variablesprédictivesà inclure dans les différentsmodèlesque pour déterminerle nombreoptimal de sites à inclure dansla régiond'influence. 5.2.3.2 La modélisation additive par polynômeslocaux Avec S-Plus,le module gam (generalizedadditive models)permet la modélisationadditive. L'estimations'effectueà I'aide de I'algorithmede baclfixing (cf. 3.3.1).Nous employonsle lisseurparpolynômeslocauxdu moduleloctt. Mentionnonsquepardéfaut,pourun échantillon de taille n, la procédurelocfit n'effectuepasune estimationen chacundesn points.En effet, de manièreà diminuer le temps de calcul, la procédureeffectueplutôt une estimationen un de points rz1 1 n et procèdepar la suitepar interpolationpour produireles sous-ensemble auffesestimations.Il en résulte alors des matricesde lissagenon pas de dimensionn mais plutôt de dimensioî ?21.En procédantainsi, on se houve aussià faire une approximationdu nombrez de paramètres effectifs des lisseurs(puisquey est fontion des matricesde lissage (cf.3.3.2.3)). La procédurelocfit permetcependant,en utilisant I'option (evaluation=data), 96 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpourla régionalisation d'effectuerle lissageen chacundesn points.Nous utilisonscetteoption pour la calibration du modèle.Parcontre,pourla validation,il estimpossibled'utilisercetteoptionpuisqu'il n'est initiales.Nousutilisons alorspaspossibled'effectuerdesprédictionsen dehorsdesobservations doncI'option d'évaluationpar défautpourla validation. En ce qui concernela calibrationdu modèleadditif,nousutilisonsla procédurede sélectionpasà la section3.4.2.Commecritèresde sélection,nousavonschoisi d'évaluerles à-pasprésentée résultatsobtenuspar le critèredevalidationcroiséede l'équation3.26pourdesvaleursdec : 1, ce qui revientà 1'équation3.25,etde c : 2,lavaleur jugéeappropriéepar plusieursauteurs(cf. 3.4.I). En S-Plus,une procédurede sélectionpas-à-pasest disponible(step.gam).Le critère utilisé par cetteprocédureest le critèred'AIC de l'équation3.27.Cependant,puisqueS-Plus il nousa étépossibled'effectuerune modification estavanttout un langagede programmation, mineure(une seuleligne de code a été,changêe)à la procédurestep.gamafin de permettre l'utilisation descritèresde validationcroiséeretenus. 5.3 Application à Ia région du Texas Afin de pouvoir appliquerles diversesapprochesde régionalisationdes quantilesde crue retenuespour fin de comparaison,nous devonsdansun premier tempsprocéderà I'estimation desquantilesde crue Qy auxdifférentssitesjaugésrégionaux.Pource faire, nousavonschoisi d'utiliser la procédured'estimationlocaleGEV/PWM, décriteà I'annexeA. Nous avonscalculé les quantilesde crueQz, Qs, Qn, Qzset Qsoauxdifférentssitesjaugés.Cesrésultatssont présentésà I'annexeB (cf. tab.8.1). La modélisationrégionalenécessiteaussila présencede Le tableau5.2 présentelesvariablesexplicativesretenues variablesexplicatives(ou prédictives). dansles diverses pour la régiondu Texas.I1 s'agit de variablesque l'on retrouvegénéralement équationsderégressionproduitesparle USGS.Nousavonsd'ailleursindiquéenfteparenthèses, autableauS.Z,lenombred'États(sur51) où cesvariablesétaientjugéessignificatives(Jennings et al., 1994).Mentionnonsenfinquela régiondu Texas,i.e. la région 12 du USGS,comporte 90 sitesmais qu'en raisondu manquede certainesvariablesexplicativesen plusieurssites,la à I'annexeB. modélisationn'a étéeffectuéequ'avecles69 sitesprésentés APPLICATIONSET COMPARAISON 97 Tls. 5.2: Descriptiondesvariablesphysiographiqueset climatologiques Superficie (Area) Symbole Définition A (sr) Surfacede drainagedu bassinversant Pentedu coursd'eauprincipal,en m./km,mesurée Pente (SIope) entre le 10ième et le 85ième percentile de la longueurdu coursd'eau Précipitationmoyenneannuelle, en cm, Précipitation (Precipitation) n (EIevatîon) Longueur (IznSth) survenantsurle bassinversant EL (13) ion moyennedu bassin versant,en m de la mer au dessusdu niveau Longuéuidu coursd'eauprincipal,en km, mesurée le long du canalà partir deslimites du bassin versantetjusqu'àla stationdejaugeage 5.3.1. La modélisation par régressionlog'linéaire logJinéaireétudiéest: Le modèlede régression log(8r) : 0o* Baros(A)+ És loe(S) + Êelog(P)* /er.ros(EL) + BTIos(L) (5.4) Rappelonsquenousavonschoisid'utiliserle critèredeRMSEde l'équation5.2afindedéterminer les variablesexplicativesà incluredansle modèle.La procédureutiliséeconsisteà calculer le critèrede RMSE pourdifférentsmodèles,i.e. avecdesvariablesexplicativesdifférentes,et à retenir|e meilleurdecesmodèles.Puisquela variableexplicativeA, I'aire du bassinversant,est régiogénéralement la variableexplicativela plus significativedansles équationsde régression naleet qu'elle seretrouvedansles équationsde régressionde toutesles régionsdesÉtats-Unis (cf. tab. 5.2), nousavonschoisi de l'inclure par défautdansles différentsmodèles.En procéau tableau5.3, pour lesquelson doit dantainsi,il ne resteque 16 modèlesdifférents,présentés le RMSEdes calculerle RMSE.La légendedu tableau5.3 permetde visualisergraphiquement différentsmodèlesà une,deux, trois, quatreou cinq variablesexplicatives.Par exemple,à la figure 5.2, onvoit quepour la modélisationdu quantileQuo,le modèlenuméro1 à 4 variables explicatives,c'est-à-dire,d'aprèsla légende,le modèlecomposédesvariablesA,S,Pet EL est aux périodesde retour(T=2,5,14et optimal au sensdu RMSE.Les graphiquescorrespondant auxfigures8.1, 8.2, 8.3 et 8.4 de I'annexeB. Enfin,le tableau 25) seretrouventrespectivement desdifférentsmodèlesoptimauxdéduitsdesfigures8.1 5.4 présenteles valeursdesparamètres les (T=2),8.2 (T=5),8.3 (?=10),8.4 (T=25)et 5.2 (1=50).Alors quele tableau5.5présente et prédictivesde cesmodèles. mesuresde l'évaluationdesqualitésdescriptives desquantilesde crue ". Modélisationadditivepar polynômeslocauxpourla régionalisation ul AI d {.9 o a 5 N Ë o o Ë .!l o E O I P o (t) = É ôl N d 3 Nombredevariablesexplicatives Frc. 5.2: RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Qsg (voir la légendeau tableau5.3) Tnn. 5.3: Légendedesdifférents modèlesde régnession Numéro du modèle I I A Nombre de variables explicatives 4 3 2 A,S,P,EL A,S,REL,L A,S,P A,S A,S,P,L A,S,EL A,P A,S,EL,L A,S,L A,EL A,P,EL,L A,P,EL A,L A,P,L A,EL,L 2 3 4 5 6 Tln. 5.4: Les paramètresestimésdeséquationsde régression T 9o 9t 2 0,053 0,548 5 0,862 0,531 10 1,265 0,535 25 r,675 0,594 50 2,013 0,597 12 ^/S 0,294 0,321 0,340 0,317 0,352 9p L,339 1,051 0,919 0,817 0,697 PF.,T, B -0,263 0,262 -0,236 0,21r -0,230 o,r72 -0,194 -0,205 99 APPLICATIONSET COMPARAISON Tln. 5.5: RMSE et DRM desmodèlesde régressionlog-linéaire DRM (7o) Quantile modélisé Qz Qs 8to 33,r 0 ,1 61 0,r73 Qso 33,7 36,1 42,2 47,7 5.3.2 Lamodélisation par régressionpar région d'influence par régiond'influenceétudiéest: Le modèlede régression log(8r) :,9r,w(log(A), log(s),log(P),log(EL),log(r)) (5.5) de lissagek etW. Plusprécisément, estun lisseurde surface(ef.2.2.8)deparamètres où ^9s,qr à de I'approchedu lissagepar une droite mobile,présentée ,S75,yz constitueune généralisation au sitei (i.e.au point xi : (Ai,Si,Pn,ELd,Li)),en la section2.2.4,etpermetI'estimation, ajustantune droitede régressionmultiple en ce point à I'aide des* plus prochessitesvoisins, selonla distancede "Mahalanobis"del'équation2.V4,etenutilisantunefonctiondepondération (fonctionnoyau)I4l. desobservations Tlr. 5.6: RMSE prédictif desfonctions noyau rectangulaire et triplement cubique 0,181 La procédurede calibrationdu modèlede l'équation5.5 permetde déterminer(1) les variables prédictivesà incluredansle modèleet (2) le nombreoptimal lc de stationsdansla régiond'influenceet ce,pourunefonctionde pondératianWdonnée.Nousavonsdoncvoulu,dansun premier temps,comparerI'utilisationdela fonctiondepondérationffiplementcubique(cf. tab.2.1), 100 desquantilesde crue ... Modélisationadditiveparpolynômeslocauxpour la régionalisation qui estla fonctionutiliséepar la procédureloessde S-Plus,à I'utilisationde la fonctionde ponal.(1996).Letableau dérationrectangulaireemployéeparTaskeretSlade(1994)etparTaskeret 5.6 présenteles résultatsdu RMSE prédictifobtenusà I'aide de cesdeuxfonctionsnoyau.En raisonde l'avantagede la fonctionde pondérationtriplementcubique,suggérépar les résultats du tableau5.6, nousavonsretenuI'emploi de cettefonctionde pondérationpour la calibration par régiond'influencede ce chapitre. desdifférentsmodèlesderégression parrégiond'influences'effectueenminimisantle critère La calibrationdu modèlederégression à I'aidedela procédurelocfit (cf. 5.2.3.1).La figure5.3illustre, deRMSEpar validation-croisée pour la modélisationdu quantileQso,les valeursdu critèrede RMSE pour les différentesvaleurs possiblesdu paramètreft (le nombrede stations)et ce, pour des modèlesà une, deux, trois, quatreet cinq variablesexplicatives.Le choix desvariablesexplicativesde cesdifférents modèlespour représenterQsoa été effectuéà I'aide desrésultatsde la régressionlog-linéaire de la tgure 5.2 où nouspouvonsobserver,à I'aide de la légendedu tableau5.3, quele meilleur modèleà deuxvariablesexplicativescontientlesvariablesA et P (numéro2), le meilleurmodèle à trois variablescontientles variablesA,S et EL (numéro2) etle meilleurmodèleà quatrevariablescontientles variablesA,S,Pet EL (numéro1). Nousavonsdoncretenucesmodèlespour le calculdesRMSE de la figure5.3.On constate,à la ûgure5.3,quele meilleurmodèlepossède 5 variablesexplicativeset que le nombreoptimal de stationsdansla région d'influence pour ce modèleest ,k : 60. La mêmedémarchea étéeffectuéepour représenterles débitsde périodede retourT=2,5,1.0et25. Les graphiquesdu RMSE pour cesquantilessontprésentésaux figures 8.5 (T=2),8.6 (1=5),8.7 (?=10) et 8.8 (T=25)de I'annexeB. Le tableau5.7 déctitlesdifférentsmodèlescalibrés.Mentionnonsqueles valeursdu nombreoptimalde stationsdu tableau 5.7ont étéobtenuesà I'aide dela procédurelocfit et non en visualisantlesdifférentsgraphiques du RMSE.Le tableau5.8 présentel'évaluationdesqualitésprédictivesde cesmodèlescalibrés. Au chapitre1, nous avonsmentionnéque bien que I'approchede la régressionrégionalepar elle impliqueune grandepart de subjectivitépour le choix régiond'influencesoit intéressante, du nombrek de stationsà inclure dansla région d'influence.Pourla modélisationde Qsoau leur motivation.Pour Texas,Taskeret Slade(1994)ont utilisék=50 en n'indiquantaucunement |a modélisationde Qsoen Arkansas,Thskeret al. (1996)motiventleur choix de Ic=34pat : "For this methodto work, thevalueof k shouldbe largeenoughto haveenough degreesof freedomin the regressionto estimatetwo or threeparameters.For this study,k waschosento be 34." 101 APPLICATIONSET COMPARAISON 111111ttt.tr.,rrrr,t uu 3 r " ? r"-2 9 ssgs -l3s (t .o .9. (\l 9 c i o + 8.l2gi .g 222 g2z .9 (6 p E o = 'a c t 4 g 44 .9 t'r, 3 3g^^22_ 55. -555 2 ,'3âtt Ûo3 Z lc g " tït?eZr|â2222222222 3 3 -"3333gEbAggsssss ct ,i 3 2 4 qS ctr = : É. 144 o oo o oo 4 44 + 4 4 4 4 4 40 4 u o u l a6 oo o ^ a 4 c S s s ss s 5 50 Nombrede stations dans la régbn dinfluenee Ftc. 5.3: Nombre optimal de stationsdansla région d'influence pour Q56 Tl,n. 5.?: Les modèles calibrés de régression par région d'influence T 2 5 10 25 50 de stations /c A,S,P,EL A,P,S,EL,L A,P,S,EL,L A,RS,EL,L A,P,S,EL,L 62 64 62 60 60 Tan. 5.8: RMSE et DRM desmodèlesde régressionpar région d'influence 0,135 102 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... Puisquenotre approchede calibrationpermetde choisir k de manièreobjective et optimafe (au sensdu RMSEprédictif;, nousavonsvoulu quantifierI'améliorationpouvantêtreapportée par notre approchede calibration.Nous avonsdonc comparéles valeursdu RMSE prédictif obtenuesavecnotrenombreoptimaldestations/c*à cellesobtenuesen utilisantk=34,1enombre par Taskeret al. (1996)et k=50, employépar Taskeret Slade de stationschoisisubjectivement (1994).Le tableau5.9 présentecesrésultats.On peutconstaterune améliorationmoyennedes capacitésprédictivesde I'ordre de 6,3Vopour k=50 etde I6,8Vopour k=34. Tn s. 5.9: RMSE prédictif pour différentesvaleurs de ,k Quantile Nombre de stationsdansla région d'influence modélisé Amélioration ( k. /50 3,4 6,0 Qs Qn Qzs Qso 6,5 7,5 Moyenne 8,2 6,3 5.3.3 La modélisationadditivepar polynômeslocaux ici lesrésultatsde la calibrationdu modèleadditif de polynômeslocaux: Nousprésentons (log(r)) (5.6) (log(El)) ..-,5.r0 (log(P)) a ,S.rn (log(s)) 4 ,S.r, los(Qr) : ,5À,(log(,a))'1 ^9.r, = (hi,fu,Wù. Rappelonsque la calibrationde ce modèle de lissageÀr(r=r...s) de paramètres optimalÀ* : (Ài,4, )â, À;,4) à I'aide de le vecteurde paramètres consisteà rechercher la procédurede sélectionpas-à-passtep.gammodifiéepour permettrel'utilisation descritères de validationcroiséeVCG.(c : L,Â) et VCG.(c : 2, Â) (cf. éq. 3.26).Cetteprocédurede calibration,décriteà la section3.4.2,requiertqueI' on déterminea priori le degrép dechacundes polynômeslocaux.I1estaussipréférablededéterminera priori la fonctionnoyau(pondération) de IrIl employée.Laprocédurede calibrationpennetalorsd'obtenir un vecteurde paramètres voisinageoptimalËI* = (hi,hi,hi,hi,ài) où dansce chapitre,le paramètrede voisinageh6 (sites) employéest un paramètrede span. Le spanreprésentela proportiondes observations utiliséespour I'estimation.Mentionnonsque rechercherles paramètresde span opttmauxest équivalentà rechercherles tailles optimalesdesvoisinagesk4puisquepour la méthodedes k plusprochesvoisins,on a h6: lct/noù n estle nombretotal d'observations. APPLICATIONSET COMPARAISON I03 La procédurede calibrationpas-à-pasdemandeen entréeun vecteurde paramètresinitiaux g(o)=16f0), de Qy, nousavonsdébutéla procédure Pourla rnodélisation nlo),nto),â!0),6[o)1. pour chacunedesvariables avecdesvoisinagesde 507odesobservations de sélectionpas-à-pas optimaux desparamètres 0.5,0.5,0.5,0.5).La recherche du modèlesoit11(o)=(0.5, explicatives s'effectuepar la suitepar pasde 0.1 pour chacunedesvariablesexplicatives.Mentionnonsque est enlevéedu modèlealors lorsqu'undes h6 atteint0, la variableexplicativecorrespondante quelorsqu'undesh6 atteint1, le polynômelocal estplutôt remplacépar un termeparamétrique la employée, aussiqu'avecla procédurede sélectionpas-à-pas linéaire(cf.3.4.2).Rappelons versun optimumglobaln'est pasassurée.Le choix de la grandeurdu pas,ici 0.1, convergence En effet,nous avonsremarquéque plus le pas employéestpetit, influencecetteconvergence. plus la procédurea tendanceà convergervers un optimum local plutôt que global. De plus, le choix d'un petit pasaugmentele tempsde calcul puisqu'unplus grandnombrede modèles À I'inverse,avecun grandpas,puisqu'unplus petit peuventpotentiellementêtre considérés. il est fort possibleque le modèlene soit optimal nombiede modèlespeuventêtre considérés, pour quelocalement.L'utilisationd'un pasde 0.1 nousa sembléêtreun compromisacceptable I'obtentionde I'optimum.De plus,en pratique,rien n'empêchede réappliquerla procédurede sélectionà partir de l'optimum ainsi obtenuavecun pasplus petit, par exemple0.01 ou 0.02, de I'optimum. pourserapprocherdavantage Pourla modélisationdeQT,nousavonsutilisé despolynômeslocauxde degré1 et avonsparla suiteexaminéles différentslissagesafin de vérifier si 1eniveaud'ajustementsemblaitadéquat. de la modélisation Nousavonsaussivoulu vérifier I'influencedu choix de certainsparamètres sur lesqualitésprédictivesdesmodèlesadditifs.Nousavonsdonccomparéles capacitésprédictivesde différentsmodèlesadditifs de polynômeslocauxen fonction : employé 1. du critèrede validation-croisée ( a ) V C G.(c: 1 , ) ( b ) V C G-(c:2 ,1 \) 2. de la fonctionnoyauutilisée (a) triplementcubique (b) Gaussienne (c) rectangulaire 3. de la fonctionde pondérationdessites (a) aucunepondération de DMA (b) pondérationproportionnelleau nombred'observations 104 Modélisatonadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... pourla modélisationdu quantilede crueQ5s.LesrésulNousavonseffectuécescomparaisons tatsde cettecomparaison sontprésentés au tableau5.10 alorsque les graphiquesdesdifférents modèlescalibréssereftouventaux tgures 5.4et 5.5 où nousprésentons I'influencedu critèrede validationcroisée,dela fonctionnoyauet dela fonctiondepondérationsurle lissagedechacune desvariablesexplicativesdesdifférentsmodèlesadditifs.Constatonsd'abord,au tableau5.10, que les meilleursrésultatsont été obtenuspar le modèlecalibré avecune fonctionde pénalité c: L en utilisantunefonctionnoyautriplementcubiqueà I'intérieurde la fenêtrede lissageet en appliquantunefonctionde pondérationà chacundessitesjaugés.Remarquons ensuite,à la figure 5.5, la trèsgrandesimilitudeexistantentreles lissagesdesdifférentsmodèlescalibrésà c : L. Cettesimilitudenousdémontreà quel I'aide du critèrede validation-croisée deparamètre point il estenpratiquedifficile de choisirun modèleparticulierà I'aide d'un seulexamenvisuel de la calibration.Ainsi, puisqu'il ne semblepasy avoirde différencesnotables(pourunevaleur du paramètrec fixée) au niveaudu lissageentreI'utilisation d'une fonction noyautriplement cubique,Gaussienne ou rectangulaireet entreI'utilisationou non d'unefonctiondepondération dessites,nousnousen remettronsauxrésultatsdu tableau5.10pour le choix de cesparamètres de modélisation.NousopteronsdoncpourI'utilisationdu modèleavecpondérationet fonction noyautriplementcubique. TLn. 5.10: Modélisation additive du quantile Qso: Influence desparamètres de la modélisation sur les capacitésprédictives Paramètres de la modélisation c=l c=1 c=l c=2 c=1 ou1 oui non oui oui Paramètres h* du rnodèlecalibré 1 I I 1 0.5 DRM (7o) 30,8 3r,3 32,3 32,7 35,1 Alors que pour une valeur de c fixée, il y a peu de distinctionsentre les différentslissages, on peut cependantobserver,à la figure 5.4, que l'utilisation du critère de validation-croisée VCGt(c : 2, Â) conduità une estimationplus lisse,notammentpour la variableA dansI'inqu'avecle critèrede paramètrec : 1. Mentionnons tervalle12,2.51(enunitéslogarithmiques), que I'on devaits'attendreà un tel résultatpuisquele paramètrec pénalisele nombrede paramètreseffectifsd'un modèle.Or, puisqu'il estpossiblede montrerqu'uneestimationplus lisse APPLICATIONSET COMPARAISON Modèle a V e cC: 2 Modèle avecc:1 u? @ o o I q 2.0 r.5 3.0 A 2.5 r.5 4.s 4'0 3.5 ?.0 ?.5 35 3.0  4.0 4.5 a o 0.5 0.0 s 0.o 1.5 1.0 sl q o o 6 0.5 s 1.5 1.0 ^ D ç (: 1.2 t.3 1.5 P 1.4 1.7 1.6 1.2 1.3 14 1.5 P 1.6 1.7 o ct a o 2.4 1.0 2.6 2.8 3.0 1.5 2.O 3.2 3.4 2.4 2.6 2.8 3.0 ËL 32 3.4 2.5 L sur le lissage Flc. 5.4: Modélisationadditivede Qso: Effet du critèrede validation-croisée Modélisation additive par polynômes locaux pour la régionalisation des quantiles de crue '.' 106 Modèle Modèle triplementcubique triplementcubique sanspondération avecpondération r.5 2! 30 2.5 aO A5 ^ 4.5 20 15 2.5 3.0 3.5 ^ 4.0 45 Modèle rectangulaire Modèle Gaussien 3lry lg4éfatlo! 1.5 2.0 2.5 3.0 C5 __ 3Y99pondération 4.O 4.5 "*-æ#o0 12 s l.a 15 ? t.3 za 26 1.O ro 0.5 2t t5 1.6 a0 2,O 1.7 32 s.4 25 1.2 10 0.5 0.0 1.5 13 i.4 1.5 t.5 1.6 05 0.0 s t.0 0.3 o0 15 s ro 15 1,7 P 2 A 2 3 S 4 0 3 2 3 4 21 fo 23 2.a S EL t.5 zo g, ga 2s 1.O 1.5 L Z0 æ Frc. 5.5: Modélisationadditivede Quo: Effet de la fonction noyau et de I'utilisation d'une fonctionde pondérationsurle lissage(c : 1) I'utilisationde c : 2 plutôt que c - 1 favorise moinsde paramètres, nécessitegénéralement le niveaude lissaged'une courbeon les modèlesplus lisses.Pour montrerqu'en augmentant le nombrede paramètreseffectifs,rappelonsqu'en augmentantle en diminue généralement niveaude lissagepourunevariableexplicative,la quantitétr(S1sf ) a tendanceà diminuer(réf. section2.3.4,4).Or, la quantitétr(Slsf) n'est autrechosequela définition (zr) du nombrede paramètres effectifsassociéà cettevariableexplicative. APPLICATIONSET COMPARAISON lgt I'effet, conditionnellementà la Les différentsgraphiquesdes figures5.4 et 5.5 représentent présence desautresvariablesexplicativesdansle modèle,d'unevariableexplicativeparticulière sur la variablede réponse.Parexemple,le premiergraphiqueen hautà gauchede la figure5.4 illustrela contributionapportéepar log(A) à log(Qso)et ce,pour différentesvaleursde log(,4). par la fonction ^9i,(log(,4)), correspondau premier termede Cettecontribution,représentée l'équation5.6. On peutaussiconstaterquela calibrationdu modèleadditifoptimala fait en sorte pardestermeslinéaires quelesdeuxièmeet troisièmetermesdel'équation5.6 ont étéremplacés puisqu'ona alorsobtenu És log(S) et Bplog(P) (un casparticulierde lissageunidimensionnel) à cesvariables,la valeur quepourles graphiquescorrespondant quehi - hâ:1. Remarquons par la pentedesrelationslinéaires.Par analogieau desparamètresÉs et gp est représentée modèlelinéaireoù plus le paramètreBi est élevé,plus la variableexplicativecorrespondante est significative,il est possibled'observergraphiquementla significationrelativede chacune desvariablesexplicativesdu modèleadditif.Il estpar exemplepossiblederemarquer,à la figure parce 5.4,quela variableexplicativeL a étéla variableexcluedu modèle(à droite)probablement quedes5 fonctions(d'aprèsles graphiquesde gauche),la fonctionSlr(log(Z)) sembleêtrela à unedroitehorizontaledepentenulle).À I'inverse,comme moinssignificative(elles'apparente on devaitd'ailleurs s'y attendre,I'aire du bassinversant(A) constituela variableexplicativela plussignificative. Puisqued'une part, nousavonsobtenulesmeilleursrésultatsde prédictionavecle modèlecalibré à l'aide d'une fonctionde pénalitéc: ! en utilisantunefonctionnoyautriplementcubique à I'intérieurde la fenêtrede lissageet en appliquantunefonctionde pondérationà chacundes sitesjaugés,nous avonsretenuI'emploi de ces paramètrespour la modélisationadditivedes quantilesde crue.Cependant, au niveaudescriptif,il semblequele niveaude lissageobtenupar l'emploi de c :2 plutôt quec : 1 soitplus approprié.En effet,si nousvoulionsinterpréterles résultatsde la figures.4,îlnous seraitdifficile d'expliquer,potu c : 1, la formeinégulièredela nousseraitaussidifÊciledejustifier relationpour I'aire du bassin(A) dansI'intervalle12,2.51.11 I'influencede la longueurdu coursd'eausurla valeurdu quantile.Nousavonsdoncaussiretenu l'emploi du paramèûec :2 pour les différentesmodélisationsadditivesde cettethèse.Les tapour c : L et c: 2olesrésultatsde I'application respectivement, bleaux5.11et 5.12présentent decesapprochesde modélisationpourI'estimationdesdifférentsquantilesétudiésalorsqu'aux les lissagesobtenuspar cesmodèlespour I'estimationdes figures5.6 et 5.7, nousprésentons quantiles Qz, Qs, Qn et Qzs. desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation 108 Tnn. 5.11:RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=l DRM (7p) Quantile Paramètresoptimaux h* modélisé Qz PRED 30,9 Qn 25,2 Qso 30,8 26,7 26,5 1.5 a0 a5 ao ^ 3.5 rs t.5 40 2t 3.0 A 2 3.5 4.0 05 a t.0 2.0 2.5 3n A 4n S a5 :T-----l;1--ll j---.--æ---1 l*--'+W*"1 0 . o 1.5 r.5 t 5 2 0 5 4 0 S a . o . 5 A 4.5 ç 0! Qzs Qro Qs Qz 0 5 s l ; l , . " . , .I 05 o.o 5 a oo i.5 t.o 05 " t, ls d I 1.2 13 li P t.4 lt t2 1.7 t.3 !,5 P l-1 t.3 1.7 l'6 1.6 1.5 P t.4 1,7 r.3 12 1.5 t3 r.7 13 ,] -l d 1' l 2.1 23 2.8 3.0 32 3.4 2.1 23 É a0 2.A 3,2 2A 3.4 2.6 2.A 3.0 EL 32 z4 C. 2.6 2.A 3.0 EL 32 -t -i d "l çl ? I I f.0 1.5 2.0 u t3 r.5 2S 2.5 t.0 r,5 ^ 2.3 t, Flc. 5.6:Modélisationadditivede Qz,Qs, Qn etQzs: c : 7 15 ZO 25 3.4 1æ APPLICATIONSET COMPARAISON Tln. 5.12: RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=2 DRM (7o) ntile Paramètresoptimaux h* modélisé PRED Qz Qs Qn Qzs Qso 28,4 26,8 28,6 32,7 Qto t5 20 2.5 A0 A 3.5 4,0 4.5 r.6 a0 25 0 5 m r.2 i.3 1.4 t5 P 13 1.7 t2 !3 30 r t.{ g 4.0 35 ^ ! 1 t5 1.6 2.O 2â {5 ûo 5 t.t r2 1.7 I'! 30 A a5 1.0 05 s l,a t.5 P P r.0 1.7 lt f.o 26 23 a t.5 L A0 2t 3.4 æ 23 0t 15 t2 t3 25 a.O a5 3.O 3t A 1.0 0.5 s 1.1 1.5 P 15 la 1.7 ç I 21 r.5 45 2.4 2.6 2E. 3.0 32 3.4 2.1 2.5 additivede Qz, Qs,Qrc et Qzs: c : 2 Ftc. 5.7:Modélisation 2.6 2.a 3.0 EI 32 At 110 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation 5.3.4 Synthèseet comparaisondesrésultats nousavonsprocédé,pourla régiondu Texas,à I'estimationrégionale Aux sectionsprécédentes, desquantilesdecrueQz,Qs, Qn, QzsetQsoà l'aide,respectivement, 1. du modèlederégressionlog-linéaire(ML) de Benson(1962), 2. du modèlederégressionpar régiond'influence(RI) deTaskeret al. {1996),et 3. du modèleadditif de polynômeslocaux(MA) proposédanscettethèse. Nous avonsutilisé,pour le modèlede régressionlog-linéaire,noté (ML), une approchede calibration permettantde déterminerde manièreoptimale,au sensdu critère de RMSE prédictif de l'équation(5.2),les variablesexplicativesdu ML. Pourle modèlede régressionpar région (1) dechoid'influence,noté(RI), nousavonsdéveloppéuneapprochedecalibrationpermeffiant sir les variablesexplicativesà inclure dansle modèleet (2) de déterminerde manièreoptimale (au sensdu RMSE) la taille de la régiond'inffuencedu modèleR[. Nous avonsenfin procédé à une brève étude comparativedes différentsparamètresde calibration du rnodèleadditif. À partir desrésultatsde cetteétude,nousavonschoiside retenirles modèlesadditifs,notésMAl VCG. (c : 1,Â) et à l'aide descritèresde validation-croisée et MA2, calibrésrespectivement VCG.(c : 2,î\). Mentionnonsde plus qu'unefonction noyautriplementcubiquede même qu'unefonctionde pondérationproportionnelleau nombred'observationsde DMA desdivers sitesjaugésont étéutiliséespour la calibrationdeMAl et deMA2. les valeursde RMSE et de DRM obtenues Les tableaux5.13et 5.14présententrespectivement pour les diversespériodederetourétudiées.Cestableauxindiquent parlesdifférentesapproches aussil'écartentrelesrésultatsobtenuspar le meilleurmodèleadditif MA et lesrésultatsobtenus par I'approchede la régressionpar régiond'influenceRI. On peut constaterque I'approchedu MA procuredesmeilleursrésultatsqueles autresapprochessaufpour le critère deDRM pour la modélisationdeQz. On remarqueaussiquel'écartentreMA et RI augmenteavecla périodede retour?. PourT : 25 etT :50, on notedesdiminutionsdu RMSEde I'ordre d'environt2Vo. Ceci peut s'expliquerpar le fait que la relationentrele logarithmede la superficiedu bassin versant,la variablela plussignificativedesdifférentsmodèles,et le logarithmedesquantilesest de moinsen moinslinéaireà mesureque la périodede retour? augmente(réf. graphiquesdu hautdesfigures5.4et 5.6). Iil APPLICATIONSET COMPARAISON Tns. 5.13: Comparaisondeserreurs de prédiction : RMSE - Texas Modèle Modèle Quantile MAl MA2 optimal modélisé ML RI 0 ,1 7 8 0,166 0,165 0,170 MAI lz 0,173 0,150 0,146 0,157 MA1 Qt 0,179 0,149 0,t44 0,147 MA1 Jro 0,L97 0,162 0,143 0,153 MAl Qzs 0,2t6 0,182 0,160 0,168 MA1 50 A (MA,RI)= 100(MAIRI-1) (vo) -0 -2,7 -3,2 -11,6 -r1,7 Tas. 5.14: Comparaisondeserreurs de prédiction : DRM'Texas Modèle optimal Quantile modélisé Qz A(MA,RI)=MA-RI (7o) 1,5 -2,4 Qn -4,9 -5,2 'r00 150 200 2s0 Erreursde prédiclion(oÂ) Flc. 5.8: Modélisation de Q5e : graphiqueen boîte des erreurs (relatives) de prédiction (7o) Il2 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... Les critèresdeRMSE et de DRM constituentdesmesuresdeserreursde prédictionmoyennes. dela dispersiondeces unereprésentation d'avoirennotrepossession intéressant Il estcependant effeurs.Le graphiqueen boîte de la figure5.8 présenteles différenteserreursde prédictionde de deux Çssdontla moyenneestle critèrede DRM. On remarque,sur la figure 5.8,la présence pour MAl. Un examendes ereurs fès élevéesde l'ordre d'environ300VopourML et de200%o erreursde prédictionnousa permisde constaterqueceseneursproviennentdu bassinversant dontla superficie(A) estla pluspetite.En examinantlesgraphiquesdu hautdela ûgure5.4,il est possibled'évaluerla difficulté d'effectuerI'extrapolationpermettantI'estimationde Q5spour la pluspetitevaleurde log(A) = 1,5. Puisqued'unepart,I'objectif principalde I'estimation pasde procéderà de I'extrapolationet que,d'autrepart,certaines régionalen'est généralement d'affecterà tort la performanced'uneapproche grandeserreursd'extrapolationsontsusceptible particulière,nousavonsrecalculé,aux tableaux5.15et 5.16,les critèresde RMSE et de DRM de l'écartentreMA en enlevantles erreursd'extrapolation.On constatealorsune augmentation et RI. TLs. 5.15: Comparaisondeserreurs de prédiction (sansextrapolation) : RMSE'Texas ,RI)=1fi)(MA/RI-1,) (7o) modéIisé -3,4 Qz Qn Qso 0,142 -7,4 -14,r - 15,8 TAs. 5.16: Comparaisondeserreurs de prédiction (sansextrapolation) : DRM - Texas 113 APPLICATONSET COMPARAISON 5.4 Application à la région de la Nouvelle'Angleterre Danscette section,nousappliquonsles différentesapprochesde modélisationML, R[, MAI qui correspondà la région01 du et MA2 aux donnéesde la régionde la Nouvelle-Angleterre nousavonsprésentéen détailles approches USGS(cf. tab.5.1).Puisqu'àla sectionprécédente, ici que les principauxrésultatsde la de calibrationdesdifférentsmodèles,nousne présentons La région01 du USGScomporte7l siteset calibrationet du calculdescritèresde comparaison. Les donnéesphysioun seulsite a du êtreomisenraisonde variablesexplicativesmanquantes. locauxpar GEV/PWM desdifférents c'est-à-direles estirnateurs graphiqueset hydrologiques, à I'annexeC (cf. tab.C.1).Mentionnonsdeplusquenousavons quantilesétudiés,sontprésentés retenuI'emploi desmêmesvariablesexplicativesqu'à la sectionprécédente. 5.4.1 Le modèle de régressionlog-linéaire Après avoir calculéle critèrede RMSE desdifférentsmodèlespotentielsdu tableau5.3, nous était optimal. [,es graphiquesdu avonsété enmesurededétecterle modèlepour lequelle RIvtrSE RMSE des différentsmodèlesde régressionlog-linéairecorrespondantaux périodesde retour et C.5deI'annexe auxfiguresC.|,C.2,C.3,C.4 respectivement (T=2,5,10,25et 50) serefrouvent desdifférentsmodèlesalorsque le C. Le tableau5.17 présenteles estimateursdespararnètres tableau5.18présenteles critèresde RMSE et de DRM calculéspour cesmodèles. Tan. 5.17:Les paramètresestimésdeséquationsde régression 2 ) o,367 0,384 0,4t2 0,453 0,487 0,409 4,907 -0,950 0,884 10 ''/.,12090,861 25 -1,637 0,828 50 -2,014 0,802 Tl,s. 5.18:RMSE et DRM desmodèlesde régressionlog-linéaire 0,119 LlA desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation 5.4.2 Le modèlede régressionpar région d'influence pour les différentesvaleursposAprèsavoircalculéle critèrede RMSE par validation-croisée siblesdu paramètrek (le nombrede stationsdansla régiond'influence)et ce,pourles meilleurs de une à cinq variablesexplicatives,nousavonsétéen mesurede détermimodèlescomprenant desmodèlesoptimaux.Les graphiquesdu critèrede RMSE en fonction du ner les paramètres auxfiguresC.6 (T=21,C.7 (T=5), C.8 (?=10), C.9 (T=25) nombrede stationsk sontprésentés et C.10(T=50) deI'annexeC. Le tableau5.19décritles différentsmodèlescalibrésalorsquele descriptiveet prédictiveen terrnede RMSE tableau5.20présentel'évaluationde leurscapacités que pour les périodesde retourT de 2,5,10et 25 années,le nombre et de DRM. Remarquons optimalde stations,hcorrespondau nombremaximalde stationspouvantêtre inclusesdansla régiond'influence.Tousles sites,à partle sitecible,sontdoncutiliséspourla calibrationdu modèleprédictif.La seuledistinctionentrecesmodèleset les modèlesde régressionlog-linéaire résidentdonc dansl'utilisation d'une fonction noyautriplementcubiquepour I'approchede par régiond'influence. régression TAs. 5.19: Les modèlescalibrésde régressionpar région d'influence de stations k Nombre 2 5 10 25 50 26 69 69 69 69 A,S,L A,RS,L A,P,S,L A,P,S,L A,RS,L TAs. 5.20: RMSE et DRM desmodèlesde régressionpar région d'influence DRM (7o) 0,115 115 APPLICATIONSET COMPARAISON 5.4.3 Le modèle additif par polynômeslocaux Nousavons,dansun premiertemps,tentéd'effectuerla calibrationdesdifférentsmodèlespour les donnéesde la région 01 à I'aide de la procédurelocfit. Nous avonsalors rencontrédes de I'algorithmedebaclcfitting.Lenombred'itérations difficultésau niveaude la convergence desdifférents par défaut(25) du logiciel S-Plusne permettaitpasI'atteintede la convergence modèles.Nous avonsdonc augmentéce nombred'itérationsà 50 ce qui a permisla converle tempsde calcul.En pratique, gencede I'algorithmemais en augmentantconsidérablement causéspar unetrop forte corrélationentreles sontgénéralement cesproblèmesde convergence différentesvariablesprédictives,commel'indiquentd'ailleursHastieet Tibshirani(1990): "'Whena smoothing-spline or running-linesmootheris usedfor severalpredictors, practicalexperiencehasshownthat if the predictorsare correlate4 many iterationsmaybe requiredto get the correctaverageslopeof the functions" Or, ce problèmede corrélationestbien connuen régressionlog-linéairedesqlrantilesde crue d'ailleursI'utilisationde la régressionridge(Hoerlet Kenet Roy et al. (1989)recommandent des du modèlede régression nard, 1970)afin d'estimerde manièreplus efÊcaceles paramètres quantiles.Le tableau5.21 illustre les résultatsdes corrélationsobtenuespar la procédurelm On constatela présencede de S-Pluspour les régionsdu Texaset de la Nouvelle-Angleterre. à (-0,81et comparativement corrélationsélevées(-0,91et -0,73)pour la Nouvelle-Angleterre, rencontrés. -0,51)au Texas,ce qui pourraitexpliquerles problèmesde vitessede convergence Tln. 5.21: Matrices de corrélation desparamètresdesmodèlesde régressionlog-linéaire Nouvelle- 0e -0.24 Êt 0s -0.14 0p -0.96 0nn -o.7r 0t' 0.09 -0.03 0.25 0.06 0.09 -0.51 0.67 -0.81 0.50 -0.2r -0.36 0.04 0.32 -0.98 -0.10 -0.03 0pt -0.14 0.04 -0.34 0.01 -0.73 0.01 -0.91 0.4s -0.05 -0.29 Alors qu'en régressionparamétrique,la régressionridge permetde faire face au problèmede corrélationentre les variablesprédictives(pour plus de détails,voir Roy et al. (1989)),en modélisationadditive,Buja et al. (1989)ont développéun algorithmeamélioréde bacffitting (à ne pasconfondreavecI'algorithmemodifiéde Hastieet Tibshirani(1990)de la figure 3.3) Cet algorithmeconsisteà permettantde s'attaquerà ce problèmede vitessede convergence. séparerchacundes lisseursen une partie linéaireparamétriqueet en une partie non linéaire. 116 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation afin deprocéderà leur estimationen uneseule Les termesparamétriques sontensuiteregroupés étape.L algorithmerégulierdebacffittingestquantà lui utilisépourI'estimationdela partienon linéairedesdifférentslisseurs.Cet algorithmeestutilisépar S-Pluslorsquele lisseuremployé est le loess.Puisqueles procéduresloesset locfit sontéquivalenteslorsquela fonctionnoyau utiliséeest la fonctiontriplementcubique,nousavonsdécidéd'opter pour la procédureloess de procédurenousa permisde faire pour la calibrationdesdifférentsmodèles.Ce changement passerle tempsmoyende calcul d'un modèleadditif de 7,5 secondesà 0,6 seconde(sur un ordinateurIBM PentiumII - 350 Mhz) et donc 12,5fois plus rapidequela procédurelocfit. les résultatsde la calibrationdesmodèles Les tableaux5.22 et 5.23 présententrespectivement à cesmodèles.La figure5.9 illustre MAI et MA2 ainsiqueles critèresRMSEet DRM associés de Q5s.LeslissagesdesquantilesQ2, leslissagesobtenusparMAI etM{2pour la modélisation respectivement auxfiguresC.11,C.12,C.13et C.14deI'annexeC. Qs, Qroet Qzsseretrouvent quele modèleMA2 a convergéversunerelationlinéairepour la variableA alors Remarquons quepourMAl, bien queha : 0.6,on observetoutefoisla présenced'unerelationassezlinéaire. Mentionnonsenfin que I'approcheMA2 a convergé,pour 8ro et Qzs,vers le mêmemodèle qu'avecI'approcheR[ alorsquepour Q5s,seulle lisseurde la variableS n'a pasconvergévers un termeparamétrique. T;s.5.222 RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=L Paramètresoptimaux h* DRM (7o) Tls. 5.23: RMSE et DRM desmodèIesadditifs de polynômeslocaux : c=2 Quantile modélisé Qs DRM (7a) PRED 21,7 22,5 Qto 23,3 Qso 28,3 tt7 APPLICATIONSET COMPARAISON MA2 MAI (| s! @ @ o o u? ? o q o o 6 Ç f| 1.0 2.O 1.5 g? .ffi a 0 @ ç 1.60 1.65 ? 1.70 1.60 1.75 1.70 1.65 P q o o 22 2.4 2.6 2.8 ËL 3.0 3.2 9.4 ù? q? o o u? o o ç q 1.O 1.5 Ftc. 5.9: Modélisationadditivede Qso 1.75 118 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... 5.4.4 Comparaisondesrésultats Les tableaux 5.24 et 5.25 présententrespectivementles valeurs de RMSE et de DRM obtenues par les différentesapprochespour les diversespériodede retour étudiées.Ces tableauxindiquent aussil'écart entre les résultatsobtenuspar le meilleur modèle additif MA et le modèle de régression par région d'influence RI. On constateque les différentesapprochesprocurentsensiblement les mêmesrésultatsavec au plus un écart entre MA et RI de 27a. Ces faibles différencesétaient prévisibles à partir du moment où la calibration par les différentes approchesa convergévers des modèlessimilaires. TLr. 5.24: Comparaison des errreurs de prédiction : RMSE - Nouvelle-Angleterre Quantile modélisé 2 Qs Qrs Qsa Modèle A(MA,RI)=100(MA/RI-1 Modèle (Vo) ML RI MAl MA2 optimal 0,5 0 , 1 1 9 0 , 1 1 5 0 , 1 1 8 0 , 1 1 5 RI 2,O 0,r24 0 , 1 1 8 0,126 0,r21 RI 1,0 o,123 0,122 0,130 0,r23 RI 0,5 RI o,r34 0,133 0,L43 0,134 -1,3 0 ,1 4 8 0,147 0 ,158 0,146 MA2 Tnn. 5.25: Comparaisondeserreurs de prédiction : DRM - Nouvelle-Angleterre 5.5 Application à la région de I'Arkansas Danscettesection,nousappliquonsles différentesapprochesde modélisationaux donnéesde I'Arkansas.Il s'agit du mêmeensemblede donnéesque celui utilisé par Taskeret al. (1996) pourla modélisationdu quantileQsoparla méthodedela régressionpar régiond'influence.Les des20zlstationsutiliséesen Arkansasseretrouvent donnéeshydrologiques et physiographiques au tableauD.1 de I'annexeD. Les donnéesde quantilesutiliséesproviennentdu USGS(Hodge APPLICATIONSET COMPARAISON ll9 et Tasker,1995)et ont été estiméspar I'ajustementd'une loi Log-Pearsontype III à I'aide par le Hydrology Subcommitteeof the InteragencyAdvisory de la procédurerecommandée disponibles explicatives aussiquelesvariables Committeeon'WaterData (1982).Mentionnons (4, S, P, EL et L) mais que pour la modélisation,Tâsker sontles mêmesque précédemment et al. (1996)ont utilisé la variablefacteur de forme du bassin (BasinShapeFactor) (SH) calculéeen divisantla superficiedu bassinversant(A) parle carréde la longueurdu coursd'eau principal(L) plutôt que la variableL. De manièreà reproduireleursrésultats,nousutiliserons donccommevariablesprédictivespotentielles: A, S, P,EL et SH. 5.5.L Le modèle de régressionlog-linéaire Aprèsavoir calculéle critèrede RMSE desdifférentsmodèlespotentielsdu tableau5.3, nous du avonsétéen mesurededétecterle modèlepour lequelle RMSEétaitoptimal.Les graphiques aux périodesde ret'our RMSE desdifférentsmodèlesde régressionlogJinéairecorrespondant et D-5deI'annexe auxfiguresD.1,D.2,D.3,D.4 respectivement (T=2,5,10,25 et 50) seretrouvent desdifférentsmodèlesalorsque le desparamètres D. Le tableau5.26 présenteles estimateurs tableau5.27présenteles critèresdeRMSEet de DRM calculéspour cesmodèles. Tas. 5.26rLes paramètnesestimésdeséquationsde régression T 2 5 10 25 50 9o -5,199 -5,173 -4,874 -4,598 -4,229 Êa 0s 9, Fr:r, p 0,724 0,155 2,162 0,484 0,127 0,739 0,179 2,214 0,553 o,217 0,745 0,192 2,115 0,570 0,258 0,752 a,203 2,O15 0,599 0,305 0,756 0,215 1,884 0,602 0,338 Tlts. 5.272RMSE et DRM desmodèlesde régressionlog-linéaire r20 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation 5.5.2 Le modèlede régressionpar région d'influence pour les différentesvaleursposAprès avoir calculéle critèrede RMSE par validation-croisée sibles du paramètrek, nous avonsété en mesurede déterminerles paramètresdes modèles du critèredeRMSEenfonctiondu nombrede stationsk sontprésenoptimaux.Les graphiques tésaux figuresD.6 (T=2),D.7 (?=5), D.8 (?=10),D.9 (T=25)et D.10 (?=50) de I'annexeD. Le tableau5.28 décrit les différentsmodèlescalibrésalorsque le tableau5.29 présentel'évaluation de leurscapacitésdescriptiveet prédictiveen terTnede RMSE et de DRM. On constate, au tableau5.28,quecommeon devaits'y attendre,plusle modèleoptimalde répessionpar région d'influencecomportede variablesexplicatives(plusde paramètresà estimer)plusla taille pour estimerles optimalede la régiond'influenceaugmente(plusde donnéessontnécessaires enfin que la taille optimalek ne représenteenviron qtte lïVo à I57o paramères).Remarquons du nombretotal d'observations. Tln. 5.28: Les modèlescalibrésde régressionpar région d'influence de stations ft Nombre 2 5 10 25 50 A,S,REL A,S,REL,SH A,S,EL A,S,P,EL,SH A,S,P,EL,SH 22 26 19 3L 28 TEn. 5.29:RMSE et DRM desmodèlesde régressionpar région d'influence tzl APPLICATIONSET COMPARAISON 5.5.3 Le modèleadditif par polynômeslocaux La procédure de calibration pas-à-pasdes modèles additifs demande, en entrée, un vecteur de paramètresinitiau* g(o)=(â[0),hl]],à50),nto),n[0)). nour la modélisationde Qr at Texas nous avonsdébutéla procédurede sélectionpas-à-pasavecdes et en Nouvelle-Angleterre, voisinagesde 509odes observationspour chacunedes variablesexplicativesdu modèlesoit g(o)-(g.b,0.5,0.5,0.5,0.5).Aveclesdonnées del'Arkansas,nousavonsobservéquepourI'apcomme dechoisir11(o)=(0.9,0.9,0.9,0.9,0.9) MA2, il étaitpréférable proehede modélisation initiaux. En effet, lorsquec : Z,le nombrede paramètreseffectifsdu vecteurde paramètres pénalisé,il est alorsprobablequ'uneou plusieursvariablesexplicatives modèleest davantage par un termelinéaireou encore(2) excluesdu modèles.Or, en débutant soient(1) représentées avecâ,f0): 0.9, les modèlescomportantdestermeslinéairessont évaluésdèsle départce qui et dounepafr,permetd'augmenterla vitessed'exécutionde la procédurede sélectionpas-à-pas, d'autrepart,empêchequ'un optimumlocalsoitatteintavantd'avoir pu évaluerlesmodèlescomportantdestermeslinéaires.Pourl'approchede modélisationMAl, I'utilisationde à(0): 0.5 a toujoursprocuréles meilleursrésultats. les résultatsde la calibrationdesmodèles respectivement Les tableaux5.30 et 5.31 présentent MAl et MA2 ainsi que les critèresde RMSE et de DRM associésà ces modèles.La figure 5.10illustreleslissagesobtenuspar MA2 pourla modélisationde Qro,Qzset Sso.Leslissages pour MAl se retrouventà la figure D.13 de l'annexeD alors que les lissages correspondant aux figuresD.ll et obtenuspar MA1 et MA2 pour 8z etQs sont présentésrespectivement D12 del'annexeD. On observeà la figure5.L0,et ce pour les différentespériodesde retour,la présenced'unerelationnon linéaire(nonlog-linéaire)pourla variableexplicativeS (la pentedu bassinversant).Cettenon-linéaritéde la variableS pourraitêre l'élémentimportantexpliquant par lors de l'étudedeTaskeret al. (1996),de la méthodede la régression la bonneperformance, régiond'influenceen Arkansas. Tr,n. 5.30: RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=l RMSE (logto) DRM (7o) I22 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation Tln. 5.31: RMSE et DRM desmodèlesadditifs de polynômeslocaux : c=2 RMSE (logro) Quantile Paramètresoptimaux h* modélisé DRM (7o) 37,5 30,4 29,5 29,8 31,3 Qz 0,159 0,r47 Qro 0,161 Qso 8ro Qso Qzs o o ct -r.0 .o.5 0.0 05 r.0 1.5 .1.0 .0.5 0.0 2.0 0.s s 1.0 1.5 2.0 0.0 0.5 r.0 r.5 2.0 rQ c; 2.10 t.6 1.8 2.O 2.2 EL 2.4 2.10 2.15 2.6 2.8 'f.6 t.8 2.O 22 EL 2.15 2.4 2.6 2.4 1.6 1.A 2.O 22 EL Flc. 5.10:Modélisationadditive(c : 2) deQro,Qzset Qso 2.4 2.6 2.4 r23 APPLICATIONSET COMPARAISON 5.5.4 Comparaisondesrésultats les résultatsde RMSE et de DRM obteLes tableaux5.32 et 5.33 présententrespectivement nus par les différentesapprochespour les diversespériodesde retour étudiées.Ces tableaux indiquentaussil'écart entreles résultatsobtenuspar le meilleur modèleadditif MA et le modèlede régressionpar régiond'influenceRI. On peut constaterque I'approchedu MA conduit auxmeilleursrésultatssaufpour le critèreDRM pour la modélisationde Qz (cf. tab.5.33).On remarqueaussique la modélisationde Qsoà I'aide de MA2 perrnetunediminutiondu RMSE de mad'environ87oparrapportà I'approchede régressionpar régiond'influence.Cependant, utiliséespar R[, MAI et MAZ auxapproches desapproches nièreà comparerles performances 5.33 la figure 3 de Taskeret al' Taskeret al. (lgg6),nous avonscomplétéà partir du tabLeau (1996)afind'y inclureles critèresde DRM obtenuspour Q5s.La figure5.tr1illustrecesrésultats.Rappelonsque l'étude de Taskeret al. (1996)consistaità comparerdiversesprocédures de sitesenrégionsutilisée: les mérégionaleselonla procédurederegroupement de régression les 2O4stationsde I'Adransasen 1,2 et thodesA,B et C consistaientà séparerrespectivement la méthodeD consistaità regrouperles sitesen régionsà I'aide d'une 4 régionsgéographiques, des physiographiques (cluster analysis)baséesur les caractéristiques analysede regroupement bassinsversantsalorsque la méthodeE consistaitplutôt à déterminerunerégiond'influenceà dans chacundessitescibles.Cettefigure monffela bonneperformancedesméthodesprésentées par Taskeret al. (1996). considérées cettethèsepaf rapportaux approches Tnn. 5.32: Comparaisondeserreurs de prédiction : RMSE - Arkansas A(MA'RI)=1 uantile modélisé Qz Qn Qso 0,193 (vo) -0,3 -TL,4 -9,5 -7,9 I24 desquantilesde crue ... Modélisationadditve parpolynômeslocauxpour la régionalisation Tln. 5.33: Comparaisondeserneursde prédiction : DRM - Arkansas A(MA'RI)=MA'RI (Vo) Quantile modélisé -2,1 Qrc Qzs Résultatsde Taskeret al. (1996) * É g c ) F o E p CL o o p ô l J UJ Méthode de régionalisation Frc. 5.11: Comparaisondeserreursde prédiction(DRM) en Arkansas(adaptéde Taskeret al. (1ee6) 6. CONCLUSION 6.1 Motivation de l'étude Pourla planification,incluantla conception,desouvragesdecontrôledesinondationsou detout autreouvragesoumisaurisquede défaillanceparleseaux,leshydrologuessontsouventarnenés à produiredesestimationsde la magnitudeQ, de la cnreayantunepériodede retourT pté'alaterritorialeset du coût associéà I'installationet blementdéfinie.En raisondesgrandesétendues que I'estimationde Qr soit reqrise au maintiende stationsde mesures,il arrivefréquemment en un site où I'on ne disposed'aucuneinformationhydrornétrique(site non jaugé).Danscette ditesde régionalisationpour transférer situation,il est alorspossibled'utiliser desprocédures l'information disponibleen des sitesjaugésversle site non jaugé où l'on désireproduireune estimation(sitecible). De manièregénérale,les procéduresde régionalisationcomportentdeux étapesdistinctesqui consistentà (1) choisirlessitesjaugésà partirdesquelss'effectuerale transfertd'informationet (2) appliqueraux siteschoisisun modèlede transfertd'informationrégionale.Les hydrologues deméthodesleur pennettantd'effectuerI'une ou I'auEede ont à leur dispositonuneabondance cesétapes.Aux États-Unis,Taskeret al. (1996),deshydrologuesdu USGS,I'organismeimplipour chacundesÉtatsaméricains, quédansle développement derégionalisation desprocédures ont proposérécemmentl'emploi de la méthodede la régressionrégionalepar région d'influence, une procéduredont le modèlede transfertutilisé est le modèleclassiquede régression log-linéairedesquantiles(Benson, 1962)et pour laquellele choix dessitess'effectueà I'aide de la méthodede la régiond'influence(Burn, 1990a).Lors d'étudesrécentes(Taskeret Slade (1994),Taskeret al. (1996)),cetteapprochea permisd'obtenirde bien meilleursrésultatsque I'approchetraditionnelledu USGSconsistantà séparerl'Étaten régionshydrologiquesgéographiquesà I'aide d'une analysedu signedesrésidusdeséquationsde régressionet à appliquer un modèlede régressiondifférentpour chacunedesrégionsainsiformées.L Étatde l'Arkansas a d'ailleursincluscetteméthodedanssondernierrapportsur I'estimationde la magnitudeet de la fréquencedescrues(e.gHodgeet Tasker(1995))aveccertainesréservescependant: "The regionof influencemethodis still being improvedand is to be considered only as a secondalternativeto the regionalregressionequations.The regional procedure." regtessionequationsarethe recommended 126 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation La motivationpremièrede ce travail a étéI'améliorationde la procédurede régressionpar région d'influence.Réalisant,dansun premiertemps,que la méthodede la régressionpar région connueen stad'influenceappartientà unefamille de modèlesde régtessionnon paramétrique tistiquesousle nom de modèlesde régressionlocale, nous avonsd'abord voulu utiliser les conceptsde la régressionlocaleafin d'optimiserI'estimationde la méthodede la régressionpar régiond'influence,notammentauniveaudu choix du nombreoptimalde stationsà incluredans à la famille desmodèlesderéla régiond'influence.Puis,réalisantquedepar sonappartenance régionalepar régiond'influenceseheurteau problème, gressionlocale,le modèlederégression bien connuen statistique,de la raréfactiondes donnéesdansun espaceà grandedimension, par région nousavonsplutôt proposéunenouvelleapprochede modélisationnon paramétrique d'influencequi ne soit pasinfluencéepar ce problèmede dimensionalité: loapprochede la modélisation additive par polynômeslocaux. 6.2 Objectifs étaitd'évaluerI'utilisationde I'approchede modélisation L objectifprincipalde cetterecherche additivepar polynômeslocauxcommeméthodealternatived'estimationrégionaledes débits de crue Qr en des sitesnon jaugés.Afin d'atteindrecet objectif,deux étapesprincipalesont été identifiées.La premièreétapeconsistaità présenterune descriptiondétaillée des diverses et plusparticulièrement debased'uneapprochedemodélisationnonparamétrique composantes deI'approchede modélisationadditiveparrégressionlocalepolynomiale.Plusspécifiquement, lors du choix (1) desvariables il s'agissaitde discuterdesélémentsà prendreen considération explicativesà incluredansle modèle,(2) du niveaude lissageassociéà chacunede cesvariables explicatives,(3) du degrédesdifférentspolynômeslocaux,et (4) de la fonctionnoyauà utiliser. La deuxièmeétapeconsistaitquantà elle à évaluerles qualitésprédictivesde I'approchede modélisationproposée.Dansles sections6.3 et 6.4, nousdécrivonscommentcesobjectifsont étéatteints. 6.3 Démarche et résuméà partir Pouratteindreles objectifsvisés,nousavonsdansun premiertempsrassemblé de notretravail.Ainsi, aux à la compréhension deplusieursdocuments,lesélémentsnécessaires présentéles conceptsimportantsde I'approchede chapitres2 et 3, nousavonsrespectivement modélisationpar régressionlocaleet de I'approchede modélisationadditive.Nous avonsainsi cesnotionsà I'ingénieurpraticien. voulurendreplus accessibles CONCLUSION 1W Au chapitre4, nousavonsprésentécertainsconceptsde baseliés au problèmede la régicnalisation des quantilesde crue et avonseffectuéune revuebibliographiquedes approchesde jugéespertinentespour noffe travail.Nousavonsconstatéqu'en ce qui concerne modélisations ]e choix dessites,on reprocheaux différentesméthodesleur grandesubjectivitéet le fait d'être pour I'analysede la similaritéhydrologiqueen utilisant descritèresqui ne soient développées pasdirectementreliésauxobjectifsde I'estimationdescrues,soit de produireuneestimationde 8r gui soit la plus précisepossible.Parexemple,Nguyenet Pandey(1996)mentionnent: "Recenttechniques, suchasdiscriminantanalysis(Wiltshire, 1986a),regionof (Hoskinget Wallis, 1993)also influence(Burn, 1990a),and discordancynxeasure involved a greatdeal of subjectivity in deûÊlrniningthe grotrping of homogeneous \ileredevelopedfor theassessbasins.Further,all previousclassificationtechniques similarityusingcriteriathatarenot directlyrelatedto thepurpose mentof watershed of estimationof floods.The accuracyof flood estimatesfor an ungaugedsitebased is thusratherlimited." on thesetechniques Et dansun mêmeordred'idée,Roy (1993)indiqueà props du caractèresubjectifdela méthode de la régiond'influence: "Bien queBurn (1990b)indiquequ'il estpréférablepour desconsidérations de robustessederetenirun grandnombrede stations,il estfès souhaitablede disposer d'une méthodeobjective pour déterminerle nombrede stations à inclure dansle voisinage" En ce qui concemele modèlede transfertd'informationrégionale,nous avonsconstatéqu'au cours des dernièresannées,de nouveauxmodèlesrégionauxsont apparusdans la littérature notammentau niveaude la forme des afin de comblercertaineslacunesde leurs prédécesseurs, observéempiriquement. modèlesutilisésqui était inconsistanteavecce qui est généralement critiques(e.g.Potter(1987),NRC (1988),Bobéeet Rasmussen De plus,suiteà de nombreuses "statistiques", on a vu (1995) à I'effet que les différentsmodèlesde régionalisationsont trop apparaîtrede nouvellesapprochesaccordantplus d'importanceà la physiquedesphénomènes. Fill et Stedinger(1998)indiquentà ce sujetqu'il estgrandtempsde mettredecôtélesméthodes des observéeempiriquement d'estimationrégionalesqui ne font pas intervenirla dépendance physiogfaphiques quantilesdecrueavecI'aire desbassinsversantset les autrescaractéristiques importantes. La revue bibliographiquedu chapitre 4 nous a permis de mettre en évidenceles lacunesdes Nous méthodesexistanteset d'identifier la directionempruntéepar les nouvellesapproches. avonsainsi pu proposerune nouvelleapprochede modélisationfaisantintervenir,commele I28 desquantilesde crue ... Modélisationadditivepar polynômeslocauxpourla régionalisation entreles quantilesde crue et les suggèrentd'ailleurs Fill et Stedinger(1998),la dépendance importantes.La forme de cettedépendance, physiographiques/climatologiques caractéristiques aux approchesd'invarianced'échelle(Guptaet al., 1994)ou desquantilesnorcontrairement pas déterminéea priori et ce sontplutôt les malisés(Fill et Stedinger,1998),n'est cependant donnéesqui la déterminent.Nous avonsenfin mis en évidencele fait que dansI'approchede modélisationproposée,l'étapedu choix dessitessetrouveintégréeà la procédured'estimation du modèlede transfertce qui, d'un point de vueopérationnel,simplifiela procédurede modélidirectementreliéeà sationrégionaleet permetde plus uneestimationobjectivedesparamètres I'objectif principaldesprocéduresde régionalisation: I'estimationla plus précisepossibledes quantilesde crue. Au chapite 5, nousavonsappliquéI'approchedemodélisationadditiveparpolynômeslocauxet log-linéairede mêmequ'à un modèlede régression I'avonscomparéà un modèlede régression régionalepar régiond'influence.De plus,nousavonsprésentéune approchede calibrationdu modèlede régressionrégionalepar région d'influencepermettantde déterminerde manière optimaleet objectivele nombrede sitesà incluredansla régiond'influence.Nousavonsévalué lesqualitésprédictivesdesffois modèlespourtrois régionsdesÉtats-Unis. 6.4 Résumédesrésultats Un de nos sous-objectifsétait d'évaluerles qualitésprédictivesde I'approchede modélisation Nousavonsutilisé desdonnéesprovenantde 3 régions additiveparpolynômeslocauxproposée. des et I'Arkansas.Cestrois régionspossédaient desÉtats-Unis: le Texas,la Nouvelle-Angleterre particulièresdont I'influencesur I'approcheproposéesedevaitd'être évaluée. caractéristiques Les donnéesde la région du Texassemblaientindiquerla présenced'une relationnon linéaire entrele logarithmedu quantile de crue Qsoet le logarithmede la superficiedu bassinversant semblaientplutôt indiquerla présenced'une alorsque les donnéesde la Nouvelle-Angleterre relationlinéaire.La régionde I'Arkansassedistinguaitquantà elle desautresrégionspa.rune forte densitéspatialedes stationsce qui implique l'existence d'une corrélation spatialeélevée entreles mesuresde débit dessitesde la région. nousavonsutiliséla procéduredu Afin d'évaluerlesqualitésprédictivesdeI'approcheproposée, permettantd'obtenirune estimationdeserreurs une techniquede rééchantillonnage Jaclclcnife, la racine carde prédiction.Nous avonsretenul'utilisation de deux critèresde comparaisono rée deserreursquadratiquesmoyennesde prédiction (RMSE) et la déviationrelative rnoyenne CONCLUSION r29 (DRM), expriméeen pourcentage, des erreursde prédiction.Nous avonscalculécescritères pour I'estimation(prédiction),en dessitesnonjaugés,desquantilesde crue Qz, Qs, Qn, Qzs et Qso.Nousavonscomparéles résultatsobtenuspar I'approchede modélisationadditiveaux résultatsobtenuspar un modèlede régressionpar régiond'influenceet par le modèleclassique de régressionlog-linéaire. Avant d'appliquerles différentsmodèles,nousavonsprocédéà leur calibration.Partantdu fait que la méthodede régressionpar régiond'influence,telle quedéfiniepar Taskeret al. (1996), constitueun cas particulierde régressionlocalemultivariée,nous avonsproposéI'utilisation d'une approchede calibrationpermettantde choisir de manièreoptimalela taille de la région d'influence.Nous avonsalorsconstatéque cettefaçonde faire permettaitde diminuerde malesereurs deprédictionde la méthode.Nousavonsaussimodifiéquelquepeu nièreappréciable I'approchedeThskeret al. (1996)enajoutantunefonctionnoyauà la méthode.Encoreunefois, I'ajout d'unefonctionnoyautriplementcubiquea permisI'obtentionde meilleumrésultats.Ces modificationsà l'approcheinitiale de Taskeret al. (1996)ont par exemplepennis,dansle cas de I'Arkansas,deréduireI'erreurdeprédictionde38Voà331o(cf. fig. 5.11).Dansle chapitre5, par nousavonsdonccomparéI'approchede modélisationadditiveà une approchederégression régiond'influenceplusperformantequel'approcheinitialede Taskeret al. (1996). Pour la calibration des modèlesadditifs, nous avonsretenudeux approchesparticulièresemployant toutefois toutesdeux une fonction noyau triplement cubique. La premièreapproche, notéeMAl, pénalisepeu le nombrede paramètreseffectifs(ou degrésde liberté)du modèle De MAI ou MA2, il n'a final alorsquela secondeapproche,notéeMllz,le pénalisedavantage. pasétépossiblede déterminera priori I'approchepermettantd'obtenir les meilleursrésultatsen termed'erreurde prédiction.Ainsi, au Texas,I'approcheMAI a toujoursobtenules meilleurs étéla et enArkansas,I'approcheMA2 a généralement résultatsalorsqu'enNouvelle-Angleterre meilleure.Parcontre,du point de vuedu lissagedesdiversesrelations,il semblequeI'approche M'A2 produiselesestimationsdont le niveaudelissagesoitle plus adéquat. nousavonsconstatéqueI'approche desdiversesapproches, En ce qui concernela comparaison de modélisationadditive(MA) aétêlameilleure auTexaset en Arkansas,saufpour le critèrede DRM et la periodede retour de 2 ansou I'approcheRI a étéla meilleure.De manièregénérale, on observeque l'écart entreles approchess'accentuelorsquela périodede retouraugmente. Pour la modélisationde Qzset Qso,on observedesdiminutionsdu RMSE de lIVo à l7%oau Texaset de 87oà I07oen Arkansasen employantI'approchedemodélisationadditiveplutôt que régionoù I'hypothèse par régiond'influence.En Nouvelle-Angleterre, I'approchederégression 130 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue ... de modélisation nousavonsconstatéqueles diversesapproches de linéaritésemblaitrespectée, de modélisationadditiveet de régression ont obtenudesrésultatsvoisins.En fait, lesapproches parrégiond'influenceont toutesdeuxconvergéversle modèlede régressionlog-linéaire.Ceréde linéaritéémisesparle modèleclassique sultatnousindiquequemêmelorsqueleshypothèses il y a peu de risqueà avoir recoursà une approche de régressionmultiple semblentrespectées, linéaireclasversle modèleparamétrique de modélisationadditivepuisquecelle-ciconvergera sique. D'aprèslesrésultatsobtenusen Arkansas,il semblequela présencedecorrélationspatialeentre lesmesuresdedébit de cruene soit pasun facteurlimitant I'applicabilitédu modèleadditif. Par contre,nousavonsremarquéque le problèmede multicollinéarité(i.e. de corrélationentreles variablesprédictives)fréquemmentrenconffédansles étudesde régionalisationdes quantiles de cruepouvaitavoir un impact sur la vitessede calibrationdesmodèlesadditifs.Nous avons toutefoisprésentéun algorithmepermettantde résoudrece problèmeet I'avonsappliquéavec succès. produitdesestimationsdesquantilesplusprécises L approchedemodélisationadditiveproposée (précisionprédictive)que les estimationsobtenuespar la méthodede la régressionpar région d'influence.Cette approchea en outre un avantagemajeur sur I'approchede régressionpar I'effet (conditionnel)des variables région d'influence; elle permetd'observergraphiquement explicativessurla valeurdesquantilesmodélisés.Parexemple,pourla modélisationde Qss,ces d'unerelationnon-linéaire(nonlog-linéaire) graphiques nousont permisd'identifierlaprésence pour (1) la variableexplicativeS (la pentedu bassinversant)en Arkansas(cf. fig. 5.10)et (2) la permettent variableexplicativeA (l'aire du bassinversant)auTexas(cf. ûg. 5.4).Cesgraphiques danscesrégions,dela méthodede la régiond'influenceet de d'expliquerla bonneperformance, log-linéaire. l'approchede modélisationadditiveparrapportau modèleclassiquede régression 6.5 Contribution Commeon l'a noté dansles sections6.3 et 6.4, nousavonsatteintles objectifsque nousnous sommesfixés pour ce travail. Notre contributionà la régionalisationdesquantilesde crue se situeà différentsniveaux : o unerevuede la littératurerésumantla problématiquedela régionalisationdesquantilesde et d'identifier crueet permettantde mettreenévidenceleslacunesdesméthodesexistantes la directionempruntéepar les nouvellesapproches; CONCLUSION 131 o une synthèsedes conceptsde basede la régressionnon paramétriqueet, plus particulièrement, des approchesde modélisation additive et de lissagepar régressionlocale; o la mise en évidence de certaines lacunesde I'approche de la régressionpar région d'influence de Taskeret al. (1996) ; o le développementd'une approche de calibration permettant de déterminer de manière optimale la taille de la région d'influence du modèle de Tasker et al. (1996) ; o un modification mineure apportéeà la méthodede Tâskeret al. (1996) afin d'en améliorer les capacitésprédictives; détailléed'une nouvelleapprochede modélisationrégionaledesquantiles la présentation decrue; I'applicationet l'évaluationde la méthodeproposéepourtrois régionsdesÉtats-Unis. 6.6 Tbavauxfuturs régioPlusieursvoiesde rechercheseprésententà la suitede ce travail.D'abord,en régression naledesquantilesde crue,il estbien connu(Stedingeret Tasker,1985,1986)qu'un modèlede réelledeI'esde la problématique ou généralisés estplusreprésentatif moindrescarréspondérés de la varianceinégaledesestimateurs timation régionaledesquantilesen raisonrespectivement locauxQr,a(baséssur destaillesd'échantillondifférentes)et de la corrélationspatialeannuelle voisins. pouvantexisterentredesDMA de sitesgéographiquement En ce qui concernele problèmedesvariancesinégales,nousavonsvu que le modèlederégression locale ne permetI'utilisation que d'une approcheparticulièred'estimationpar moindres a priori de la pondération carréspondéréset que cetteestimationrequiertune connaissance accordéeà chacunedesobservations(chacundessiæs).Il seraitintéressantde disposerd'une méthodeobjectiveet optimalepour déterminerla fonction de pondérationà employer.Cette fonctionpourraitêtreobtenueen optimisantun critèrede performanceet devraitprobablement locauxdes tenir comptede la formeparamériquede l'expressionde la variancedesestimateurs quantiles. En ce qui concemele problèmede la corrélationspatialedeserreurs,Opsomeret al. (1999), en présenced'erreurscorrédansunerevuesur le problèmede la régressionnon paramétrique lées,mentionnentque ce n'est que récemmentqu'un certainnombred'auteursont commencé au problèmede la présenced'une strucà s'intéresser(pour la régressionnon paramétrique) 132 desquantilesde crue ... Modélisationadditivepar polynômeslocauxpour la régionalisation ture dansla matricede corrélationdeserreurs.Il seraitdonc intéressantd'effectuerune analyse des différentesméthodesdisponiblesafin de déterminercelle qui est la plus appropriée pour le problèmede la régionalisationdesquantilesde crue.À cet égard,I'article de Opsomer On y présented'ailleursun exemple et al. (1999)sembleêtre un point de départintéressant. à proposde mesuresde I'acidité de lacset rnultidimensionnelle derégressionnon paramétrique on modélisela corrélationspatialedeserreursà I'aide de la structureexponentiellesuivante: Cov(ea,ei) : o2 exp(-d,ii/p) où d,;i estla distanceeuclidienneentredeux lacs i et j. Cette approchepourraitêtreadaptéeau casde la modélisationadditive. Danscettethèse,les diversescalibrationsdes modèlesadditifs ont été effectuéesà I'aide de la version4.0 du logiciel S-Pluspour Windows.Nous avonsainsi du retenirune procédurede calibrationqui est facilementdisponibleavecS-Plus.D'autresprocéduresde calibration(e.g. méthoded'Opsomer(Opsomer,1995),BRUTO (Hastieet Tibshirani,1990))sont disponibles et étudiées.Dans un même ordre d'idées,il serait aussi et mériteraientd'être programmées de S-Pluspermettantd'effectuerla procédurede utile de disposerd'un programmeindépendant modélisationadditiveproposée.Cetteprocédurepourraitaussiêtre ajoutéeà certainslogiciels tel que le logiciel HYFRAN. hydrologiques, L'approchede modélisationadditivepourraitaussiêtreappliquéeà d'autresdomainesde I'hydrologie statistiqueet plus particulièrementaux domainesoù la régressionnon paramétriquea Enfin, cetteapprochede modélisationn'a été déjàpermisd'obtenir desrésultatsintéressants. par régiond'influence.D'autresétudesde comparaicomparéequ'à la méthodede la régression de comparer,par exemple,I'approchede modélisation Il seraitintéressant sonsontnécessaires. additiveà une approchede régressionpour laquelleune analysedescorrélationscanoniquesa permisde déterminerles voisinages(cf.4.3.2.4). Bibliographie desétiageset de leurs duréesen vue de Abi-Zeid, I. (1997). La modélisationstochastique l'analysedu risque. Thèsede Doctorates Sciences(Eau),INRS-Eau,Universitédu Québec, Ste-Foy(Québec). kernelestimationof flood frequencies.WaterResources Adamowski,K. (1985).Nonparametric Research,2I (lD, 1585-I 590. estimation Adamowski,K. (1989).A MonteCarlocomparisonof parametricandnonparametric Journalof Hydrology,108,295-308. of floodfrequencies. estimationof low-flowfrequencies.Journalaf HydraaAdamowski,K. (1996).Nonparametric Iic Engineering,122, 46-49. regressionto groundwater Adamowski,K., et Feluch,W. (1991).Applicationof nonparametric levelprediction.CanadianJournalof Civil Engineerin7,18,600-6Û5. analysisby nonpaAdamowski,K., Gingras,D., et Pilon,P.J. (1994).Regionalfloodfrequency rametricand L-Momentmethods for Ontarioand Quebec(Reportto NSERCStrategicGrant). Ottawa: Universityof Ottawa,Facultyof Engineering. flood ,magnitudeestimator.Joumalof Hydro' Bardsley,W. E. (1989).A simpleparameter-free Iogy, 108,249-255. Becker,R. A., Chambers,J. M., et Wilks, A. R. (1988). TheNew S Language.PacificGrove, CA : Wadsworth& Brooks/Cole. PrincetonUniversityPress. Bellman,R. E. (1961).AdaptiveControlProcesses. Benson,M. A. (1962). Evolutionof methodsfor evaluatingthe occurenceof fl.oods(USGS Water-SupplyPaper1580-A).Washington,DC : US Govt.PrintingOffrce. Benson,M. A. (1968).Uniform floodfrequencyestimatingmethodsfor federalagencies.Water 4(5),891-908. ResourcesResearch, Berniet J. (1990). Les incertitudeshydrologiquesdansles problèmesde dimensionnement de I'eau,3(l),37-53. Revuedessciences d'ouvrages. Bernier,J. (1993).Surles utilisationsdesL-momentsenhydrologiestatistique.RapportInterne No 128,Institutnationalde la recherchescientifique,Ste-Foy,Québec. Bernier,I. (1997). Risqueet décisionsen gestionde l'eau : Essaid'analysede la rationalité du dialogueentrelrydrologueet gestionnairelPapierprésentéau SéminaireJacquesCartier sur I'Analysede Décisionet du Risqueen Hydrologie,ZT'29octobre19971. 134 desquantilesde crue ... Modélisationadditivepar polynômeslocauxpour la régionalisation type3 distributionand its applicationin hydrology.Water Bobée,B. (1975).The log-Pearson Resource s Research,I J(5), 681-689. Bobée,8., et Ashkar,F. (1991). The GammaFamily and Derived Distributionsapplied in Publications. Hydrology.Littleton,Colorado: WaterResources P.F. (1993).Towardsa systematic G., Ashkar,F.,Bernier,J.,et Rasmussen, Bobée,8., Cavadias, approachto comparingdistributionsusedin flood frequencyanalysis. Journal of Hydrology, 142,t2l-136. P. F. (1994). Statisticalanalysisof annualflood series. Trendsin Bobée,B., et Rasmussen, Hydrology,l, ll7-I35. P. F. (1995).Recentadvancesin flood frequencyanalysis.U.S.NaBobée,8., et Rasmussen, tional Reportto International Unionof Geodesyand Geophysics1991-1994,Reviewsof Geophysics,33suppl. Bowers,N. L., Gerber,H. U., Hickman,J. C., Jones,D. A., et Nesbitt,C. J. (1986).Actuarial Mathematics.Itasca,Illinois : The Societyof Actuaries. Breiman,L., et Friedman,J. H. (1985). Estimatingoptimal transforrnationfor multiple re. Journalof theAmericanStatisticalAssociation,S0, gressionandcorrelation(with discussion) s80-619. Buja,A., Hastie,T. J., et Tibshirani,R. J. (1989). Linear smoothersand additivemodels(with discussion). Annalsof Statistics, I 7(2), 453-555. Burden,R. L., et Faires,J. D. (1939). NumericalAnalysrs.Boston: PWS-KENTPublishing Company. Bum, D. H. (1990a).Evaluationof regionalflood frequencyanalysiswith a regionof influence approach.Water Resources Research,26(10),2257-2265. 'region of influence'approachto flood frequency Burn, D. H. (1990b). An appraisalof the analysis.Hydrological Sci ences Joumal,35(2), I 49- 165. Cavadias,G. S. (1989). Regionalflood estimationby canonicalcorrelation[Paperpresented to the 1989AnnualConferenceof the CanadianSocietyfor Civil Engineering,St-John's,Newfoundlandl. Cavadias,G. S. (1990). The canonicalconelationapproachto regionalflood estimation.In of the Ljubljana Symposium,April 1990,p. I7LRegionalizationin hydrology(Proceedings no. 191. 178).IAHS Publications J. M., et Hastie,T.J. (1992').StatisticalModelsin S. PacificGrove,CA : Wadsworth Chambers, andBrooks/Cole. BIBLIOGRAPHIE t35 Chow,V. T. (1964).Handbookof AppliedHydrology.New York: McGraw-Hill. JourCleveland,W. S. (1979).Robustlocally weightedregressionand smoothingscatterplots. nal of theAmericanStatisticalAssociation,74,829-836. Cleveland,W. S.,et Devlin, S. J. (1988).Locally weightedregression: An approachto regressionanalysisby localfitting.Journalof theAmericanStatisticalAssociation,83,596-610. Cleveland,W. S., et Loader,C. L. (1994). Smoothingby localfitting : VariousissuesstimulaReport). Murray Hill, New Jersey: AT&T Bell ted by a paper of Fan and Maron (Research Laboratories. Cleveland,V/. S., et Loader,C. L. (1996ù. Smoothingby local regression: Principlesand Aspects methods.In IV. Hlirdleet M. G. Schimek(Eds.),StatisticalTheoryand Computational of Smoothing(p. IO-49).New York : Springer. "Smoothing Cleveland,\M.S., et Loader,C. L. (1996b).Répliqueailx discussionsde l'article by local regression: Princîplesand methods"par W S. Clevelandand C. L. Loader(Research Report).MurrayHill, New Jersey: AT&T Bell Laboratories. Craven,P,,et'Wahba,G. (1979). Smoothingnoisy datawith splinefunctions. Numerische Mathematik,3I, 377-403. Cunnane,C. (1978).Unbiaisedptottingpositions- a review.Joumal of Hydrology,37,205-222. Cunnane,C. (1987).Reviewof statisticalmodelsfor floodfrequencyestimation.In V. P.Singh (Ed.),HydrologicFrequencyModeling(Proceedings of the InternationalSymposiumon Flood Frequencyand Risk Analysis,Baton Rouge,LA, p. 49-95). D. Reidel PublishingCompany, Boston. analyses(Manualof Hydrology : Part 3. Flood-flow Dalrymple,T. (1960). Flood-frequency DC : U.S. Govt.PrintingOffice. techniques).V/ashington, Dawdy,D. R. (1961). Variationof flood ra.tioswith size of drainagearea.(USGSResearch PaperC36). Reston,VA. D. G. (1973). Objectiveregionalizationof peakflow rates.In E. F. Koelzer,V. A. DeCoursey, Koelzer,et K. Mahmood@ds.),Floodsand Droughts(Proceedingsof the 2nd International Symposiumin Hydrology,September11-13,t972, Fort Collins, Colorado,p. 395405). Fort Publications. Collins,Colorado: WaterResources Duckstein,L., et Parent,E.(1.997).Cadregénérald'analyseet de gestiondu risqueet applica' au SéminaireJacquesCartiersur I'analysede décisionet du risque tions lConf&enceprésentée en hydrologie,27-29octobre19971. 136 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation Efron,8., et Tibshirani,R. J. (1993).An Introductionto the Bootstrap.New York : Chapman andHall. Fill, H. D. (1994). Improvingfloodquantileestimatesusingregionalinformation.PhD Dissertation,CornellUniversity,Itlaca,New York. Fill, H. D., et Stedinger,J. R. (1993).Usingregionalregressionwithin indexffood procedures andan empiricalBayesianestimator.Journalof Hydrology,2l0,l28-t45. Fisher,R. A., et Tippett,L. H. C. (1923). Limiting forms of the frequencydistributionof the smallestand largestmemberof a sample.Proceedingsof the CambrtdgePhilosophiaSociery, 24, t80-190. Fortin,V. (1994). [Jneméthoderationnellede comparaisondesdistrtbwionsde crwe.Mémoke demaîtriseesSciences(Eau),INRS-Eau,Universitédu Québec,Ste-Foy(Québec). àl'aide deprobabilités del'informationhydrologique Fortin,V. (1997).Estimationdelavaleur imprécises.Thèsede Doctorates Sciences(Eau),INRS-Eau,Universitédu Québec,Ste-Foy (Québec). Friedman,J. H. (1991). Multivariateadaptiveregressionsplines(with discussion).Annalsof I 9(l), l-1 41. Statistics, Friedman,J. H., et Stuetzle,V/. (1981).Projectionpursuitregression.Journalof theAmerican StatisticalAssociation,76, 817-823. regiondelineationbasedon annualflood Gingras,D., et Adamowski,K. (1993).Homogeneous generationmechanism s. HydrologicaI Sciences Joumal, 38(2), LA3-nl . by nonparametric Gingras,D., Alvo, M., et Adamowski,K. (1995).Regionalfloodrelationships regression.Nordic Hydrology,26,73-90. and GeneralizedLinear Green,P.J., et Silverman,B. W. (1994). NonparametricRegression Models. New York : ChapmanandHall. J. A., Landwehr,J.M., Matalas,N.C., etWallis,J. R. (1979).Probabilityweighted Greenwood, in inverse of severaldistributionsexpressable moments: Definition andrelationto parameters /5(5), 1049'1054. Research, form. WaterResources and review of somemethodsfor regionalflood frequency GREHYS. (1996a). Presentation analysis.Joumal of Hydrology,I 86,63-84. of regionalflood frequencyproceduresfor Canadian GREHYS. (1996b). Inter-comparaison rivers.Journalof Hydrology,I 86,85-103. Greis,N. P. (1983).Floodfrequencyanalysis: A reviewof 1979-t982,Reviewsof Geophysics and SpacePhys.,2I (3), 699'706. BIBLIOGRAPHIE r37 Greis,N. P.,et Wood,E. F. (1981). Regionalflood frequencyestimationandnetworkdesign. I 7(4), 1167-TI77. Research, WaterResources Gu, C., et Wahba,G. (1988).MinimizingGCV/GMLscoreswith multiplesmoothingpararneters via theNewtonmethod(TechnicalReport847). Universityof Wisconsin-Madison. Gupta,V. K., etDawdy,D. R. (1995).Physicalinterpretationof regionalvariationsin thescaling exponentsof flood quantiles.Hydrologicalproces ses,9, 347-36I. Gupta,V. K., Mesa,O. J.,et Dawdy,D. R. (1994).Multiscalingtheoryof floodpeaks: Regional quantileanalysis.Water Resources Research,30(12)" 3405-3421. Gupta,V. K., etV/aymire,8. (1997).Scaleinvarianceandregionalizationof floods.In G. Sposito in Hyd.rolagy.CambridgeUniversityPress. (Ed.),ScaleInvarianceand ScaleDependence Halphen,E. (1941).Surun nouveautype de courbede fréquencÊ.Comptesrendusde I'Acadé' Tbme2I 3, 633-635. mie desSciences, Regression.Cambridge:'CambridgeUniversity Htirdle, W. (1989). ApptiedNonpararmetrtc Press. Hastie,T. J., et Loader,C. L. (1993). Local regression: Automatickernel carpentry(with aI Science, 8, 120-143. discussion).Statistic Hastie,T. J., et Tibshirani,R. J. (1987). Generalizedadditivemodels : Someapplications. Journalof theAmericanStatisticalAssociation,82(398),37l-386. Ad.ditiveModels. New York : Chapman Hastie,T. J., et Tibshirani,R. J. (1990). Generalized andHall. Hastie,T. J., Tibshirani,R. J., et Buja, A. (1993). Flexiblediscriminantanalysisby optimal scoring (ResearchReport).Murray Hill, New Jersey: AT&T Bell Laboratories. Haz,en,A.(1914a).Storageto be providedin impoundingreservoirsfor municipalwatersupply. of theAmericanSocietyof Cîvil Engineers,77,1547-1550. Transactions "Floodflows" par W. E. Fuller. Transactions of the Hazen,A. (1914b).Discussionde I'article American Societyof Civil Engineers,77, 626'632. Hodge,S.A., et Tasker,G. D. (1995). Magnitudeandfrequencyof floods in Arkansas(U.S. InvestigationsReport 954224). Little Rock, Arkansas. GeologicalSurveyWater-Resources Hoerl,A. 8., et Kennard,R. W. (1970).Ridgeregression: biasedestimationfor nonorthogonal 12, 55-67. problems.Technometrics, Horton, R. E. (1913). Frequencyof recurrenceof Hudsonriver floods. U.S.WeatherBureau Bulletin,2,109-112. 138 desquantilesde crue... Modélisationadditiveparpolynômeslocauxpour la régionalisation Hosking,J. R. M. (1986). Thetheoryof probability weightedmornents(ResearchRepot RC Division. 13412).New York : IBM Research Hosking,J. R. M. (1990). L-moments: Analysisand estimationof distributionsusing linear Joumalof theRoyalStatisticalSociery,52(l),rc5-l24. of orderstatistics. combination usefulin regionalfrequencyanalysis. Hosking,J. R. M., et'Wallis,J. R. (1993).Somestatistics WaterResources Research,29(2),27l'281. Hosking,J. R. M., Wallis,J. R., et Wood,E. F. (1985a).An appraisalof the regionalflood frequencyprocedurein theUK flood studiesreport. HydrologicalSciencesJoumal,30(1), 85109. Hosking,J. R. M., Wallis,J. R., et Wood,E. F. (1985b).Estimationof the generalizedextreme . kchnometrics,27,25l-261. valuedistributionby themethodof probabilityweightedmoments Hydrology Subcommitteeof the InteragencyAdvisory Committeeon Water Data . (1982). Guidelinesfor determiningflood frequency(U.S. GeologicalSurveyBulletin 1?B, Office of IVaterDataColection).Reston,Virginia. IEA. (1937). Australianrainfall and runofffloodf'requencyanalysisand design Canberra: Instituteof Engineers,Australia. Jenkinson,A. F. (1955). The frequencydistributionof the annualmaxirnum(or minimum) valuesof meteorologicalelements.QuaterlyJoumal of the RoyalMeteorologicalSociety,8l, 158-r71. Jennings,M. 8., ThomasJr., W. O., et Riggs, H. C. (L994). Nationwidesummaryof U.S. GeologicalSurveyregionalregressionequationsfor estimatingmagnitudeand frequencyof InvestigationReport f.oodsfor ungaugedsites,1993(U.S.GeologicalSurveyWater-Resources 94-4002).Reston,Virginia. characteristics. Kinnison,H. 8., et Colby,B. R. (1945).Floodformulasbasedon drainage-basin of theAmericanSocietyof Civil Engineers,I I 0, 849-904. Transactions Research,18(2),315-324. models.WaterResources G. (1932).Robustfloodfrequency Kuczera, functionestimation: Recenthydrologicapplications.U.S.NaLall, U. (1995). Nonparametric 1991'1994,Reviewsof Geotional Reportto InternationalUnion of Geodesyand Geophysics physics,33suppl. "Relative Landwehr,J. M., Tasker,G. D., et Jarrett,R. D. (1987). Discussionde I'article accuracyof log-PearsonIII procedures"par J. R. Wallis et E. F. Wood. Journal of Hydraulic Engineertng,I 13, 1206-t2LO. BIBLIOGRAPHIE 139 D. P. (1985).Regionalisation infloodfrequencyanalysis: Is it theanswer? [Paper Lettenmaier, presentedat US-ChinaBilateral Symposiumon the Analysis of ExtraordinaryFlood Events, Nanjing,October19851. D.P., et Potter,K. V/. (1985).Testingflood frequencyestimationmethodsusinga Lettenmaier, Research,2I(I2),1903-1914. model.WaterResources regionalfloodgeneration Research,22(9), Linsley,R. K. (1986).Floodestimates: How goodarethey? WaterResources 159S-1645. T..oader, andLilcelihood.New York, NY : Springer-Verlag. C.L. (1999).Local Regression onCo. Technometrics,15,66l'675. Mallows,C. (1973).Somecomments Mimikou, M. (1990). Regionalanalysisof hydrologicalvariablesin Greece.TnRegionaliza' of the Ljubljana Symposium,April 1990,p. 195-201).IAHS tion in hydrology(Proceedings no. 191. Publications Moon, Y.-I.,et Lall, U. (1994).Kernelquantilefunctionestimatorfor flood frequencyanalysis, Research, 30(ID, 3095-3103. WaterResources Appliquee,3,2143. Morlat,G. (1956).Leslois deprobabilitédeHalphen.RevuedeStatistique Mosley,M. P. (1981).Detimitationof New Zealandhydrologicregions.Journalof Hydrology, 49,173-L92. Moss, M. E. (1979). Space,time, and the third dimension(modelerror). WaterResources Research,I 5(6), 1797-1800. curve Mûller, H. G. (1987). Weightedlocal regressionandkernelmethodsfor nonparametric Association,82,23I-238. fitting.foumal of theArnertcanStatistical NERC. (1975). Flood StudiesReport (Vol. 1). London : National EnvironmentResearch Council. : Nguyen,V.-T.-V.,et Pandey,G. R. (1994).Regionalfloodestirnationusingregressionmethods and EngineeringSeries, ResearchReport Management study(WaterResources a cornparative no WRMEgAll). Montreal: McGill University. Nguyen,V.-T.-V.,et Pandey,G. R. (1996).A newapproachto regionalestimationof floodsin de la 49ième Quebec.In C. E. Delisle et M. A. Bouchard(Eds.),Compterendu/ Proceedings annuellede I'ACRH(CWRA),Québec,26-28juin 1996(Yol.II No. 6 horssérie,p. Conférence de I'Universitéde Montréal. 537-596).CollectionEnvironnement research. NRC. (1938).Estimatingprobabilitiesof extreme floods : Methodsand recommended WashingtonD.C. : NationalAcademyPress. 140 Modélisationadditivepar polynômeslocauxpour la régionalisationdesquantilesde crue ... Opsomer,J.-D. (1995). Optimalbandwidthselectionfor fitting an additive model by local polynomialregressionPhDDissertation,CornellUniversity,Ithaca,New York. Opsomer,J.-D.,Wang,Y., et Yang,Y. (1999). Nonparametrtcregressionwith correlatederrors (Versiondu ler février 1999,soumispour publication).IowaStateUniversity. P.F., et Bobée,B. (1997).Regionalizationof floodsby Ouarda,T. 8., Boucher,G., Rasmussen, canonicalcorrelationanalysis.In J. C. RefsgaardetE. A. Karalis(Eds.),OperationalWaterMa' AssociationConference,Copenhagen, of theEuropeanWaterResources nagement(Proceedings er 1997, p. 297-302).Rotterdam: A.A. Balkema. Denmark,3-6 septemb Ouarda,T. 8., Haché,M., et Bobée,B. (1998). Projet C5 - Régionalisstiondes évënements extrêmes(Rapportde rechercheNo R-534).Ste-Foy(Québec): INRS-Eau. hydrotogiques de modèlesrégioOuarda,T. 8., L*g, M., Bobée,8., Bernier,J.,et Bois,P. (1999).Synthèse nauxd'estimationde crueutilisésen Franceet au Québec.Revuedessciencesde I'eau, I2(l), 155-182. "Multivariateadaptiveregressionsplines"par J. H. Owen,A. (1991). Discussionde I'article Friedman.Annalsof Statistics, l 9(I), 102-112. P. F. (1999a).Halphendistributionsystem.I : MathePerreault,L., Bobée,8., et Rasmussen, maticaland statisticalproperties.Journalof HydrologicEngineering,4(3),189-199. P.F. (1999b).Halphendistributionsystem.II : Parameter Perreault,L., Bobée,8., et Rasmussen, andquantileestimation.Joumalof HydrologicEngineering,4(3), 200'208. on flood frequencyanalysis: 1983-1986.Reviewsof Geophysics, Potter,K. lV. (1987).Research 25(2),113-118. Quenouille,M. H. (1956).Noteson biaisin estimation.Biometrtl<a,43,353'360. Reinsch,C. (1967).Smoothingby splinefunctions.NumericalMathematics,10,177'183. Ribeiro-Corréa,J., Cavadias,G. S., Clément,8., et Rousselle,J. (1995). Identificationof usingcanonicalcorrelationanalysis.Journal of Hydrology,173, hydrologicalneighborhoods 7r-89. at ungaugedsites. In Regionalizationin hy' Riggs,H. (1990). Estimatingflow characteristics of theLjubljanaSymposium,April 1990,p. 159-169).IAHS Publications drology(Proceedings n o .1 9 1 . In G. Rossi,N. HarmancioRossi,F.,et Villani, P. (1994a).Regionalflood estimationmethods. glu, et V. Yevjevich(Eds.),Copingwith Floods(p. 135-169).Netherlands: Kluwer Academic Publishers. BIBLIOGRAPHIE r4l Rossi,F., et Villani, P. (1994b).A projectfor regionalanalsysisof floodsin Italy. In G. Rossi, N. Harmancioglu,et V. Yevjevich(Eds.),Copingwith Floods(p.193-217).Netherlands: Kluwer AcademicPublishers. de crue- utilisationd'uneméthodecombidescaractéristiques Roy,R. (1993).Régionalisation Thèsede Doctorates Sciences(Eau),INRSet stochastiques. nantles approchesdéterministes Eau,Universitédu Québec,Ste-Foy(Québec). Roy,R., Bobée,8., Ashkar,F., et Roberge,F. (1989). Regionalflood frequencyusing ridge of theBaltimoreSymModeling(Proceedings regression.InNew DirectionsforSurface-Water no. 1.81. posium,May 1989,p.293-300).IAHS Publications kernelmethod.Annalsof Silverman,B. IV. (1984). Splinesmoothing:The equivalentvariable I 2, 898-916. Statistics, Slack,J. R., et Landwehr,J. M. (1992). HCDN : A U.S.GeologicalSuney streamflowdata (U.S.GeologicalSurvey setfor the UnitedStatesfor thestudyof climatevariations, 1874-1988 Open-FileReport92-129).Reston,Virginia. DataNçlwork(HCDN): Slack,J. R., Lumb,A.M., etLandwehr,J. M" (1993).Hydro-Climatic Report Investigations (U.S.GeologicalSurvey"lVater-Resources dataset, 1874-1988 Streamflow %-4A7q. Reston,Virginia. Sockett,E. 8., Daneman,D., Clarson,C., et Ehrich,R" lW.(1987).Factorsaffectingandpatterns diabetesmellitus of residualinsulin secretionduringthe first yearof type I (insulindependent) in children. Diabet.,30, 453-459. Stedinger, J. R., et Cohn,T. A. (1986).Floodfrequencyanalysiswith historicalandpaleoflood information. Water Resources Research,22(5), 785-793. Stedinger,J. R., et Tasker,G. D. (1985). Regionalhydrologicanalysis.1. Ordinary,weighted leastsquarescompared.Water ResourcesResearch,2l (9), l42l -1432. andgeneralized Stedinger,J. R., et Tâsker,G. D. (1936). Regionalhydrologicanalysis.2. Model-errorestiResearch, mators,estimationof sigmaand log Pearsontype 3 distributions.WaterResources 22(10),1487-1,499. E. (1993).Frequencyanalysisof extreme Stedinger,J. R., Vogel,R.M., et Foufoula-Georgiou, events.ln Handbookof AppliedHydrology(p. 18.1-18.66). regression.Annals for nonparametric Stone,C. J. (1982). Optimalglobalratesof convergence 10, 1040-1053. of Statistics, models.Annalsof Statistics, andothernonparametric Stone,C. J. (1935). Additive regression 13,689-705. I42 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation of statisticalpredictions(with dischoiceand assessment Stone,M. (1974} Cross-validatory cussion).Joumalof theRoyalStatisticalSociety,36(B),lll-I47. Tasker,G. D. (1982). Comparingmethodsof hydrologicregionalization. WaterResources Research,/8(6), 965-970. for estimating Tasker,G. D., Hodge,S. A., et Barks,C. S. (1996).Regionof influenceregression Bulletin,32(L),163-170. the5O-year floodat ungaugedsites.WaterResources Tasker,G. D., et Slade,R. M. (L994).An interactiveregionalregressionapproachto estimating Policy and Manageflood quantiles.In D. G. Fontaneet H. N. Tuvel (Eds"),WaterResources of the 21st AnnualConferenceon WaterResources ment: Solvingthe Problems(Proceedings p.782-785).New York : ASCE. PolicyandManagement, of flood characteristics employing Tasker,G. D., et Stedinger, J. R. (1987).Regionalregression historicalinformation. Journalof Hydrology,96,255-264. ThomasJr.,W. O. (1994).History andoverviewof floodregionalizationmethods.InNationwide Equationsfor EstimatingMagnitude Summaryof U.S.GeologicalSurveyRegionalRegression and Frequencyof Floodsfor UngaugedSites,1993(U,S. GeologicalSurveyWater-Resources InvestigationReport94-4002,p. 3-5). Reston,Virginia. USV/RC. (1981). Guidelinesfor determiningflood.flowfrequency.Washington,DC : United StatesWaterResources Council,HydrologyCommittee. Vieu, P. (1996). Régressionnon paramétriquemultidimensionnelle.In RecueildesRésurnés des Communications des)O(YIIIe Journéesde Statistique(ASU 96) (p.85-87). Sainte-Foy, UniversitéLaval,27-30mai 1996. 'Wand, M.P., et Jones,M. C. (1990).KernelSmoothing.London: ChapmanandHall. Weber,J. E., Kisiel, C. C., et Duckstein,L. (1973).On the mismatchbetweendataandmodels Bulletin,9(6), 1075-1088. of hydrologicandwaterresourcesystems.WaterResources 'Wegman, E. J., et Wright, I. W. (1983). Splinesin statistic.Journalof theAmericanStatistical Association,78(382),351-365. Weibull,Vi. (1939). A statisticaltheoryof the strengthof materials. In (The Royal Swedish Akademiens-Handlingar, IngeniorsVetenskaps Institutefor EngineeringResearch Proceedings). n o .1 5 1 . White,E. L. (1975).Factoranalysisof drainagebasinproperties: classificationof floodbehavior Bulletin,I1(4),676-686. in termsof basingeomorphology.WaterResources Wiltshire,S. E. (1986a).Regionalflood frequencyanalysisI : Homogeneitystatistics.Hydrological SciencesJournal,3I (3), 321-333. BIBLIOGRAPHIE Wiltshire,S. E. (1986b). Regionalflood frequencyanalysisII : Multivariateclassificationof s Journal,3I (3), 335-346. drainagebasinsin Britain. HydrologicaI Science 'Wu, K., et'Woo, M. K. (1989). Estimatingannualflood probabilitiesusing Fourierseries method.Water Resources Bulletin,25(4), 743-750. Yakowitz,S.J. (1985).Nonparametric densityestimation,prediction,andregressionfor markov sequences. Journal of theAmertcanStatisticalAssociation,30(389),205-221. Yevyevich,V. (1974). Determinismand stochasticityin hydrology.Journal of Hydrology,22, 225-238. Zrtnji,Z., etBurn, D. H. (1994).Floodfrequencyanalysisfor ungaugedsitesusinga regionof influenceapproach.Journalof Hydrology,153,l-2I. Modélisatonadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... A. Estimationde Qr par GEV/PWM Nous présentonsdans cette annexela procédured'estimation locale de Qr à partir d'un échantillon de taille n de débitsmaxima annuels(DMA) (*r,rr,...,so) à I'aide de la loi généralisée des valeurs extrêmes(GEV) et de la méthode des momentspondéréspar probabilités (PWM). desvaleursextrêmes(GEy) La loi généralisée La théoriedesvaleursextrêmesoriginedestravauxde Fisheret Tippett(1928)qui ont démontré possiblespour la distributionde la plus grande(ou l'existencede trois formesasyrnptotiques plus petite)valeurd'un échantillonde taille n,.Jenkinson(1955)a par la suitemontréque les parla forme généralesuivante: trois distributionsde valeursextrêmespouvaientêtreexprirnées F ( u ) : e x p- [{ - ( 1\ - - * (' : €);'ru} a ' ) (A.1) où a est un paramètred'échelle,f un paramètrede positionet fr un paramètrede forme. L'estimationpar momentspondéréspar probabilités(PIilM) Greenwoodet al. (1979) ont défini formellementles PWMs d'une variablealéatoireX de fonction de répartition.F.par : Mr,,,, :_ E{r{F)PF [1 - F]'] çr : - F]'dF Joln@)leF'll (A.2) (4.3) où i, j et k sont des nombresréelset r(f') est la fonction de répartitioninversede F. Pour l'estimationde la loi GEV nousutilisonsun casparticulierde PWM, les B, définispar : F,: = Io' r(F)F'dF ML,r,o (4.4) L'estimationpar P\ilM estsimilaireà I'estimationà I'aidedela méthodeclassiquedesmoments en ce sensoù nous associonsles PWMs estimésà I'aide des observationsaux PWMs empiriquesde la loi à estimerpuis résolvonsle systèmed'équationsainsi formé. PourI'estimation Hosking,V/allis,et liVood desPWMs (Ér) empiriques,nousutilisons,tel quele recommandent L46 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... (1985b),lesestimateurs suivants: biaisésmaisconsistants B_:ti (+g)'",,, n ) ,,_nâ\ (A.s) la z ièmeplus petitevaleurde l'échantillondesDMAs. où rlry représente Application des PWMs à Ia loi GEV suivante: En utilisantl'équation(A.1), il estpossibled'obtenirpour r(F) I'expression r(F)- t+itt- (-log(r))&l (A.6) En insérantce résultatdansl'équation(A.4), il estpossibled'obtenirI'expressiongénéralesuivantepour les B, empiriques: ^ - e + i [ 1- ( r + t ) - k r ( t + / c ) ] r+L (4.7) où f (.) estla fonctiongammadéfinieparf(r) - Jf y-1"-167. trois PWMs sontrequispourI'estimation.En Puisquela loi GEV estuneloi à trois paramètres, utilisant 00,gt et 92, il est alorspossibled'obtenirle systèmed'équationssuivantà résoudre: Êo:€+itr-r(1+,h)l 2h - Bo: f,rqt+ &Xl- 2-k) (A.8) (A.e) et 3 g z - Ê o_ 1 - 3 - o 2fu- Êo 1-2-k (4.10) qu'à I'équation(A.10),seulle paramètrede forme /t estinconnu.I1n'existecepenRemarquons dantpasde solutionexplicitepour k maisunebonneapproximation(Hoskinget al., 1985b)est donnéepar: fr -7.859e*2.9554c2 ou ^" -- 2 0 t - 0 o ln2 B P r - P o t"3 ( 4.11) Estimationde Qr parGEVÆWM 147 Les paramètresd'échelle et de forme peuvent alors être estimésrespectivement,à I'aide de (4.8) et (4.9), par: " (2P,- gùî' g_----------.------------------;_ f ( l + k ) ( 1- z - * ; ^ ^ ' € : É o +ki t r ( + l Ê )- 1 1 (4.12) (4.13) Enfin, en utilisationla relationsuivanteentrela périodede retour 7 et la probabilitéau non dépassement F F -L-Llr (4.14) de I'estimateurdu quantilede et en sebasantsurl'équation(A.6), on obtientcommeexpression crue : - Lln)i'| 8, : * * ilt - t*rog(1 (A.rs) auxéquations(A.tr1),(A.12) et (A.13). où les paramètres f, â et  sontdéfinisrespectivement desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation B. Donnéeset résultatsdu Texas / climatologiqueset hydrolodanscetteannexeles donnéesphysiographiques Nousprésentons giquesayantservi aux diversesmodélisations de la section5.3. Mentionnonsque nousprésentonslesdonnéesen unitésde mesuresmétriquesalorsquela modélisationa plutôt étéeffectuée disponiblessur internetvia avecles donnéesoriginales,en unitésde mesuresanglo-saxonnes, Nousprésentonsaussiles résulFTP à I'adresseinternetftp ://ftprvares.er.usgs.gov/hcdn92/. à la section5.3. tats,sousformede figures,n'ayantpasétéprésentés Les donnéesphysiographiqueset hydrologiques Nous présentons, dansun premiertemps,I'ensemblede donnéescomposédes 69 stationsdu Nousretrouvonsdanscetableau,pourchacunedesstations, Texasutiliséespourla modélisation. le numérod'identificationdela station(NO),la superfrcie(A) dubassinversant,enkm2,la pente (S) du coursd'eau principal,en mlkm, la précipitationmoyenneannuelle(P) survenantsur le bassinversant,en cm, l'élévationmoyenne(EL) du bassinversant,en m, la longueur(L) du de débitsmaximaannuels(n) de même coursd'eauprincipal,en m, le nombred'observations queles estimationsdesdébitsde crue(Qù, en m3/s,de périodesde retour7 égalesà 2,5, 10, 25 et 50 années. Tns. B.1: Donnéesdu Texas NO A S 08025500 383.3 r.69 08029500 331.5 2.27 08030500 24r60 0 .1 4 08032000 2966 4.43 08033s00 9417 0.24 08033900 409.2 1 .3 8 08041000 2A59CI 0.2 08041500 2227 0.73 08042800 r769 0.78 08053500 1036 1 . 3 08055500 6369 1 . 1 5 Suitepagesuivante P 1372 1346 1422 1105 1245 I 168 1 410 1372 749 813 889 EL SH 92 99 86 147 76 I28 85 59 324 279 237 36.4 3 1 n 33.s 36 867 42 t43 49 447 56 Qz 86 49 Qs 170 90 1 1 1 8 1653 161 3 1 8 412 719 117 68 834 1383 236 486 152 66 176 79 24 45 52 32 95.6 39 T æ 47 357 34.4 563 115 94 7ro Qto 255 130 2040 459 Qzs 415 205 2568 696 ï246 196 2421 tt54 M6 405 Qso 586 283 2992 927 r492 231 2942 1595 726 681 248 542 263 1051 rc64 2290 941 151 1807 150 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... du Texas(suite) Tas. B.l: Données NO A SH n Qz r.32 1 0 1 6 127 41.2 26 29 r.42 TT94 8 1 34.6 25 95 0.9 tt94 87 68.4 49 127 1 .5 4 1 1 8 1 88 46.3 44 52 r . 4 l 584 737 282 59 2 1 2 1 . 8 572 805 264 23 246 0.99 673 66t 452 64 419 r . 1 6 660 432 52.6 25 1 t 2.09 508 667 63.r 26 2 l 0.95 635 529 rc1 26 42 0.86 673 554 319 64 160 1 .8 5 800 339 136 65 262 S 08064800 5 3 6 .1 08066200 365.2 08070000 8 4 1 .8 08070500 272 08080500 22780 08082000 13290 08082500 40240 08082700 269.4 08083100s90.5 08084800 1238 08085500 10330 08095000 2507 08095300 471.4 3.6 08101000 1178 2 .1 08103900 86.25 5.94 08109700 6t1.2 0.85 08109800 632 0.8 08111700973.8 0.9r 08126500 425I0 0.67 08128000 1070 2.25 08128500 6871 1.47 08130500 593.1 2.82 08134000 3279 r.79 08144500 2940 1 . 5 1 08146000 7889 1.64 08150000 4847 1 .8 9 08150800 556.8 3.97 0815150010870 r.67 08153500 2334 2.42 081580001010000.66 08163500 279.7 1 .7 8 Suitepagesuivante P EL 8 1 3 273 50.8 787 377 TT7 749 373 18.8 927 t44 64.5 940 134 55.7 1041 97 75.1 470 640 394 419 7t8 55.5 470 768 175 457 736 48.9 508 597 660 597 635 673 749 851 1054 754 1 1 3 69r 96.5 601 232 670 569 596 549 616 t07 t07 56.3 237 1t7 944 38.6 26 38 25 26 26 25 45 58 30 28 64 73 73 73 25 49 49 36 49 88 113 t2 43 51 298 398 23 96 t3 52 Qs 58 176 280 98 414 4tl 765 32 45 99 JJJ 460 r78 251 23 81 98 485 @9 76 184 36 350 Qso 194 447 696 200 974 258 Qto Qzs 87 244 429 l3't r39 597 904 527 682 1025 1393 107 56 66 99 158 274 495 778 589 255 379 3T t07 749 378 601 42 59 275 r04 532 139 r33 184 597 724 8 1 1 1010 141 286 255 36r tzu 803 t699 r69 r29 392 1063 867 493 823 50 r64 226 811 1154 471 453 153 845 852 155 185 313 565 66 162 395 638 1L04 rc20 185 505 829 r434 2087 r28 208 290 82 35 403 855 1215 1756 2230 205 488 777 1322 1 9 1 3 I197 2t0l 3013 4708 6530 176 268 430 598 80 t5l Donnéeset résultatsdu Texas Tes. B.1: Donnéesdu Texas(suite) NO A 08164000 2 t t 6 08164300 859.9 08164500 2139 08166000 295.3 08167000 2L73 08167500 3406 08171000 9r9.4 08171300 1067 08172000 2t70 08175000 t422 08176500 13460 08177500 r33l 08179000 t228 08189500 1787 08190000 1909 08190500 1797 08192000 4824 08194200 tzt5 08194500 20960 08195000 r008 08196000 326.3 08198000 533.5 08198500 624.2 08202700 435.L 08205500 8881 08206700 2028 08210000 39960 S P EL SH 0.62 0.95 0.55 5 .3 6 2.52 952 952 70 103 68 625 523 1 3 0 50 413 60.7 27 r52 39 356 667 38 32.5 45 t 2 332 103 49 t34 209 56 194 464 r66 86.9 5 1 6V t24 32 104 206 177 49 195 377 1û3 278 7.67 J J 666 26 5 1 3 lû34 330 98.5 16 t3'î r.73 3.26 2.58 2.16 10.8 0.8 t.2r 3.07 t.02 2.8 2.6r r.97 1.31 L.L4 3.79 4.74 4.26 3.45 3.85 2.t8 1.34 1.03 902 635 762 813 838 864 838 813 889 864 762 813 584 606 546 404 388 285 tt2 223 73 Qz 285 221 Qs a- 46r 9l:l 4 l B6 212 72 1 1 8 49 r24 295 570 98.r. 65 101 293 616 546 158 276 582 581 63s 520 622 485 572 572 546 6 10 6 10 6 10 635 584 559 635 n 425 337 188 257 101 43 r87 49 66.1, 454 70 52 52.8 82.4 62.9 248 L44 542 26 45 63 36 46 36 28 73 24 68 Qzs Qso t022 1294 759 928 ï462 1968 140 231 534 913 1323 731. 1 2 1 8 1732 266 452 654 283 393 484 5 1 9 727 904 479 901 1409 r496 2260 2993 Qro 719 556 958 69 517 342 478 854 588 838 tz0l" 858 t243 1525 512 973 247 355 &3 965 68 136 363 582 974 t379 r99 330 597 909 79 246 553 83? 1323 1807 64 175 294 529 795 31 69 1 0 1 150 195 40 93 L4l 225 308 M 1 1 1 t75 289 405 160 233 20 55 92 1 1 9 307 519 962 1492 104 202 280 397 501 376 740 1081 1674 2270 I52 desquantilesde crue... Modélisationadditivepar polynômeslocauxpourla régionalisation Résultatsde la modéIisation log-linéaire C! ô o .E {) e a € 6 o N g c ; o o E o , ..4 o a IE @ ci 3 Nombredevariableserelicalives Ftc. 8.1: RMSE de différentsmodèlesde régressionlogJinéairepour I'estimationde Q2 (voir la légendeau tableau5.3) ol e I o .c p o E o l g O e 6 B G' . 9 o tt p ê uJ g) E o ci N ct 3 Nombre de variables explbatives Frc. B.2: RMSE de différentsmodèlesderégressionlogJinéairepour I'estimationde Qs (voir la légendeau tableau5.3) Donnéeset résultatsdu Texas ô & 'e d 3 I o E 6 ^ e { s o Ë o € p o. ol u 5 c o ct 3 Nombrede variablesexplicatives Frc. 8.3: RMSE de différentsmodèlesderégressionlogJinéairepour I'estirnationde 8ro (voir la légendeau tableau5.3) g) N o € .E ci 6 o c .9 6 ! 6 N N ct o Ë p cl. llJ c! o o o o{ o 3 Nombrede variablesexplicatives Frc. 8.4: RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde Qzs (voir la légendeau tableau5.3) 153 L54 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... Résultatsde la modélisation par région d'influence 3g o s .E lô .T Ë o 6 o € : p o 2 23 ^t 23 3 g 4 2 tta 2 2""333, + -c - r r r z3 g 55 5- cc - -.s 'i111'o'o'o,ouor:ii;iï?iiliii:::zzttz;i A ^^ uJ at) = É. 5 's o ,t0 50 Nqnbrede stafonsdânsh régiond'infruence ftc. 8.5: Nombreoptimalde stationsdansla régiond'influencepour Q2 5 ô 9 8 'e o a 5 uu '22zo4gg^^ - ' " ' ; ; ' , : : : 3 âsB 3 s s s s s s 3 3 . s o o o .a Ë 4 t-'iïZ:r"t: a N { c i = o E p ô . 6 g ) o = E 3 ,rrrf,71" -o..3333333r.srtt1, o " ' "" * ooooooo'o'o' ' o^' ' ^ ' ^ 1 ' ^ îr; '; ; ; r l3 r0 . r' g "' s" l t e â e b o 40 50 Nombre de stations dans la région d'inlluence Ftc. 8.6: Nombreoptimalde stationsdansla régiond'influencepour Q5 155 Donnéeset résultatsdu Texas 00 â F i 5 o .!2 u. "s '"-.'""no e e3a^ " " s 34^ i ? L a e q F O E 5 3" r , g uu -tsPegqSr" o t ' ; 7 8 Ê r ' ^ " 3 3 3 3 3 3 s s 3 3 ' r .^.sr 3r :z! 1 , ' oo o' u 3 3 g g z z z z z z 2 2 2 2 2 2 2g é o N Ë c t s ! { o 4 + q 4 4 + + + + + + + 4 4 4 -aoâ|7r i^q^ a5 "s44a4+oo4s o5555555 = ro o 40 50 Nombfe de siations dans la région d'inftJerce Flc. 8.7: Nombreoptimalde stationsdansla régiond'influencepour Q1s 5 o 4 2 ô Ë e E d .9 6 E = $ . o s o g uuu 2222a2o 4'2 tttt...t333u. o 44 4 p 5 D O E 5s o "â"r^ 5 . r i , r " 1u u " u' ssâ63zls. ^ z z 16t5é222raaezeaaazeeS|as a. 5s u, ! D N Ë E 4 4" oo o oïZfu t4 a+4,4444 t:o oooo ool t55s5s55 @ ct 40 50 Nombrede stationsdansla réglond'inffuence Flc. 8.8: Nombreoptimalde stationsdansla régiond'influencepour Q25 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... C. Donnéeset résultatsde la Nouvelle-Angleterre / climatologiqueset hydrolodanscetteannexeles donnéesphysiographiques Nousprésentons giquesayantserviauxdiversesmodélisationsde la section5.4. Mentionnonsque nousprésentonsles donnéesen unitésde mesuresmétriquesalorsquela modélisationa plutôt étéeffectuée disponiblessur internetvia avecles donnéesoriginales,en unitésde mesuresanglo-saxonnes, aussiles résulNousprésentons FIP à I'adresseinternetftp ://ftprvares.er,usgs.gov/hcdn99. à la section5.4. tats,sousforme de figures,n'ayantpasétéprésentés Les donnéesphysiographiqueset hydrologiques Nous présentons,dansun premiertemps,I'ensemblede donnéescornposédes70 stationsde utiliséespour la modélisation.Nous retrouvonsdansce tableau,pour la Nouvelle-Angleterre chacunedesstations,le numérod'identificationde la station(h{O),la superficie(A) du bassin versant,en km2, la pente(S) du coursd'eauprincipal,en mfkm, la précipitationmoyenneannuelle(P) survenantsurle bassinversant,en cm,l'élévationrnoyenne(EL) du bassinversant,en m, la longueur(L) du coursd'eauprincipal,en m,le nomhned'observationsde débitsmaxima annuels(n) de mêmequeles estimationsdesdébitsde crue(8r), en m3/s,depériodesderetour T égalesà2,5, 10,25et 50 années. Tas. C.l: Donnéesde la Nouvelle-Angleterre NO 01010000 3473 010105006941 01011000 3183 010115001357 010135002261 0101400014670 01018000453.2 01021200240.6 010215001 1 8 4 arc22500 587.9 Suitepagesuivante Qso 1022 448 1 1 3 1 0 16 402 r99 994 369 t47 989 369 100 0.53 1001 277 rt7 1.08 1004 366 246 4.99 943 177 24.5 t.02 rc7r 67 45.7 1.09 1067 98 92.8 2.07 1066 98 6 1 . 8 1.1 1.1 0.64 1 .3 2 665 853 9s5 1350 1 8 1I 2083 407 558 6s6 204 283 330 233 298 334 2301 2988 3383 125 147 90 59 49 37 160 216 259 r09 153 r82 1064 2394 778 384 372 3824 rt32 2602 868 421 396 4Lt4 r75 195 73 84 319 369 2r9 247 158 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... (suite) Tae. C.1:Données dela Nouvelle-Angleterre NO A S P EL 01023000383.3 1.47 10s0 134 010305003673 0.77 997 174 01031500771.8 5 .0 1 TW3 320 01033500839.2 6.4r 1 1 0 1 3 5 1 01035000774.4 2 t017 t28 01038000375.5 2.83 r073 104 01047000914.3 9.2 l r 2 3 390 01048000 1 3 3 1 2.78 tt02 317 01052500393.7 7.77 r238 664 01054200 180.3 19.82 I 170 719 01055000 251 16.46 rr94 558 01055500437.7 2.26 1062 323 01057000196.3 9.83 1095 326 01060000 365.2 1.95 rc92 67 01064500997.2 9.66 1284 567 010730003t.34 4.47 t052 6 1 01074500269.4 20.61 t41,9 853 01075000 499.9 15.28 r384 759 01076000 374.4 20.28 1169 482 01076500 1 6 11 7.95 1233 564 01078000222.2 4.28 rt34 384 01086000378.1 6.02 It26 293 0r094000 M2.9 5.91 I 1 1 0 247 01106000 20.75 6.r ro92 43 01l 11300 4 I.M 6.65 rt43 165 0 1 1 1 1 5 0 0236.2 4.47 1143 r52 01117500 259 0.84 1 1 4 8 6r 01117800 9r.r7 5 .8 9 IT94 1 1 0 01I 18000 r87.5 3.07 1194 9 l 01118500 764 0 .5 1 I 168 6 l 01119500 313.4 2.71 r092 216 Suitepagesuivante SH n 5r.2 60 t42 54 58.9 86 62.4 59 35.7 64 4r.7 50 65 67 94.t 5 l 39.7 47 25.6 24 29 40.4 22.8 47.9 56.5 12.7 23.7 s9 47 67 39 65 53 23 37.8 38 36 48 65.2 85 34.6 70 3 8 . 1 39 55 67 9.65 3 8 1 1 . 6 24 29.1 32 29.1 47 17.2 23 22.5 36 s9.9 47 46.7 57 Qz Qs 45 60 467 600 185 277 t99 56 49 239 306 11r 99 82 85 50 96 310 6 93 T64 94 435 43 57 75 4 10 42 20 t2 25 64 50 344 76 77 366 444 T4I L45 Qrc 70 674 352 388 90 r00 465 541 r60 t23 130 75 173 L54 t66 94 r37 r56 455 10 559 t2 I39 185 2.45 314 188 I45 627 773 78 62 79 92 1 1 1 t4l 5 L6 65 28 18 35 87 88 6 20 83 34 zl 42 105 123 Qzs 84 755 469 Qso 95 808 270 424 256 985 L02 108 190 7 25 108 43 24 51 131 185 360 527 575 514 624 1 1 0 126 137 170 609 733 672 776 183 t99 244 226 200 238 219 266 r20 143 204 234 700 8 1 3 15 t7 319 r162 123 119 236 7 29 128 51 27 58 151 248 r59 Donnéeset résultatsde la Nouvelle-Angleterre (suite) Ten. C.l: Donnéesde la Nouvelle-Angleterre NO A 01120500 10.75 0112100074.07 01127500231.3 01134500 194.8 0l 137500 226.9 0114250078.99 01144000 t787 01145000208.5 01153500266.8 0116250050.25 01165000130.8 011655003t.34 01169000230.5 0116990062.42 01170100r07.2 01174000 8.78 un49a0 6.6A4 01175500489.5 01176000388.5 011800004.481 01180500136.5 01181000243.5 0118800010.62 01193500 259 01196500297.8 01198000132.1 01201500174.8 01204000 194.5 04296ffi0 3 1 6 S P EL 1 5 . 1 5 1 1 1 8 223 t2.86 I 105 195 3.64 rt43 1 3 1 14.85 1097 5 1 8 13.64 1323 765 15.23 992 402 2.48 TM7 396 9 .5 1 1 1 09 427 rc.7 1 1 1 8 408 5 . 1 5 1098 338 9.83 9.11 12.42 t6 13.6 12.92 31.25 2.23 1.63 22.35 14.96 10.4 14.62 to72 323 I 130 265 1240 439 l194 354 1168 421 1130 3 1 1 TI43 274 1128 2M 1054 256 1 1 1 8338 1224 433 t206 433 r2r9 tr43 280 5.74 154 1 . 1 4 tL94 95 10.27 tI23 360 2.22 1 1 5 6 r67 9 .1 7 1130 223 1.09 to52 378 SH n 31 48 58 4T 49 48 72 39 34.8 45 t9 36 20.6 3 t 1 1 . 6 66 33.8 39 19 22 28 2 l 9.41 34 6.r9 27 4t.8 27 45.5 52 6.15 28 31.4 54 33.8 50 6 . t r 57 29.8 60 42.6 58 24.5 20 40.2 35 3 1 . 1 56 54.1 37 5.31 16.7 26.9 27.4 33.9 16.4 80 ?.3"2 Qz 4 t7 52 47 69 I4 375 37 66 9 18 6 75 2l a4 JJ 2 2 45 28 1 4l 78 3 53 47 24 23 42 5l Qs 6 26 83 64 96 t9 507 50 94 t3 30 9 114 30 46 3 3 67 43 I 62 127 5 86 73 32 38 7L 67 Qza Qn 8 10 46 33 il1 159 77 93 1 1 8 r49 22 25 595 706 59 68 It4 r39 r6 20 4T 6t 11 15 r43 184 36 45 54 65 4 3 4 3 rz4 88 59 92 2 3 tt9 83 t69 235 10 7 1 1 5 r64 92 36 r20 54 98 77 88 40 Qao t2 57 207 106 r76 28 789 74 r58 24 82 l8 217 52 72 5 4 161 t3t 4 156 295 t3 2tt 142 42 r45 t26 192 88 96 160 Modélisationadditiveparpolynômeslocauxpour la régionalisationdesquantilesde crue... Résultatsde Ia modélisation log-linéaire (0 : lo s!) d o o .9 s fi l t = o t € ! o uJ ci (tt = ôl o 3 Nombre de variables explicalives Flc. C.1:RMSE de différentsmodèlesderégressionlog-linéairepour I'estimationde Qz (voir la légendeau tableau5.3) (0 o â r o . 9 o e o o 6 P . + g 5 o E p q , - u: i: o a ) z N d 3 Nombre de vâriables explicatives Ftc. C.2:RMSE de différentsmodèlesderégressionlog-linéairepour l'estimationde Q5 (voir la légendeau tableau5.3) Donnéeset résultatsde la Nouvelle-Angleterre o ^ o {) .a p 6 ,^ = d eo E G à ç 6 o E .E UJ > o t r à 3 Nombredevarhbbseplicatit/es Ftc. C.3: RMSEde différentsmodèlesde régressionlog-linéairepour l'estirnationde Çro (voir la légendeautableau5.3) N ci o s .a P ( o 6 1 s O .e o E 6 = = bÈ Y E c t tt eo ut o E . + ci 3 Nombre ds variables €xplica[v€s log-linéairepour I'estimationdeQ25 FIc. C.4: RMSE de différentsmodèlesde régression (voir la légendeau tableau5.3) 161 162 desquantilesde crue... Modélisationadditivepar polynômeslæauxpour la régionalisation € o {) .r2, e o Ë E N F (! = o p ( o A I u J o (t, = rJ' o e Nombre de variables explicatives Ftc. C.5:RMSE de différentsmodèlesde régressionlog-linéairepourI'estimationde Q5s (voir la légendeau tableau5.3) Résultatsde la modélisation par région d'influence t ) o o s .9 o o s ô o F 6 E 54 54 4 c 56 6 4 ' t- Ë c a l i l È uJ a If 3 t +o '5:4, . 222zzz 22,2iiâârZr r, .. 'z2zrgptrttl,âââ.Ea 2^ ïEîâQI*A?"2,,," 61 ct 3 3 3 s s s s sgg3 3 s 3 3 3 3 3 3 3 s 3 3 3 3 3 3 3 3 3 3 333333333d35 9 9 3 6 5 s e & 5 0 Nombredê stationsdansla régiond'inlluence Flc. C.6: Nombreoptimalde stationsdansla régiond'influencepour Q2 Données et résultats de la Nouvelle-Angleterre 3 b g d o '6 e - 4 o uorS 5-+3 v ts$3 - u83t!ur"" Ë : g c t o P o o I u J o o r63 2222222 2z2:i:r,iiii:"" "" rr::::**I:iâ1â1|'?-2n#a8/J131çââ = E Âl ct 40 50 Nombrede stationsdansh regiond'influence FIc. C.7: Nombre optimal de stationsdansla région d'influence pour Qg (o 3 ô Ë p e o d ,9 6 E 9 : Y c t o E Ë l H = : 4 3 4 3 4 uu-otg ,,.,,":::1iliiiii;i,"",, zseïli8,irz'r1ââ221ii,,11.â11iç ot () 40 50 Nombreds stationsdansla régiond'influence Ftc. C.8: Nombre optimal de stationsdansla région d'influence pour Q1s 164 Modélisationadditiveparpolynômeslocauxpour la régionalisation desquantilesde crue... 3 N ct o o '3 ,o O c ; 4' 3 43 '4 a4 34 l : 'zzïL r u u l'i3,â'-t r r . . .9 6 p 6 t'1 r .. .rEurr_orà"r"" è . o * o ,,u;;ââi11i11111111iiiâiç;,n € {oul a = = 40 50 Nombredeslationsdansla régiond'intluence Flc. C.9: Nombreoptimalde stationsdansla régiond'influencepour Qzs o 6' o .9. c; e a . 9 F Ë op ât g4+ 3 + ,rrr"ur"rl!:::oo .rrrrrrr,lrr;;;r.., E o €È c ie ll,, o = âasciiâsas a?E??gâî titâââ,n,îii',', o o ,+0 50 Nombredestationsdansla régiond'inffuenco Flc. C.10:Nombreoptimalde stationsdansla régiond'influencepour Q56 r65 Donnéeset résultatsde la Nouvelle-Angleterre Résultatsde la modélisation additive MAI MA2 o !4 o 0.5 1.0 ù 1.5 2.0 r.0 û.5 s 1.5 6 o 22 2.4 2.6 2.8 EL 3.0 32 3.4 2.2 L4 26 2.8 EL 3.0 32 3.4 "w 1.0 0.5 1.0 1.5 FIc. C.l1: Modélisation additivede Qz 2.O 1'64 Modélisationadditiveparpolynômeslocauxpour la régionalisation desquantilesde crue... 3 F c, e 'a3 6, ' 4 a4 3 o $ . Ë ( o o c i c o îl E g E o s cl u, o = s -F 5c- tâs6ro 22oss ,12 urrr" rtu' urrli iilr,i; â:aâi1zi11i11111iii1î1;;;;;; o- 40 50 Nombrede stationsdansla régiond'intluence FIc. C.9: Nombreoptimalde stationsdansla régiond'influencepour Çzr (o + c i @ o E o c . 9 I - Ë o: g ïa âc s4+ 3 4 n^ 3 4 ! t t u u t t t'iii^r .zEg E. -tts"^ .trrrrriiilir;;lr, o l g o' uJ at, o eçI;;IÊiI çti,âââ,â,iii,r,, F ci = () o Æ 5 0 Nombrede stationsdansla régiond'influencs Ftc. C.10:Nombreoptimalde stationsdansla régiond'influencepour Qso Donnéeset résultatsde la Nouvelle-Angleterre Résultatsde la modélisation additive MA2 MAI o o o I q 0.5 2.2 1.0 2.4 2.6 s 2.8 EL 1.5 3.0 2.0 3.2 1.0 0.5 2.2 3.4 2.4 2.6 c 2.8 EL 1.5 3.0 2.0 3.2 3.4 q o o o 'g "s.r#&Sff'# o d ç c? 1.0 1.5 Ftc. C.l1: Modélisationadditivede Qz 2.0 166 Modélisationadditiveparpolynômeslocauxpourla régionalisation desquantilesde crue... o o I 1 2 r.0 0.5 3 ^ c 1.5 t 2.0 0.5 2 A 1.0 s 3 1.5 2.O 1.5 2.O v2 o q o r.65 P 1.60 1.70 1.75 o q o ct 0 o @ ci g? I o q 0.5 r.0 1.5 L 2.0 0.5 1.0 L Flc. C.12:Modélisationadditivede Qs Donnéeset résultats de Ia Nouvelle-Angleterre MAl 167 MA2 I u? q o o o a c; o j q q Y 2 A (| o o 1.0 t.5 t.o 2.0 1.5 2.0 c? a o 4 o 6 1.60 1.65 P 1.70 1.75 f .60 1.65 P o o ct o A Y q t.0 Flc. C.13:Modélisationadditivede Qto 1.70 1.75 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesdecrue... MAI Iù/{{{A2 2 A @ ç c? 1.0 1.60 1.65 P 1.70 t.5 1.75 t.ô0 1.65 P 1.0 Frc. C.14:Modélisationadditivede Qzs 1.70 1.75 D. Donnéeset résultatsde ltArkansas Nous présentons i climatologiqueset hydrodanscetteannexeles donnéesphysiographiques logiquesayantservi aux diversesmodélisationsde la section5.5. Nous présentonsaussiles résultats,sousformede figures,n'ayantpasétéprésentés à la section5.5. Les donnéesphysiographiqueset hydrologiques Nous présentons, dansun premiertemps,I'ensemblede donnéescomposéde 204 stationsde I'Arkansas.Nousretrouvonsdansce tableau,pourchacunedesstations,le numérod'identification de la station(NO), la superficie(A) du bassinversant,enkm2, la pente(S) du coursd'eau principal,en m/km, la précipitationmoyenneannuelle(P) survenantsur le bassinversant,en cm, l'élévationmoyenne(EL) du bassinversant,en m, le facteurde forrne(SH) du bassin,le nombred'observations de débitsmaximaannuels(n) demêmequeles estimationsdesdébitsde crue(Q7), en m3/s,de périodesde retour? égalesà2,5, LA,25et 50 années. Tes. D.1: Données de I'Arkansas NO 07188900 2,49 07191224 3M 07194890 105 07195000 337 071952000,96 0719545037,80 071955001640 0719580036,80 07196000 285 07196900 1 1 9 0724700o 526 07249300 rt4 07249400 3 8 1 47249500 91,44 20,60 3,79 3,69 3,20 20,30 7,77 1 ,6 1 434 3,67 7,62 1,85 8,81 2,69 7,Al Suitepagesuivante 109 109 109 109 109 tt4 tt4 109 r12 l,17 L14 tw 109 t17 354 366 396 387 390 415 424 408 363 402 253 308 235 427 o,240 2 l 0,275 34 o,247 2T 0,392 30 o,370 2L 4,282 24 0,321 38 0,369 33 0,201 38 0,342 36 0,180 30 o,264 20 4,203 36 4,197 44 t4 444 rt7 r99 298 425 5 7 114 r64 985 1330 98 56 3t7 522 383 517 324 565 740 L49 314 458 4t9 184 3t7 1 3 1 267 392 3 96 4l L42 2 50 527 2A 115 t96 8 268 Qso 29 1020 493 7 54 15 284 2140 260 1200 22 743 347 606 t2 232 r790 177 870 685 806 973 1150 681 877 564 682 594 779 170 Modélisationadditiveparpolynômeslocauxpour la régionalisation desquantilesde crue... Ten. D.l: Données de I'Arkansas(suite) NO A S P 07249650 21,10 13,80 tt7 07249950 0,88 35,60 r t 7 07250000 1100 3,30 LL4 07252000 966 3,43 t22 47252200 l , l 9 60,20 t t 7 07252500 1 1 10,60 104 072540A0 7 ,1 5 tt,40 t02 472s4500 1 5 , 1 0 3,75 t04 072551001 1 , 6 0 1,48 102 07256400 t37 4,5r 102 072565A0 1 5 8 9,34 r24 07257040 7 t o 3,22 124 07257060 0,49 70,30 127 07257r00 0,49 58,90 124 07257204 399 4,45 rt7 07257500 624 5,30 124 47257704 18,30 15,60 124 072582A0 2,38 11 , 1 0 109 07258500 624 1,86 l 1 2 07260000 2 L 1 , 3,67 rt9 07260500 1980 0,56 t t 7 47260630 4,79 7,35 tt9 07260673 575 2,27 t22 07264679 0,23 35,60 1 1 9 0726rcA4 438 1,40 r27 0726rc50 0,75 L6,70 r27 07261300 6,03 54,60 1 1 9 07261500 1060 2,08 rt7 07261800 2,69 31,80 It7 47263000 544 2,29 L22 07263r00 3 ,8 1 25,40 t24 Suitepagesuivante EL 433 305 326 436 280 2t9 195 219 va 155 265 430 533 165 293 402 268 247 204 283 219 r63 2t0 113 2t9 2t3 415 317 271 253 151 SH n 0,290 20 o,402 32 Qz 37 1 0,151 52 69r 0,136 55 568 0,995 26 4 0,r45 l6 0,156 1 8 o,043 t 6 0,154 15 0,274 r6 0,2@ 4L o,157 45 0,530 20 0,130 23 0,133 15 0,207 47 0,149 26 0,209 30 0,205 55 o,097 48 0,099 30 o,420 23 0,234 15 0,780 27 0,130 38 0,350 23 0,228 22 0 , 1 1 4 55 o,352 3 1 0,200 52 o,177 32 24 11 25 22 89 153 556 I 1 266 500 2l 5 333 188 429 t3 155 1 253 2 t2 710 7 557 10 Qs Qn 70 95 3 4 t2t0 1610 1030 1360 8 10 42 54 22 32 4L 53 43 59 143 179 Qzs Qso 130 158 7 t1 2t40 2560 1?80 2090 13 t6 70 82 M 55 68 80 79 95 226 26r 287 387 521 625 1040 1440 2020 2510 2 3 4 5 5 3 4 6 320 349 379 399 909 t250 1750 2180 6L 79 t22 160 9 t2 16 20 548 696 885 t020 302 382 489 572 834 tl70 1680 2t2A 24 44 33 54 327 495 78r 1060 2 2 2 3 377 455 550 616 5 7 10 12 28 43 67 90 1260 1680 2260 272A 13 18 26 33 896 I 140 t460 1700 16 2l 27 31 t7l Donnéeset résultatsde l'Arkansas Tes. D.l: Donnéesde I'Arkansas(suite) NO 07263400 38,90 6,72 r35 180 07263530 83,90 3,90 130 168 07263910 6,16 6,29 t27 99 0733870041,70 9,26 135 378 07339500 471 3,52 132 256 0733980016,60 9,03 130 168 07340000 6890 0,80 r32 250 07340200 27,40 2,27 t24 t26 07340300 232 5,66 1 3 5 3 8 1 07340500 932 2,94 137 271 07340530 t,66 1 1 ,5 0 r27 r20 0734r000 3 1 3 4,07 140 232 07341100 24,60 9,47 t32 177 07341700 33,40 3 ,3 1 130 108 07342350 438 0,34 1 1 9 99,r 0734320 3,70 6,88 tt7 89,9 07346800 o,34 20,60 ït7 79,2 07347ffiO 300 0,80 1 1 9 73,2 07348615 593 0,55 127 93,3 07348æA 0,13 19,74 127 99,1 a7348700 r570 0,66 r27 88,4 07349430 606 o,67 t27 97,5 073495W r4rc 0,34 t24 68,9 0735s800 1,68 30,10 130 347 07355900 o,4l 34,90 t42 366 07356000 1070 1,48 132 354 07356500 1,66 2,92 135 253 073.567A04,79 15,60 135 232 a7357501 2860 0,98 132 268 a7357700 9,95 13,70 t42 247 07359500 4 1 1 0 0,84 t42 247 Suitepagesuivante Qso 0,295 24 0,214 14 0,308 26 0,178 2 l 0,148 25 0,156 26 0,127 40 0,231 22 0,265 27 o,r25 36 0,165 24 0,094 35 0,231 24 0,373 2A 0,078 4 l 0,627 23 0,4r5 20 0,157 25 0,200 t 2 0,fl0 22 0,265 36 0,278 24 0,112 23 0,156 33 0,190 2A 0,104 52 0,154 29 0,220 23 0,082 1 6 0,326 26 0,058 30 734 188 t2l t44 29 24 101 t36 831 r 180 103 69 305 2000 2500 45 75 96 432 7M 959 799 1330 1730 10 13 5 272 501 685 59 128 184 102 135 60 66 87 18 57 434 29 80 8 I 4A r20 I 246 93 124 6 125 t4 1 58 250 1 4Ll 185 220 8 I 2 649 1070 192 329 t2 24 1080 1750 18 37 1530 2510 155 18 2 70 363 2 577 26r 290 1t 3 t370 429 35 2240 53 3t70 267 172 34 189 1730 155 3r70 r22 t230 2310 l8 952 264 330 194 38 234 2220 t99 3700 t4I t430 2790 2L tr70 329 226 22L 27 3 98 681 3 1010 463 457 16 4 r84 r93 24 2 85 533 2 8L7 372 384 t4 4 1780 zna 561 663 64 51 2910 3430 76 95 4000 4600 172 Modélisationadditiveparpolynômeslocauxpour la régionalisation desquantilesde crue... Tes. D.l: Donnéesde I'Arkansas(suite) NO A 07359520 7,77 07359700 497 07359750 6,06 07359800 808 07360150 1,04 07360800 313 07361000 984 07361020 0,41 0736118045,80 a73,61200383 07361500 461 073616002770 073616803,83 07361780 8,96 07361800 648 07362050 26,90 07362100 997 07362330 35,20 0736245A L2,90 07362500 622 07363000 1420 07363050 3,73 47363200 2920 07363300 528 aTæ330 12,60 07363430 1,66 07363450 0,73 07363500 54l;0 07364030 0,93 073æ074 14,60 073&260 54,10 Suitepagesuivante S P EL SH n t40 r62 0 , 1 1 5 20 t40 296 aJ97 35 t47 226 o,443 22 142 265 0,127 33 9,87 r32 n4 0,M3 2 l 3,64 135 171 4,274 4 T 2,92 140 232 0,127 t 7 4 1 , 1 0 r37 194 0,480 24 132 t22 0,308 30 3 1,76 132 t28 o,237 4 T 1 ,5 8 1,32 r58 0,145 45 1,45 137 165 0,103 1 l 9,07 130 109 0,598 26 4 ,L 5 132 97,5 o,253 2A r32 90,2 0,r21 4T \44 3 ,3 1 127 6r,6 4,262 2L 0,75 r27 70,1 o,268 55 2,r2 127 57 0,248 32 3,79 130 96 0,554 2A 1,05 130 82,3 0,237 43 2,35 t37 198 0,179 57 8,90 135 105 0,592 24 0,85 t37 r40 0,076 56 1,30 135 tt4 0JzA 34 4,20 135 88,4 a37s 22 12,20 130 107 4,423 2 L t2 130 74,1 4,440 23 0,46 r32 1 1 0 0,063 57 9 , 1 5 !32 5 1 , 8 0,523 22 2,88 r32 50,3 0,348 2 l r,23 r37 5 1 , 8 0,237 22 13,70 3,54 16,44 2,33 Qz 8 597 23 734 Qs 19 1080 47 tt20 n 5 310 531 778 I44A 2 4 Qrc Qzs 31 50 1440 1940 66 94 r380 1700 8 12 702 945 t970 2720 Qso 68 2340 116 t940 17 tt40 3330 6 t2 9 r56 r82 2t2 234 359 476 638 769 54r 666 827 948 t670 2220 2984 3574 13 1 8 26 33 2l 26 33 39 679 814 988 ll20 26 39 60 80 393 574 858 1 1 1 0 50 72 105 t33 37 50 69 84 276 380 523 634 1410 1780 2260 2610 11 t8 29 4l tt40 r470 1 9 1 0 2264 tt4 208 357 926 6 13 480 11 189 24 t9 r39 866 5 694 201 406 t3 27 J 7 I 3 676 1190 I 2 t0 15 t9 36 563 40 1l 5 1560 3 t9 48 776 941 58 73 T7 23 7 9 2060 2450 ) 24 64 6 28 76 t73 Donnéeset résultatsde l'Arkansas Tes. D.1:Données deI'Arkansas(suite) NO A P S 0,63 r37 0,68 122 0,96 724 EL 07364300 702 43,3 0n&704 365 61,9 07365800 466 76,2 07365900 130 r , l 7 122 74,7 07366000 l20a 0,66 t22 56,4 07366240 539 0,70 122 61,3 07447820 3,57 6,30 122 98 07047880 0,21 37,90 724 1 1 3 07047975 3 , 1 9 51,30 122 607 07047990 1,74 54,90 rt2 463 07048000 215 5,24 Ll4 52t 07048600 r040 2,70 lt4 488 07048900 2,77 19,90 109 421 07048944 5 8 8,10 122 585 07049000 679 1,60 tL4 485 07049500 2640 1 , 1 0 tL2 457 07050000 32tO 0,70 t12 442 07050200 7,12 26,70 It4 497 07050400 1,89 24,40 109 415 07050500 1360 1,30 109 469 07054400 8,83 2t,20 ra7 317 07054450 2,20 40,90 w 323 0705555011,30 10,60 tt4 390 0705565021,64 26 1 1 9 579 0705580015,90 M,TO tr4 464 07056000 2150 2 1 1 4 454 07057000 2840 1,30 tt2 42L 07057300 1,97 22,40 109 259 07059000 4180 1,20 LOz 396 07060600 3,24 16,20 tt2 225 070æ670 8,29 39,60 1 1 9 259 Suitepagesuivante SH n 0,366 24 0,264 22 0,268 38 4,25'1 23 0,213 43 0,239 38 0,170 34 0,690 23 0,327 2 l 0,283 27 0,188 38 0,193 30 0,633 34 0,365 22 0 , 1 1 7 35 0,121 t3 0,462 37 4,477 2L 0,383 20 0,077 55 0,224 2L 0,354 32 0,302 26 0,2t4 2l 0,327 22 0,089 54 0,065 40 0,229 26 0,136 15 0,313 26 0,392 2T Qz 138 70 136 56 168 108 15 I 5 5 247 683 4 85 394 780 847 t7 5 500 33 8 t7 4l 3L 1060 1090 8 703 7 24 Qt Qn 426 248 294 158 322 506 1 1 3 165 325 464 232 342 28 23 7 11 11 469 a 3 15 17 &7 nrc 1620 I tl r7a 240 686 895 1530 2120 Qzs 618 412 Qso 778 579 8 1 9 t120 245 3 1 8 685 885 5 1 3 664 40 35 4 6 2r 26 25 906 2170 t6 343 tr70 2940 23r0 79 32 tt20 2620 21 430 1370 3s90 2764 1370 n6a 101 54 37 r6 1 8 12 9 932 1280 1770 2180 57 76 r05 129 I4 20 29 37 43 61 78 3l 94 r42 2t4 276 64 93 136 r73 1 9 1 0 2530 3360 4000 2024 2740 3780 4630 25 22 t3 t7 1190 1530 1950 2250 L 7 25 32 t2 69 46 37 59 Modélisationadditivepar polynômeslocauxpour la régionalisation desquantilesde crue... Tes. D.1:Données de I'Arkansas(suite) NO A S P 070607r0 150 2,90 tt4 07060830 0,70 18,50 124 070611001 0 ,1 0 8,80 t19 07068000 5280 0,90 tt2 07068870 4,49 30,50 t17 07068890 593 2 lr7 07069250 1,24 29,60 tt2 a706929A 5,91 14,70 lt2 070695003060 1,60 tt2 070715002050 1,90 rt2 07072000 2940 1,90 109 07072200 3,44 9,60 1 1 9 07073000 562 1 , 1 0 Lt2 07073500 257 1,40 tr4 07074000 1230 1 , 1 0 tt4 w074200 3 , 1 6 11,60 tt4 0747425090,40 3,20 lt7 07074904 0,67 1 1 5 rt2 07074950 4,O9 22 1I4 0707s000 782 2,60 tr4 07075300 383 4 127 07075500 8 1 8 3 ,1 0 r27 07075640 3,52 19,50 127 07075800 0,67 37,50 r27 07076000 2990 1,90 t22 07076630 1 , 7 r 1 6 ,1 0 127 07076820 12,94 6 ,1 0 r27 07076850 430 0,50 127 0707687059,60 1,30 127 07077r00 33,10 3,90 1 1 9 07077200 4,O9 7,70 1 1 9 Suitepagesuivante EL 198 320 t40 305 r39 155 209 244 226 305 259 143 226 244 2W 198 134 378 463 354 351 351 208 252 3r7 101 93 101 79 r29 r37 SH n 0,234 28 0,360 2 l 0,290 25 0,104 66 0,411 2 l 0,168 1 5 0,532 25 0,406 2 T 0,136 57 o,L25 7 L 0,860 63 0,230 25 0,067 4I 0,088 55 0,090 58 0,408 23 0,17r 2 l 0,294 26 0,399 23 0,075 55 0,066 32 0,175 23 0,244 30 0,400 30 0,105 35 0,528 33 o,249 2 T 0,131 15 0,283 33 0,604 2A 0,193 32 Qz Qs Qn 436 4 Qzs Qso r22 290 652 830 ) 3 7 9 23 4L 55 75 92 754 1390 1870 2530 3060 4 6 7 9 10 441 8 1 7 1100 1480 1780 9 1 5 20 27 32 15 28 38 52 63 742 1390 1930 2750 3470 265 571 8 1 5 1150 1420 335 630 $ei 1330 1730 t7 23 27 32 36 259 420 537 697 822 133 242 332 468 585 421 764 1040 1460 1820 t7 29 37 47 53 84 164 232 336 428 3 5 6 8 9 1 8 26 9 38 48 635 1190 1650 2350 2944 295 554 759 1050 1290 629 985 1220 1520 1740 7 l3 1 8 26 33 1 3 4 6 8 1540 2tt0 2M0 2844 3 1 1 0 7 1 1 13 15 16 22 32 46 39 52 177 309 443 526 6 1 8 6l Lt4 156 2 t 7 269 84 122 145 17a 188 t0 16 t9 23 26 r7s Donnéeset résultatsde I'Arkansas Tes. D.1:Donnéesde I'Arkansas(suite) NO A 07077340 1,76 07047204 5,59 070476ffi 75r 07047924 t,24 07047942 1390 07447950 2040 07063000 3220 07064000 4530 07w4550 16,20 0707485514,30 07077380 1820 07077430 1,24 07w7500 2690 0707768020,50 07077740 1090 07077860 25,9O 07077924 80,50 07077940 98,40 07077950 997 07078000 453 07CI78r70 3,9r 07w82LA 4,52 w2$864 7,12 07264400 536 07264100 21,80 47364110 1,94 07364n4 557 w364125 L2,70 w36415CI 1490 w364165 48,70 07364L90 3030 Suitepagesuivante s P EL SH n Qz 173a 122 140 0,333 24 8 0,23 r24 66 0,198 24 5 0,13 t22 70 0,096 54 136 0,80 t27 6 l 0,333 20 3 1 6 124 75 0,156 23 183 t 6 124 73 o,123 54 252 1 , 1 8 tt2 274 0,094 26 374 0,68 109 223 0,053 34 345 0,35 t22 83 0,272 2 l 6 0,63 124 67 0,154 2A 9 0,18 122 9 1 0,133 56 t24 a,76 r22 78 o,333 3 1 1 0,16 t22 79 0,054 66 1 8 1 0,25 r24 70 o,147 20 8 0,M L24 73 0,085 48 9 r 0,36 L27 55 0,192 22 10 0,17 r27 64 0,103 33 T6 0,27 t27 6r 0,3L4 20 38 0,13 t27 59 0,085 23 94 0,16 t27 6 1 0,087 t9 68 0,63 t27 59 0,082 2A 5 3,47 L27 56 0,220 24 2 0,66 127 6s 0,295 37 10 4,25 t27 9 1 0,075 39 6 l 4,99 t27 72 0,438 26 24 4 6,93 130 8 1 0,415 5 5 0,ll 7,73 0,10 2,56 0,08 130 67 r30 94 130 58 r32 86 t32 55 o,032 43 0,533 22 o,021 54 0,418 2 l 0,016 55 49 29 93 26 135 Qs t3 6 180 6 332 378 788 603 t4 t4 r63 2 26r 11 tzL 13 22 52 t32 113 6 3 l4 87 36 7 69 4 t27 46 169 Qn 16 6 207 8 455 458 1160 795 22 T7 189 3 318 13 t39 l5 26 59 t54 r44 7 4 r6 104 42 10 80 53 t47 62 189 Qzs 20 7 239 l1 636 553 1750 1060 34 22 223 4 392 t4 161 18 30 68 179 L82 7 6 t9 r28 49 L4 94 63 fia 89 2t3 Qso 24 7 262 t4 791 619 2280 1260 46 25 249 5 49 l5 r76 19 32 73 196 2tl 8 8 20 146 54 18 103 7A 186 t12 229 176 Modélisationadditiveparpolynômeslocauxpourla régionalisation desquantilesde crue... Tes. D.1:Donnéesdel'Arkansas(suite) NO A 07364200 3070 07364500 4260 07367658 2,43 0736774A 4,82 S P EL 0,08 0,08 0,69 0,86 r32 132 130 137 64 60 49 34 SH n 0,015 36 0,016 53 0,377 26 0,267 23 Qz Qu 132 177 r99 256 4 6 7 8 Qto Qzs 202 290 7 9 229 3 3 1 359 8 9 11 ll Qso 246 Résultatsde Ia modéIisationlog-linéaire 1 2 3 4 5 Nombre de vadables explicatives Ftc. D.1: RMSE de différentsmodèlesde régressionlogJinéairepour I'estimationdeQ2 (voir la légendeau tableau5.3) Donnéeset résultatsde I'Arkansas ro q o o $ N ct p o .9 6 6 o 6l o .9 p ct UJ o cl ci = N c, 3 NombredovariablêsexplicatiYês Flc. D.2: RMSEde différentsmodèlesde régressionlogJinéairepour I'estirnationde Qg (voir la légendeau tableau5.3) 3 Nombredevariables€xdicatives Flc. D.3: RMSE de différentsmodèlesde régressionlog-linéairepour I'estimationde 8ro (voir la légendeau tableau5.3) 177 178 Modélisationadditiveparpolynômeslocauxpourla régionalisation desquantilesde crue... lo ôl o $ a ë a o o E 6 à o rs o. uJ at, = v ôl o (D oa o ôt N o o{ o 3 Nombrsdevadauesexplicatives Ftc. D.4: RMSEde différentsmodèlesde régression log-linéairepour I'estimationdeQ2s (voir la légendeau tableau5.3) (o N o {.ao ro N o e I g .c pG E tt N o o E o o ll, o o N ci N N ci 3 NombrêdevariaHêsoxDlicalives FIc. D.5: RMSE de différentsmodèlesde régression log-linéairepour I'estimationde Qso (voir la légendeau tableau5.3) rw Donnéeset résultatsde I'Arkansas Résultatsde la modélisation par région d'influence go o o 9 o à (o \ € o à = s E 2 z 2 2 2 z 2 2 2 2 2 2 2 5 -5 u- u ur U' 2 2 2 2 2 z J T o è 2 2 2 2 2 5 o Ë g 2 z - ^ a 3 g 3 3 3 3 3 3 ^ e o 3 g g 3 3 3 3 3 3 s . l 8 e s 3 3 t Ë s s s s s 5 s s s 5 5 5 s E @ d ' + 4 4 4 q 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 * 30 25 Nombrsdestalions dansla égiond'influenca FIc. D.6: Nombreoptimalde stationsdansla régiond'influencepourQ2 â 6 . g o e 0 c o 6 9 l x î è o E o E 'îp o è g e o o 2 2 2 2 2 z 5 4 2 2 2 2 2 2 z 2 2 2 2 2 2 2 2 2 2 2 2 2 -g 0- 6 1 4 4 4 4 4 s s s si rl r r ; ; ; i i 3 1 : : : : : : : : : : 25 30 Nombrede slationsdansla régiondiniluênc€ Ftc. D.7: Nombreoptimalde stationsdansla régiond'influencepour Q5 180 Modélisationadditivepar polynômeslocauxpourla régionalisationdesquantilesde crue... @ : o a .a Y C N o ; Ë c i (! = .9 2 2 2 .^ Ë ; UJ a ? " " , 2 2 2 2 z 2 2 2 2 2 z 2 2 2 2 2 2 2 z o 2 u o a g r o o o ro d 3 3 sg . . l s u ; ; â g â É g 3 : : 3 : : : : : : 25 30 Nombredôstationsdansla rfuion dinfluence Flc. D.8: Nombreoptimalde stationsdansla régiond'influencepour 8ro o ct o s .9 9 o O F ç o G 6 JE xF € p 3 s 3 3 3 3 3 3 s g 3 3 3 3 3 3 3 3 3 3 g g g 9 3 3 d 2 E g z 2 2 2 2 z z z 2 2 2 z 2 2 2 L' 2 2 2 2 2 2 2 UJ g) Ë E 0 4 4 5 - o o i Eâi g , 3 t t t t t t t â Éâ g â â 3 Éé 25 30 Nombredestalionsdansh régiond'influence Hc. D.9: Nombre optimal de stationsdans la région d'influence pour Q25 181 Donnéeset résultatsde I'Arkansas r 9 o â o 6 E = o à c ; E o E p e lll l- o a > o G 3 3 3 3 3 3 33 3 3 3 3 3 3 s 3 g s 33 3 ' , 4 @ A , z 2 2 z z 2 z 2 2 2 z 2 3 3 3 3 3 z z 2 2 2 2 z 2 2 2 44 5 4i ; ; 6 I I o 5366 6 $ ggs s $ { 6{ 3 o 25 30 Nombre de stalions dans la région dintluenoô Ftc. D.10:Nombreoptimalde stationsdansla régiond'inffuencepour Qso I82 Modélisationadditiveparpolynômeslocauxpourla régionalisation desquantilesde crue... Résultatsde la modélisation additive MAl I[/,4'A2 o-o- o @ q 6 o o o o q? o o -1.0 -o.5 0.0 0.5 s r.0 1.5 2.o 0.0 0.5 s t.0 1.5 2.O o 0 r| ? 2.00 2.10 2.10 o et5 o o o o ct' r.6 1.8 2.0 2.2 EL 2.4 2.6 2.8 f .6 1.8 2.O 2.2 EL Flc. D.11:Modélisation additivede Qz 2.4 2.6 2.8 Donnéeset résultatsde I'Arkansas MAl MA2 -1 c? D o o o : o o -1.0 -0.5 0.0 0.5 s 1.0 1.5 -1.O -0.5 0.0 2.0 0.5 ô t.o 1.5 2.0 2.2 EL 24 2.ô 2.8 ral el I 1 -l r12.00 2.10 2.15 a o o d o o o Y a r.6 1.8 2.O 2.2 EL 2.4 2.6 2.8 1.6 1.8 2.0 Frc. D.l2: ModélisationadditivedeQs 184 Modélisationadditiveparpolynômeslocauxpourla régionalisation desquantilesde crue... Qro Qzs . r o l Quo 2 9 - 4 1 0 1 I 2 3 4 c; ct I a .1.0.0.5 0.0 0.5 s 1.0 1.5 2.O .l.o -o.5 0.0 05 s 1.0 1.5 'f.6 1.8 2.0 2.2 2,1 2.6 2.0 o Y 2.10 2.15 ra? d c; 14 Y q i 1.6 1.8 2.0 2.2 2.4 2.6 2A r.6 1.8 2.0 2.2 2.4 2.6 2-A ÈL Ftc. D.l3: Modélisationadditive(c - 1) deQro,Qzset Qso 2.A