Untitled - HEC Montréal
Transcription
Untitled - HEC Montréal
HEC MONTRÉAL La prévision des bénéfices : Comparaison des résultats des méthodes ensemblistes avec les prévisions des analystes financiers par Stéphane Messier Sciences de la gestion (Finance) Mémoire présenté en vue de l’obtention du grade de maîtrise ès sciences (M. Sc.) Septembre 2012 © Stéphane Messier, 2012 {{ËC HONTREAL afflliée à I'Unlverslté de Montréal DÉcLARATIoN DEL,ÉTUDIANT DEL,ÉTUDIANTH, ÉrnnuEENREcHERcHE DEsÊrnrs HuMAtNs AUpRÈs Recherchesans collectedirected'informations Cette recherchen'impliquaitpas une collectedirected'informations auprèsde personnes(exemples: entrevues,questionnaires, groupes appelstéléphoniques, de discussion,tests, observationsparticipantes,communicationsécrites ou électroniques, etc.) Cette recherchen'impliquaitpas une consultation de documents,de dossiersou de banquesde donnéesexistantsqui ne font pas partiedu domainepublicet qui contiennent des informations sur des personnes. Titrede la recherche: LAPRÉVISION DESBÉNÉFICES:COMPARAISON DESRÉSULTATS DES MÉTHODES ENSEMBLISTES AVEcLEsPRÉVISIoNs DEsANALYSTES FINANCIERS Nornde l'étudiant: STÉpHANE MEsstER Signature: Date: tr / tr / €ûo{ - Fév.2A07- Formulaire Dlrectlon admlnlstratlve décleration del'étudlant-sans.doc ii SOMMAIRE La prévision des bénéfices est un exercice demandant la prise en compte de plusieurs données, autant financières qu'économiques. La quantité et la complexité de ces informations sont toujours croissantes. Le domaine de la prévision des bénéfices pourrait potentiellement tirer profit des avantages des méthodologies de l'exploitation de données (« Data Mining ») pour le traitement de larges volumes de données. Plus précisément, l'utilisation d'arbres de régression et des méthodologies ensemblistes utilisant ceux-ci pourrait contribuer à supporter les analystes financiers dans leur production de prévisions de bénéfices. Ainsi, ce mémoire a comme premier objectif la production de prévisions de bénéfice par action (BPA) trimestriel. Ces prévisions sont produites avec les méthodes quantitatives suivantes : la régression linéaire, l'arbre de régression simple et les méthodologies ensemblistes du Boosting, du Bagging et des forêts aléatoires. Cela, pour les entreprises de onze industries différentes. Un deuxième objectif est la comparaison de la précision de ces prévisions avec celles produites par les analystes et publiées dans la base de données IBES. Les résultats montrent une prédominance de la méthode des forêts aléatoires sur les autres méthodes quantitatives. La comparaison avec la précision des prévisions des analystes montre que ceux-ci détiennent toujours un avantage sur les méthodes ensemblistes. En effet, pour toutes les industries, l'erreur absolue moyenne de prévision en pourcentage (EAMP) des analystes est systématiquement inférieure à celle de la meilleure méthode ensembliste pour la totalité des données des trimestres de l'ensemble de test. Cependant, les résultats obtenus montrent l'utilité des méthodes ensemblistes pour déterminer les variables les plus prédictives pour la prévision des BPA trimestriels. Également, une certaine similarité est observée dans les performances par industrie entre les analystes et les méthodes quantitatives. Mots clés : bénéfice trimestriel, analyste financier, exploitation de données, méthode ensembliste, arbre de régression. iii TABLE DES MATIÈRES SOMMAIRE ..................................................................................................................... ii LISTE DES TABLEAUX .................................................................................................. v LISTE DES FIGURES .................................................................................................... vi REMERCIEMENTS ....................................................................................................... vii CHAPITRE 1 - Introduction............................................................................................. 1 1.1 Mise en contexte ................................................................................................... 1 1.2 Structure du mémoire............................................................................................ 3 CHAPITRE 2 - Revue de littérature ................................................................................ 5 2.1 Utilisation des méthodes quantitatives pour la prévision des bénéfices ................ 5 2.2 Comparaison : Méthodes quantitatives vs analystes ............................................13 2.3 Exploitation de données .......................................................................................19 2.3.1 Arbres de régression .....................................................................................19 2.3.2 Méthodes ensemblistes .................................................................................25 2.3.3 Comparaisons des méthodes ensemblistes entre elles et avec d'autres méthodes ...............................................................................................................36 CHAPITRE 3 - Méthodologie .........................................................................................39 3.1 Introduction ..........................................................................................................39 3.2 Objectifs de recherche .........................................................................................39 3.3 Description de la variable cible .............................................................................40 3.4 Choix et description des variables explicatives.....................................................42 3.4.1 Variables économiques .................................................................................43 3.4.2 Variables financières .....................................................................................44 3.4.3 Variables boursières ......................................................................................47 3.4.4 Variables de contrôle .....................................................................................48 3.5 Description des variables liées aux prévisions des analystes dans IBES .............49 3.6 Modèle temporel ..................................................................................................50 3.7 Données ..............................................................................................................51 3.7.1 Sources .........................................................................................................51 3.7.2 Étendue .........................................................................................................55 3.7.3 Traitement et nettoyage .................................................................................55 3.8 Distribution des données après traitement et nettoyage .......................................60 3.9 Méthodes quantitatives ........................................................................................61 3.9.1 Méthodes et paramètres utilisés ....................................................................61 iv 3.9.2 Critère d'évaluation des analystes et des modèles ........................................74 3.9.3 Ensembles d'entraînement et de test des modèles ........................................74 3.9.4 Présélection d'un sous-ensemble de variables explicatives ...........................76 CHAPITRE 4 - Présentation et analyse des résultats ....................................................79 4.1 Analyse des variables indépendantes utilisées ....................................................79 4.1.1 Pouvoir prédictif .............................................................................................79 4.1.2 Statistiques descriptives des variables ..........................................................82 4.2 Performance des méthodes quantitatives ............................................................82 4.3 Comparaison avec la performance des analystes ................................................91 CHAPITRE 5 - Conclusion et discussion .....................................................................101 5.1 Rappel des objectifs de recherche .....................................................................101 5.2 Rappel de la méthodologie.................................................................................101 5.3 Rappels des résultats principaux........................................................................102 5.4 Apports de l'étude ..............................................................................................104 5.5 Limites de l'étude ...............................................................................................105 5.6 Ouvertures .........................................................................................................106 ANNEXES ...................................................................................................................109 A. Statistiques descriptives des variables indépendantes ........................................109 B. Algorithme : Imputation multivariée par équations chainées ................................110 C. Logiciels utilisés ..................................................................................................111 BIBLIOGRAPHIE .........................................................................................................112 v LISTE DES TABLEAUX Tableau 1 : Classification des méthodes de prévision..................................................... 5 Tableau 2 : Sommaire des études examinant la précision relative des prévisions des analystes et des méthodes statistiques (Alexander 1995)...................... 14 Tableau 3 : Caractéristiques des bénéfices « GAAP » vs « Street ».............................. 41 Tableau 4 : Variables explicatives.................................................................................. 42 Tableau 5 : Industries des indices S&P 500................................................................... 47 Tableau 6 : Industries IBES............................................................................................ 49 Tableau 7 : Exemple d'ajustement de BPA.................................................................... 53 Tableau 8 : Répartition par mois de fin d'année fiscale.................................................. 56 Tableau 9 : Pourcentage de BPA trimestriel réalisé de 0$ par industrie........................ 56 Tableau 10 : Impact du traitement et du nettoyage des données.................................. 57 Tableau 11 : Distribution des données par industrie...................................................... 60 Tableau 12 : Distribution des données (nb enregistrements) par trimestre................... 61 Tableau 13 : Taille des ensembles d'entraînement et de test........................................ 75 Tableau 14 : Diminution de l’erreur moyenne de prévision au carré (MSE) par variable........................................................................................................................... 79 Tableau 15 : Performance globale des méthodes quantitatives..................................... 82 Tableau 16 : EAMP trimestrielle 2003 : Analystes et méthodes quantitatives............... 84 Tableau 17 : EAMP trimestrielle 2004 : Analystes et méthodes quantitatives............... 85 Tableau 18 : EAMP trimestrielle 2005 : Analystes et méthodes quantitatives................ 86 Tableau 19 : Méthodes quantitatives : Performance par industrie................................. 89 Tableau 20 : Méthodes de remplacement des valeurs manquantes : Nombre d’industries-trimestres avec EAMP minimum par méthode quantitative........................ 91 Tableau 21 : EAMP annuelle 2003 : Analystes et méthodes quantitatives.................... 93 Tableau 22 : Classement par rang 2003........................................................................ 93 Tableau 23 : EAMP annuelle 2004 : Analystes et méthodes quantitatives.................... 94 Tableau 24 : Classement par rang 2004........................................................................ 94 Tableau 25 : EAMP annuelle 2005 : Analystes et méthodes quantitatives.................... 95 Tableau 26 : Classement par rang 2005........................................................................ 95 Tableau 27 : Moyenne annuelle des écarts d'EAP : Analyste vs meilleure méthode quantitative....................................................................................... 99 Tableau 28 : Statistiques descriptives des variables indépendantes........................... 109 vi LISTE DES FIGURES Figure 1 : Modèle temporel............................................................................................. 50 Figure 2 : Exemple : Variable cible avec régions non rectangulaires............................. 65 Figure 3 : Exemple : Arbre de régression....................................................................... 68 Figure 4 : EAMP annuelle 2003 : Analystes et méthodes quantitatives......................... 93 Figure 5 : EAMP annuelle 2004 : Analystes et méthodes quantitatives......................... 94 Figure 6 : EAMP annuelle 2005 : Analystes et méthodes quantitatives......................... 95 Figure 7 : Moyenne annuelle des écarts d'EAP : Analyste vs meilleure méthode quantitative...................................................................................................... 99 vii REMERCIEMENTS Je tiens tout d’abord à remercier mes co-directeurs de recherche : M. Denis Larocque et M. Tolga Cenesizoglu. Leur encadrement, leur expertise et leurs encouragements m’ont permis de mener à terme avec succès ce projet de recherche. Je leur suis particulièrement reconnaissant pour leur patience tout au long de ce projet. Je remercie les membres du jury qui ont bien voulu évaluer ce mémoire. Je suis reconnaissant envers mes parents qui m’ont toujours soutenu dans mes projets d’études. Un remerciement particulier s’adresse à ma mère Lucie. Elle m’a traîné très tôt dans ma vie à la bibliothèque. À cet endroit s’est développé un goût d’apprendre et de comprendre qui s’est manifesté à travers ce mémoire, et qui ne me quittera jamais. Le soutien, les encouragements et l’optimisme constant de Jenny, mon amour, m’ont aidé à ne pas lâcher prise tout au long de la réalisation de ce mémoire, alors que mon moral fluctuait comme les cours de la bourse... Je lui en suis reconnaissant. Ma collecte de données n'aurait pu se réaliser sans l'aide de M. Mohamed Jabir, du Laboratoire de Calcul en Finance et Assurance (LACFAS). Son aide à divers moments et ses suggestions ont contribué au succès de ce mémoire. Mes remerciements vont également à mon comité de relecture, composé de ma conjointe Jenny et de mon oncle Jean-Pierre. Ils ont tous deux connu les joies et peines des études supérieures et m’ont aidé à relever la qualité de ce mémoire. Je suis reconnaissant au Conseil de recherches en sciences humaines du Canada (CRSH), ainsi qu’au Fonds de recherche du Québec - Société et culture (FRQSC) pour leur support financier. Je remercie finalement le professeur M. Jean-Guy Simonato, ainsi que mes collègues de l'atelier de recherche. Leurs remarques et suggestions ont contribué à l'amélioration de ce mémoire. M. Simonato nous a également donné un enseignement qui m’a encouragé tout au long de ce travail : « Un bon mémoire est un mémoire ... terminé ! ». 1 CHAPITRE 1 - Introduction 1.1 Mise en contexte Beaucoup d'efforts sont déployés par les analystes financiers (subséquemment appelés simplement analystes) afin de tenter de prévoir les bénéfices futurs des entreprises cotées en bourse. Ces prévisions de bénéfices sont produites par les analystes et trouveront leur utilité pour plusieurs types d'utilisateurs. On peut parler tout d'abord des analystes eux-mêmes, notamment ceux travaillant dans le domaine des valeurs mobilières. Ceux-ci utiliseront souvent leurs prédictions de bénéfices comme intrants selon les méthodes d'évaluation des actifs qu'ils utilisent. En effet, plusieurs méthodes d'évaluation de valeur des actions ordinaires nécessitent la prévision des flux monétaires futurs (incluant les bénéfices) afin d'actualiser ceux-ci pour déterminer cette valeur. On peut mentionner la méthode des Flux Monétaires Disponibles aux Actionnaires Ordinaires (FMDAO) ou les méthodes d'actualisation des dividendes par exemple. Ainsi, dans la méthode du FMDAO, les bénéfices futurs sont utilisés comme intrants pour le calcul de ces flux monétaires anticipés selon l'équation suivante (Damodaran, 2006) : = résultat net - (dépenses d'investissement - dotations aux amortissements et provisions) - variation du - paiements liés à la dette + nouvelles émissions de dettes où : = besoin en fonds de roulement Ces flux monétaires sont ensuite actualisés avec le coût des fonds propres pour déterminer la valeur de l'entreprise, de laquelle on peut obtenir la valeur des fonds propres en soustrayant la valeur du passif. Ensuite, une comparaison peut être faite entre la valeur actuelle réelle d'une action et sa valeur actuelle théorique selon ses flux monétaires futurs anticipés. Cette différence, positive ou négative, pourra alors mener à des transactions appropriées sur le marché des valeurs mobilières afin de bénéficier de la situation. Plus les prévisions des bénéfices seront précises, meilleures seront les prévisions de prix d'actions et les recommandations d'investissement produites à partir de ces intrants. Dans l'industrie des services financiers, d'autres professionnels profiteront des prévisions de bénéfices. On peut mentionner les gestionnaires de portefeuille qui pourraient s'en servir pour sélectionner des entreprises à inclure dans leur portefeuille. Il 2 y a aussi les institutions bancaires qui incluront possiblement ces prévisions dans leurs critères d'évaluation de la solvabilité de leurs clients corporatifs avant la signature d'un prêt. Au niveau de la finance corporative, les gestionnaires d'entreprises voudront certainement tenir compte de ces prévisions dans l'élaboration de leurs stratégies à court, moyen et long terme. Finalement, on doit aussi souligner l'aspect salarial. La rémunération des analystes dépend bien-sûr de leur performance quant à la précision de leurs prévisions. La capacité des entreprises à générer des bénéfices dans le futur (leur profitabilité anticipée) dépend de plusieurs facteurs, autant intrinsèques qu'extrinsèques à l'entreprise. Les analystes utilisent différents types de méthodes pour prévoir ces bénéfices. Certaines méthodes utilisées par les analystes pour prévoir ces bénéfices sont de nature quantitative et tiennent compte de l'évolution de l'historique des données financières apparaissant aux états financiers, ainsi que des différents indicateurs économiques. D'autres méthodes sont plus subjectives et font appel à l'intuition et l'expérience des analystes. Les analystes possèdent certains avantages comparés aux méthodes quantitatives. Par exemple, ils peuvent incorporer dans leur analyse des informations difficilement décelables dans les sources de données, comme la qualité des équipes de direction par exemple. Cependant, les analystes sont désavantagés à d'autres niveaux. Ainsi, diverses études ont décelé des biais psychologiques dans les prévisions financières des analystes. Notamment, Easterwood et Nutt (1999) montrent que les analystes ont tendance à sous-réagir à des informations négatives et à réagir de façon excessive à des informations positives à propos des bénéfices dans leurs prédictions de bénéfices. En comparaison avec les analystes, les techniques quantitatives de l'exploitation de données (« Data Mining ») sont désavantagées à certains points de vue. Elles ne peuvent tenir compte d'informations de dernière minute non enregistrées dans les bases de données financières ou économiques. Elles ne peuvent non plus déceler de façon intuitive des signes négatifs perçus lors de visite d'entreprise ou de rencontre avec les cadres. Cependant, nous croyons que certains avantages de ces techniques, en particulier les méthodes ensemblistes à base d'arbres de régression, peuvent leur permettre de produire des prévisions de bénéfices valables. Notamment : Les données financières sont fondamentalement non linéaires et les méthodes ensemblistes sont appropriées pour ce type de données. Notamment, la non- 3 linéarité des bénéfices par action est supportée par l'étude de Callen, Kwan et Yip (1994); Les méthodes ensemblistes n'ont pas de limites quant au nombre de variables explicatives utilisées. Les modèles produits par les algorithmes détermineront automatiquement les variables les plus significatives parmi toutes les variables disponibles pour obtenir la prédiction. Les analystes, par contre, ont des limitations de temps et de capacité de traitement, et vont devoir baser leur analyse sur un nombre réduit de données sélectionnées selon leur jugement et leur expérience; Les méthodes ensemblistes, étant des méthodes quantitatives, ne sont pas affectées par des biais psychologiques comme le sont parfois les analystes. La combinaison de l'utilisation des habiletés cognitives des analystes et des avantages quantitatifs des méthodes empiriques peut permettre de compenser les limites humaines et quantitatives afin de produire des prévisions optimales. Dans la littérature, Lobo et Nair (1990) montrent notamment que la combinaison des prévisions de bénéfices annuels et trimestriels produites par des analystes avec celles produites par des modèles de séries temporelles, permet de produire dans plusieurs cas des prévisions plus précises que les meilleures prévisions des analystes. Ce mémoire visera à produire des prévisions de bénéfices par action (BPA) trimestriels en utilisant des méthodes ensemblistes de l'exploitation de données. Selon notre revue de littérature, il ne semble pas que ces méthodes aient déjà été utilisées dans ce but dans le passé. L'exercice pourrait donc être une première dans ce mémoire. Les résultats obtenus avec les différentes méthodes ensemblistes, et avec deux autres méthodes utilisées comme standards et comme base de comparaison (la régression linéaire et l'arbre de régression simple) seront comparés. Dans un deuxième temps, nous voudrons comparer la précision des résultats des méthodes ensemblistes avec celle des analystes afin de déterminer l'écart de performance de précision. 1.2 Structure du mémoire Ce mémoire sera structuré comme suit : Le chapitre 2 présente une revue de littérature. Il y a d'abord une revue des principaux travaux ayant trait à la prévision des bénéfices par l'utilisation de méthodes 4 quantitatives. Ensuite, il y a présentation des études s'étant intéressées à la précision des prévisions de bénéfices des analystes et à la comparaison de ces prévisions à celles produites par des méthodes quantitatives. Finalement, à propos des techniques de l'exploitation de données, la revue couvre les articles fondamentaux concernant les méthodologies ensemblistes et les arbres de régression, qui sont les composantes des méthodes ensemblistes qui seront utilisées dans ce mémoire. Le chapitre 3 décrit la méthodologie utilisée pour la production des prévisions de bénéfices, ainsi que pour la comparaison des prévisions avec celles des analystes se retrouvant dans la base de données IBES. La variable cible et les variables explicatives sont décrites. L'étendue temporelle des données est précisée. Les étapes de construction de la base de données et de la préparation des données pour le traitement sont spécifiées. Il y a ensuite description des paramètres utilisés pour la construction des arbres de régression. Les paramètres spécifiques aux méthodes ensemblistes sont explicités et nous illustrons finalement la distribution des données qui serviront à l'analyse. Le chapitre 4 contient une présentation des résultats obtenus et une analyse de ceux-ci. Le chapitre 5 conclut la recherche avec un rappel de la méthodologie et des principaux résultats en relation avec les objectifs de recherche. Les apports et limites de l'étude sont présentés et discutés. Finalement, il y a proposition d'ouvertures potentielles pour de futurs travaux. 5 CHAPITRE 2 - Revue de littérature 2.1 Utilisation des méthodes quantitatives pour la prévision des bénéfices Jusqu'à maintenant, plusieurs types de méthodes ont été utilisés pour la prévision des bénéfices. Il serait intéressant premièrement de déterminer quelles sont les méthodes qui ont été utilisées pour cette fin et de les situer parmi l'ensemble des méthodes utilisées par les analystes. Les informations sur ces méthodes et leurs utilisations sont évidemment difficiles à obtenir de la part des analystes, ceux-ci étant réticents à divulguer ce genre d'information, qui représente pour eux un avantage compétitif. La théorie propose plusieurs façons de classifier les différentes méthodes de prévision (de façon générale, sans se limiter à la prévision de bénéfices). Une classification simple1 est présentée par Foster (1986, traduction libre), avec des exemples pour chaque type de méthode : Tableau 1 : Classification des méthodes de prévision Méthode Mécanique Univariée Modèles de moyenne mobile Modèles Box-Jenkins univariés Non mécanique Extrapolation visuelle d'une courbe Multivariée Régression linéaire Modèles Box-Jenkins à fonction de transfert Analystes en valeurs mobilières (utilisation de sources de données disparates) Foster (1986) donne les définitions suivantes pour ses attributs (traduction libre) : Méthode mécanique : « [...] les intrants sont toujours les mêmes et combinés de telle sorte que, utilisant la même base de données et le même modèle, la même prévision sera obtenue. »; Méthode non mécanique : Différents intrants peuvent être utilisés d'une analyse à l'autre pour produire la prévision; Méthode univariée : Une seule variable explicative est utilisée pour la prévision; Méthode multivariée : Plusieurs variables explicatives sont utilisées pour la prévision. Les méthodes quantitatives se classent donc parmi les méthodes mécaniques univariées et multivariées dans la classification de Foster (1986). 1 Le lecteur intéressé trouvera une classification plus élaborée dans Armstrong (2001). 6 Parmi les méthodes quantitatives, l'utilisation de méthodes non linéaires s'est révélée utile pour la prévision financière dans plusieurs études relativement récentes. L'une des hypothèses pour expliquer cela est la nature généralement non linéaire des données financières. Plusieurs chercheurs ont observé une non-linéarité pour plusieurs variables financières. Quant à elles, les variables qui se sont révélées utiles pour la prévision des bénéfices, ou la prévision d'événements liés aux bénéfices, comme les faillites entre autres, sont multiples dans la littérature et sont de natures diverses (surtout quantitatives, mais aussi qualitatives). Étant donné l'importance de la prévision des bénéfices dans le monde de la finance, beaucoup de recherches ont été conduites sur ce sujet et beaucoup d'articles ont été publiés sur l'utilisation de méthodes quantitatives pour cette fin. Il nous est évidement impossible ici de tous les présenter, et une sélection des plus intéressants sera effectuée. Un des premiers articles importants portant sur la prédiction de faillites par l'utilisation de ratios financiers est Beaver (1966). L'auteur a analysé 30 ratios regroupés en six catégories. Ces ratios ont été sélectionnés selon le respect d'au moins un des trois critères suivants : popularité selon l'utilisation dans la littérature, succès antérieur dans la prédiction de faillite et, finalement, ratio étant relatif aux cash-flows. Les données couvrent un total de 178 entreprises, comprenant 79 firmes ayant fait faillite, et 79 entreprises n'ayant pas fait faillite jumelées avec les 79 premières sur les critères de l'industrie et de la taille des actifs. Les années de l'échantillon vont de 1949 à 1964. Les ratios ont été analysés avec trois méthodes univariées : 1) Comparaisons de moyennes : Les entreprises ayant fait faillite sont jumelées avec une entreprise similaire n'ayant pas fait faillite. L'évolution des moyennes des ratios sur les cinq années précédant la faillite est ensuite comparée; 2) Test de classification dichotomique : Les ratios sont calculés pour toutes les entreprises pour toutes les années disponibles. Les entreprises sont séparées aléatoirement en deux échantillons. Une valeur de seuil permettant de déterminer les entreprises devant faire faillite dans ans ( variant de un à cinq ans) est évaluée visuellement pour chaque ratio dans le premier échantillon. Ces seuils sont ensuite utilisés pour prévoir les faillites dans le second échantillon. Des taux d'erreur de prédiction sont finalement calculés; 7 3) Comparaison de distribution : La distribution des données pour chaque ratio est comparée pour les entreprises pairées (faillite, non-faillite) pour chacune des cinq années précédant la faillite. Cela, via l'utilisation d'histogrammes qui sont ensuite visuellement analysés. Beaver souligne la non-normalité de la plupart des distributions. Deux des ratios s'étant montrés les plus utiles pour la prédiction de faillite sont : Cashflow / Passif total et Bénéfice net / Actif total. En continuité avec Altman (1968), Altman, Haldeman et Narayanan (1977) ont élaboré un modèle de prévision de faillite, le modèle ZETATM. C'est un modèle multivarié basé sur l'analyse discriminante. Ce modèle produit un score Z qui, s'il est supérieur à un certain seuil, devrait prédire la faillite dans un horizon rapproché pouvant aller jusqu'à cinq ans : avec : = Rendement de l'actif : Bénéfice net avant intérêts et impôts / Actif total = Stabilité des rendements : Écart-type(Bénéfice net annuel avant intérêts et impôts / Actif total annuel) des cinq dernières années = Service de la dette : Bénéfice net avant intérêts et impôts / Intérêts payés = Profitabilité cumulative : Réserves / Actif total = Liquidité : Ratio de liquidité : Actif à court terme / Passif à court terme = Capitalisation boursière : Total de la capitalisation boursière / Capitaux permanents = Taille de l'entreprise : log (Actif total) N.B.: Ici, comme le modèle ZETATM est une propriété privée, les valeurs des paramètres et du seuil permettant de prédire la faillite ne sont pas disponibles. Les différents ratios sont annuels. Altman, Haldeman et Narayanan mentionnent que des expérimentations avec des modèles alternatifs incluant des variables supplémentaires ou comprenant moins de variables n'ont pu produire des résultats significativement supérieurs. Un total de 111 entreprises ayant ou non fait faillite sont inclues dans l'échantillon de données (faillites : 53, non-faillite : 58). Les années couvertes par l'échantillon vont de 1969 à 1975. Le modèle a permis d'atteindre un taux de prédiction de faillite allant de 96% (un an avant la faillite) à 70% (cinq ans avant la faillite). 8 Un article important portant sur la nature des bénéfices est Griffin (1977). L'auteur cherchait à déterminer si les bénéfices trimestriels suivent une marche aléatoire. L'auteur a étudié les données de 94 grandes entreprises enregistrées au New-York Stock Exchange sur une période s'étalant de 1958 à 1971. Il a utilisé l'approche de BoxJenkins permettant d'identifier des modèles ARIMA de séries temporelles et quatre différents modèles ont été testés. Les résultats montrent que les bénéfices trimestriels sont sujets à un effet de saisonnalité retardé de quatre périodes, et que les bénéfices trimestriels adjacents ne sont pas indépendants. Fama et French (2000) s'intéressent à l'hypothèse du retour à la moyenne des profits des entreprises plusieurs fois mentionnée dans la littérature passée. Cette hypothèse, si elle était vérifiée, supposerait que les profits pourraient être en partie prévisibles via des modèles quantitatifs. Les auteurs ont proposé une méthode de régression en coupes transversales, année par année, qui permet l'autocorrélation résiduelle et l'utilisation de composantes non linéaires dans les variables indépendantes. Cela, pour pallier à des problèmes observés dans les études antérieures, liés notamment à des biais de survivance et à l'absence d'ajustement d'erreurs standards pour tenir compte de l'autocorrélation. Deux modèles sont estimés avec les deux variables dépendantes suivantes : 1) la variation dans la profitabilité (VP), calculée comme la variation annuelle : 2) la variation dans les bénéfices (VB), calculée comme la variation annuelle : Les variables indépendantes comprennent la variable dépendante retardée d'un an, ainsi que d'autres variables permettant d'intégrer les déviations des variables dépendantes avec leur valeur estimée à , des variables binaires dont la valeur dépend du signe des déviations et des variables dépendantes à carré des variables dépendantes à , et les valeurs au (selon leur signe). L'échantillon comprend une moyenne de 2 343 entreprises et couvre les années de 1964 à 1996. Les résultats montrent que la profitabilité et les bénéfices sont en partie prévisibles et sont sujets à un phénomène de retour à la moyenne. Une non linéarité est observée dans ce retour à la moyenne car les écarts extrêmes, ainsi que les écarts négatifs, tendent à retourner plus rapidement à la moyenne qu'autrement. 9 En continuité avec Fama et French (2000), Fairfield, Ramnath et Yohn (2009) s'intéressent également au phénomène de retour à la moyenne dans la prévision de la profitabilité et de la croissance annuelle des entreprises. Leur hypothèse principale est que, en comparaison avec un modèle global, un modèle estimé industrie par industrie pourrait donner de meilleurs résultats en raison de caractéristiques affectant différemment la performance des entreprises selon leur industrie. Cela a été suggéré dans plusieurs recherches antérieures qui mentionnent également que la vitesse de retour à la moyenne pourrait différer d'une industrie à l'autre. D'autres études, par contre, prétendent que le taux de retour à la moyenne serait indépendant des industries. Les auteurs utilisent deux groupes de variables dépendantes : un groupe de trois variables liées à la croissance (croissance de la valeur aux livres, croissance des actifs opérationnels et croissance des ventes) et un autre groupe de deux variables liées à la profitabilité (rendement sur fonds propres (ROE) et rendement sur actifs opérationnels). Les modèles suivant ont été utilisés : Pour les variables liées à la croissance : Pour les variables liées à la profitabilité : où : = variable dépendante de l'entreprise à l'année = variable binaire égale à un si la profitabilité de l'entreprise est en-dessous de la médiane des firmes de son industrie à l'année = prévision de la croissance des ventes obtenue avec le modèle des variables liées à la croissance de l'entreprise à l'année (pour tenir compte des effets potentiels de la croissance des ventes sur la profitabilité de l'entreprise) = terme d'erreur Des modèles distincts ont été évalués pour chaque industrie, et un modèle global incluant les entreprises de toutes les industries a également été évalué pour fins de comparaison. La mesure d'erreur utilisée était l'erreur de prévision absolue (EPA). Les erreurs de prévision obtenues avec des modèles industriels ont été comparées avec celles du modèle global en utilisant des tests pairés des mesures de tendance centrale (t-test pour les moyennes et test de rang de Wilcoxon pour les médianes). L'échantillon de données comprenait 5 232 entreprises de 48 industries différentes, excluant les 10 entreprises du secteur financier et celles répondant à certains critères (ex.: croissance de la valeur aux livres supérieure pour réduire les effets des acquisitions potentielles sur les prévisions). La période couverte va de 1979 à 2003. Les données de la période de 1989 à 2003 ont servi d'ensemble de test. Un système de fenêtres roulantes est utilisé où les prévisions de l'année (à partir de 1989) sont produites avec un modèle estimé avec les dix années précédentes. Les résultats montrent en général que les modèles spécifiques aux industries permettent d'améliorer de façon significative les prévisions de croissance des ventes en comparaison au modèle global, mais pas celles des deux autres variables de croissance (valeur aux livres et actifs opérationnels) où les modèles industriels performent moins bien. Quant aux variables de profitabilité, les modèles industriels performent moins bien également. Des tests supplémentaires où les prévisions ont été produites sur un horizon plus long (cinq ans) montrent une supériorité des modèles industriels pour les trois variables de croissance, significatives la plupart du temps (excepté pour la médiane de la croissance de la valeur aux livres). Pour les variables de profitabilité, les modèles industriels performent mieux uniquement pour le rendement sur actifs opérationnels, mais de façon non significative. Les auteurs suggèrent que l'ajout de variables indépendantes additionnelles provenant des états financiers (ex.: dépenses administratives, marge brute) pourrait permettre de mieux capter les effets industriels et améliorer la performance de prévision des modèles industriels. Un article intéressant sur l'utilisation de méthodes non linéaires et non paramétriques pour la prédiction de bénéfices est celui de Callen et al. (1996). Ici, les auteurs ont cherché à valider une observation ressortie de Hill et al. (1994) sur les réseaux de neurones. Hill et al. ont effectué une revue de littérature des articles comparant les réseaux de neurones avec des méthodes statistiques traditionnelles. Ils mentionnent que les réseaux de neurones ne sont pas forcément meilleurs que des méthodes statistiques plus traditionnelles, et que leur performance est variable selon le domaine et les caractéristiques des données. Cependant, il ressort de leur analyse que les réseaux de neurones ont tendance à être plus performants que les méthodes statistiques habituelles lorsque les données sont : 1) de nature financière, 2) sujettes à un effet saisonnier et 3) non linéaires. Afin de vérifier cette observation, Callen et al. ont utilisé un réseau de neurones pour prévoir les BPA trimestriels qui rencontrent ces trois critères. Leur échantillon consiste en 296 entreprises dont la fin d'année financière est le 11 31 décembre. L'échantillon couvre les années de 1962 à 1985 et la méthode nécessitait que chaque entreprise ait des données de façon ininterrompue entre ces deux années. Les auteurs mentionnent donc qu'un biais de survivance est possible dans leur étude. Un système de fenêtres roulantes d'une taille de 40 trimestres chacune a été élaboré, et un réseau de neurones distinct a été entrainé en utilisant chacune de ces fenêtres de données afin de produire des prévisions allant de un à quatre trimestres dans le futur. Chacune des fenêtres roulantes a été subdivisée en groupes de cinq BPA trimestriels consécutifs où les quatre premiers constituaient les variables indépendantes et le cinquième (situé à un, deux, trois ou quatre trimestres dans le futur selon la prévision), la variable cible. Les résultats en termes d'erreur absolue moyenne de prévision en pourcentage (EAMP) ont été comparés avec ceux obtenus avec les trois modèles linéaires de série temporelle de Brown-Rozeff (voir Brown et Rozeff (1979)), Griffin-Watts (voir Griffin (1977) et Watts (1975)) et Foster (voir Foster (1977)). Les EAMP les plus faibles sur les quatre horizons de prévision sont obtenues par les modèles linéaires de Brown-Rozeff et de Griffin-Watts. Le réseau de neurones se classe en troisième position et le modèle de Foster, dernier. Ainsi, pour la prévision sur un horizon d'un trimestre, la méthode de Brown-Rozeff obtient une EAMP de 44%, comparé à 51% pour le réseau de neurones. Cette étude ne s'inscrit donc pas dans la tendance observée dans Hill et al. (1994) à propos de la supériorité des réseaux de neurones en tant que méthode non linéaire lorsque les trois conditions listées plus haut sont réunies. Dans Dhar et Chou (2001), les auteurs évaluent la performance de méthodes d'exploitation de données non linéaires pour prévoir (entre autres) les « Earnings surprises » d'entreprises et comparent les résultats avec ceux de la régression linéaire standard. Les variables indépendantes utilisées étaient de trois types : variables liées aux prédictions des analystes, ratios financiers et données économiques, et variables de tendance industrielles. Les quatre méthodes utilisées sont les algorithmes génétiques, les réseaux de neurones, les arbres de classification et l'algorithme de classification Naive Bayes. Ici, les méthodes non linéaires donnent de meilleurs résultats que la régression linéaire et les algorithmes génétiques donnent les meilleurs résultats parmi les méthodes non linéaires. 12 Dans Belhouari (2005), cinq méthodes d'exploitation de données sont utilisées pour produire des prédictions de faillites. L'auteur compare les résultats obtenus avec deux méthodes paramétriques (Analyse discriminante et Régression logistique) et trois méthodes non paramétriques comprenant les arbres de classification, le Bagging et le Boosting. Trois horizons de temps différents ont été évalués. Les variables indépendantes étaient sept ratios financiers, et la variable dépendante était une variable binaire prenant la valeur 0 si l'entreprise survivait au bout de x années et 1 sinon. Les cinq méthodes ont donné des taux de bonne classification intéressants (> 90%), et les méthodes ensemblistes ont été les plus précises pour la classification des entreprises en faillite. Creamer et Stolfo (2009) produisent des prédictions de « Earnings surprises » et de rendement cumulatif anormal (CAR) en comparant les résultats obtenus avec la régression logistique et trois méthodes ensemblistes (forêts aléatoires et deux algorithmes de Boosting). Les variables indépendantes utilisées sont de plusieurs types : variables liées aux prédictions des analystes, ratios financiers et variables de rendement boursier. Un aspect intéressant ici est que l'auteur utilise aussi des variables indépendantes concernant la solidité des réseaux sociaux liant les membres des CA et les analystes financiers, car il suppose que cela peut contribuer à augmenter la précision des prévisions. Les méthodes ensemblistes montrent ici des erreurs moyennes de prédiction plus faibles, dans l'ensemble, que la régression logistique. Cao et Parry (2009) évaluent plusieurs modèles de prévision de BPA trimestriels en utilisant deux méthodes quantitatives : 1) régression linéaire; 2) réseaux de neurones (RN) (avec poids estimés par rétropropagation et par algorithmes génétiques). Plusieurs modèles univariés et multivariés ont été estimés en utilisant des variables indépendantes trimestrielles retardées de un à quatre trimestres. Ces variables comprenaient le BPA lui-même ainsi que sept ratios financiers s'étant révélés utiles pour l'évaluation financière et la prévision des bénéfices dans deux autres recherches : Abarbanell et Bushee (1998), et Beneish, Lee et Tarpley (2001). Les données 13 couvraient 283 firmes sur une fenêtre de 45 trimestres s'étalant de 1992 à 2002. Un système de fenêtres roulantes est utilisé où les données de 30 trimestres passés servent à entraîner les modèles et effectuer une prévision pour le 31e trimestre. Ici, les auteurs ont réutilisé des modèles proposés par Cao, Schniederjans et Zhang (2004) dans un objectif de comparabilité. Comme principal apport, ils ont ajouté deux autres modèles de RN avec poids modifiés par algorithmes génétiques (UAG et MAG). Parmi les résultats, deux sont particulièrement intéressants pour notre étude et vont dans le même sens que ceux obtenus par Cao, Schniederjans et Zhang (2004) : 1) les modèles univariés non paramétriques de RN dominent les modèles linéaires univariés, et 2) les modèles multivariés incluant des variables financières sont plus performants que les modèles incluant uniquement des variables retardées de BPA. Les auteurs suggéraient comme prochaine étape la comparaison de la performance de prévision de leur meilleur modèle (MGA) avec celle des analystes. 2.2 Comparaison : Méthodes quantitatives vs analystes Alexander (1995) présente un sommaire sous forme de tableau de la littérature (tableau 2) ayant couvert la comparaison de performance de prévision entre méthodes quantitatives et analystes (traduction libre) : 14 Tableau 2 : Sommaire des études examinant la précision relative des prévisions des analystes et des méthodes statistiques (Alexander 1995)2 a Article Cragg et Malkiel [21] Horizon de données Nb b entreprises Périodicité des bénéfices Source de données des prévisions des c analystes 1962-65 185 Annuelle N/D 1961-65 178 Annuelle N/D 1967-72 100 Annuelle S&P EF Malkiel et Cragg [34] Méthode(s) d statistique(s) Taux de AF > e MS Meilleure méthode statistique croissance Non N/A croissance Oui N/A MA Oui N/A Oui N/A Taux de Barefield et Comiskey [3] Richards, Benjamin et Strawser [37] Taux de 1972-76 92 Annuelle S&P EF Brown et Rozeff [14] croissance MA, BJ, MA 1972-75 60 Annuelle VL, S&P EF avec dérive Oui BJ 1970-74 50 Annuelle VL F, GW, BR, BJ Non BR Oui N/A Collins et Hopwood [17] Fried et MA avec Givoly [27] dérive, « Index 1969-79 424 Annuelle S&P EF Model » Imhoff et Pare [31] aucune 1971-74 46 Annuelle S&P EF F, GW, BR, BJ Non différence 1970-79 161 Trimestrielle VL BR, GW N/A N/A 1981-83 85 Annuelle IBES OLS Oui N/A 1975-80 233 Trimestrielle VL BR, F, GW Oui BR 1975-80 233 Trimestrielle VL MA, BR, F, GW Oui N/A MA Oui N/A Collins, Hopwood et McKeown [18] Vander, Weide et Carleton [38] Brown et al. [11 ] Brown et al. [12 ] Brown, Richardson et Schwager 1977-79, [13] 1977-82 168, 702 Trimestrielle, Annuelle VL, IBES 1976-83 600 Annuelle IBES temporelles Oui N/A 1978-84 73 Annuelle VL BR, GW, OLS Oui BR Conroy et Harris [20] MA, séries Newbold, Zumwait et Karran [35] 2 Le lecteur est invité à se référer à Alexander (1995) pour la bibliographie des articles de ce tableau. 15 O'Brien [36] RW avec 1975-81 184 Annuelle IBES Sisneros [16] 1971-81 120 Annuelle VL Guerard [29] 1980-82 261 Annuelle 1976-89 5 834 Annuelle dérive, F Oui N/A croissance Oui N/A S&P EF MA avec dérive N/A N/A IBES « price-based » Chatfield, Moyer et Taux de Elgers et Parta Murray [23] a b c d e gé N/A Cette liste ne représente pas une revue de littérature exhaustive. Ce nombre ne comprend pas les entreprises de l'échantillon d'entraînement. S&P EF : Standards & Poors Earnings Forecaster; IBES : Institutional Brokers Estimate System de Lynch, Jones et Ryan; VL : Value Line Investment Survey. MA : marche aléatoire; OLS : « Ordinary Least Squares Model »; BJ : série temporelle univariée de Box-Jenkins; GW : modèle ARIMA suggéré par Griffin [28] et Watson [39]; F : modèle ARIMA saisonnier suggéré par Foster [26]; BR : modèle ARIMA saisonnier suggéré par Brown et Rozeff [15]. AF > MS indique si les prévisions des analystes (AF) ont surpassé celles des méthodes statistiques (MS). De ces résultats, on peut constater que les analystes ont démontré, en général, une meilleure capacité prédictive que les méthodes statistiques, dans 14 études sur 19. Kross, Ro et Schroeder (1990) ont cherché à déterminer si la supériorité des prévisions de BPA trimestriels des analystes sur celles du modèle de série temporelle univarié ARIMA de Brown-Rozeff (1979) était liée à des caractéristiques spécifiques des entreprises. Leur échantillon de données comprend 279 entreprises couvertes par des analystes dans la base de données Value Line Investment Survey des années 1973 à 1981. La comparaison entre les analystes et le modèle de Brown-Rozeff s’est effectuée sur les huit derniers trimestres de la période. Les autres trimestres ont été utilisés pour l’estimation des paramètres du modèle. Pour conduire leur analyse, les auteurs ont conçu le modèle de régression en coupes transversales suivant : où : = différence, positive ou négative, entre les valeurs absolues de l’erreur de prévision du modèle de série temporelle et celle de l’analyste = variabilité des BPA exprimée par l’erreur standard résiduelle du modèle de série temporelle = couverture de l’entreprise dans le Wall Street Journal Index, représentée par la longueur en pouces des articles couvrant l’entreprise de l’année du trimestre = taille de l’entreprise représentée par la valeur au marché des actions ordinaires 16 = nombre de lignes d’affaires où l’entreprise opère = avantage temporel de l’analyste mesuré par le nombre de jours entre la fin du trimestre et la publication de la prévision dans Value Line au trimestre = 1 si l’entreprise est dans l’industrie et 0 autrement = terme d’erreur Les auteurs s’attendaient à des valeurs positives pour tous les coefficients (sauf ceux des industries). Ils ont apporté des ajustements lors de l’évaluation des coefficients afin de corriger pour les problèmes d’hétéroscédasticité et d’autocorrélation. Les résultats montrent que les coefficients de , et sont tous positifs et significatifs, avec respectivement des coefficients de 0.1564, 0.0346 et 0.0398. Un test de corrélation bootstrap univarié a montré que la variable plus grand pouvoir explicatif sur la variable dépendante démontre également le en terme de . Quant à lui, le coefficient de la taille de l’entreprise n’est pas significatif et est négatif, contrairement à Brown et al. (1987) qui avaient précédemment trouvé le contraire. La différence de performance de prévision des analystes avec celui d’un modèle quantitatif semble donc être liée à certaines caractéristiques des entreprises. En continuité avec Kross, Ro et Schroeder (1990), Pagash, Chaney et Branson (2003) ont comparé la performance de prévision des analystes avec celle du modèle ARIMA de Brown-Rozeff (1979), qui s’est révélé être un des meilleurs modèles linéaires pour la prévision des BPA trimestriels dans la littérature passée. Les prévisions des analystes provenaient de la base de données Value Line. Un échantillon de 110 firmes ayant une fin d’année fiscale au 31 décembre a été sélectionné et les données couvrent les années 1989 et 1990. Les auteurs ont décidé de sélectionner des entreprises de petite taille car ce sont elles qui obtiennent les prévisions les moins précises des analystes et, en conséquence, qui pourraient bénéficier d’améliorations dans les connaissances pour la prévision des BPA. Des prévisions ont été produites sur des horizons de un, deux et trois trimestres. Les résultats montrent que pour 35 à 41% des entreprises, le modèle de Brown-Rozeff produit des prévisions plus précises que celles des analystes. Les auteurs ont alors analysé les différences caractérisant ce groupe d’entreprises à l’aide de tests non paramétriques. L’analyse indique que les différences, significatives à un niveau de 10%, des entreprises dont les meilleures prévisions de BPA trimestriels sont produites par le modèle de Brown-Rozeff, sont de taille plus petite et moins diversifiées selon leurs 17 lignes d’affaires, entre autres. Rappelons que Kross, Ro, et Schroeder (1990) n’avaient pas trouvé de liens entre la taille des entreprises et la performance de prévision des analystes. Bien que leur échantillon et leur horizon de données soient de tailles réduites, l’étude de Pagash, Chaney et Branson (2003) va dans le même sens que Kross, Ro, et Schroeder (1990), et montre que la performance de prévision d’un modèle quantitatif relative à celle des analystes est liée à certaines caractéristiques des entreprises, et que ce modèle pourrait se montrer utile aux analystes pour certains groupes d’entreprises particuliers. Plus de 200 articles des dernières 25 années sont mentionnés dans la revue de littérature de Lawrence et al. (2006) à propos des avantages et inconvénients du jugement humain dans plusieurs domaines de prévision, incluant la finance et l'économie. Les auteurs mentionnent des erreurs commises à la fois par des humains et par des méthodes quantitatives dans diverses prévisions. Notamment, ils présentent une série d'études portant sur les prévisions en macroéconomie qui relatent l'importance de l'intervention du jugement humain dans la validation des prévisions quantitatives. En réalité, un sondage mené par Sanders et Manrodt (2003) indique que, sur les 11% des 240 entreprises américaines qui utilisent des outils de prévision, 60% ajustent régulièrement ces prévisions avec le jugement humain. Les auteurs indiquent également les pistes de recherche prometteuses identifiées dans les articles de leur revue. Plusieurs études montrent également que la combinaison des prévisions des analystes et des méthodes quantitatives permet d'améliorer la précision des prévisions. Tel que mentionné dans l'introduction, Lobo et Nair (1990) montrent qu'une telle combinaison de prévisions de bénéfices annuels et trimestriels améliore dans plusieurs cas la précision. Ils ont étudié les prévisions de bénéfices de 96 entreprises, de 1976 à 1983. Ces entreprises devaient être couvertes par des analystes dans la base de données Value Line de 1976 à 1983 (prévisions de BPA trimestriels) et dans la BD IBES pour la même période (prévisions de BPA annuels). Elles devaient également avoir une fin d’année fiscale au 31 décembre et avoir des données de BPA réalisés trimestriels et annuels présentes dans la BD « Moody’s Industrial Manual » de 1961 à 1983. Les méthodes de prévision comprenaient deux méthodes « humaines » d'analystes et deux méthodes quantitatives de séries temporelles. Les résultats combinés ont été produits 18 en utilisant : a) des poids équipondérés et b) des poids non équipondérés estimés par régression. L'ajustement des poids non équipondérés par régression a pour effet de minimiser les erreurs les plus importantes. L'erreur absolue moyenne de prévision en pourcentage (EAMP) calculée pour la combinaison de prévision de BPA trimestriels (méthode humaine + méthode quantitative) diminuait en moyenne de 15.45% (avec poids non équipondérés) en comparaison avec l'EAMP des méthodes appliquées individuellement. Quant aux prévisions de BPA annuels, la diminution moyenne a été de 12.69%. À titre indicatif, l’EAMP des prévisions humaines et quantitatives de BPA trimestriels étaient respectivement de 54.71% et 64.74%. Quant aux EAMP des prévisions de BPA annuelles, elles étaient respectivement de 55.64% et 64.13%. Notons que les prévisions combinées produites avec poids équipondérés montraient des EAMP qui n'étaient pas toujours meilleures que celles des prévisions individuelles. Un peu plus tard, Lobo (1992) utilise un échantillon couvrant 205 entreprises sur huit ans, de 1978 à 1985. Il compare la précision de la prévision de bénéfice annuel agrégée de cinq analystes avec celles de trois modèles de séries temporelles. Cela, pour quatre horizons de prévision différents. Il prépare également trois modèles combinant la prévision humaine avec celle de chacun des trois modèles quantitatifs. Dans cette étude, les résultats combinés ont été produits en utilisant des poids équipondérés uniquement. Les résultats montrent que la précision des trois modèles combinés est toujours supérieure à n'importe laquelle des prévisions prise individuellement, que ce soit la prévision agrégée des analystes ou celles des modèles quantitatifs. Pour ces modèles combinés, l'EAMP diminue en moyenne de 3.4% comparativement aux EAMP des modèles pris individuellement. Fait intéressant, il observe que : 1) La précision des modèles combinés est inversement proportionnelle à la dispersion des prévisions des cinq analystes; 2) L'amélioration de la précision des modèles combinés est directement proportionnelle à la dispersion des prévisions des analystes, et est plus importante sur des horizons plus grands. Le lecteur intéressé trouvera une large revue des articles traitant des combinaisons de prévisions dans Armstrong (2001, p. 417-439). Des combinaisons de prévisions 19 produites par des experts et/ou des méthodes quantitatives sont étudiées dans plusieurs domaines de recherche. 2.3 Exploitation de données 2.3.1 Arbres de régression Les arbres de régression sont les composantes de base des méthodes ensemblistes qui seront utilisées dans ce mémoire. Un arbre, de façon générale, est une méthode d'apprentissage dite de type supervisé, car on tente de découvrir les liens entre une variable cible prédéterminée et un ensemble de variables indépendantes dans un ensemble de données. Les méthodes de type non supervisé tentent plutôt de découvrir des relations entre plusieurs attributs dans un ensemble de données sans nécessairement diriger l'effort d'apprentissage vers une variable en particulier. À la base, les arbres sont donc des structures visant à attribuer une valeur à une variable cible en utilisant un ensemble d'autres variables appelées variables indépendantes ou explicatives. À partir d'un ensemble de données composé d'enregistrements comprenant l'ensemble des variables indépendantes et la variable cible, on tente de subdiviser successivement l'ensemble de données en sous-ensembles jusqu'à ce qu'on obtienne des ensembles terminaux les plus homogènes possible en terme des valeurs de la variable cible, ou jusqu'à ce qu'un critère d'arrêt soit atteint (ex.: profondeur maximale, nombre minimum d'enregistrements dans un noeud, etc.). Le point de départ de la structure est un noeud-racine représentant une question à propos d'une des variables indépendantes (ex.: valeur égale à ?, valeur >= ?, etc.). Selon la réponse à la question, l'ensemble de données initial est divisé en sous-ensembles et le processus recommence avec la création d'un nouveau noeud pour chacun des sousensembles, jusqu'à ce qu'un certain degré d'homogénéité soit atteint, ou jusqu'à ce qu'une condition d'arrêt soit atteinte. Une feuille est créée lorsque la croissance s'arrête. La valeur à laquelle sera associée la feuille est, en général, celle se retrouvant en plus grand nombre dans les enregistrements composant la feuille dans le cas d'une variable cible qualitative ou catégorielle (nominale ou ordinale), ou une moyenne équipondérée des valeurs de la variable cible dans le cas d'une variable cible continue. Dans le cas d'une variable cible qualitative, on parlera d'arbre de classification. Dans le cas d'une variable cible continue, on parlera d'arbre de régression. La sélection de la variable indépendante pour chaque noeud dépend d'un indice d'impureté (ou critère de 20 séparation) qui indiquera le degré de dispersion des enregistrements selon la valeur de la variable cible dans les sous-ensembles. Plus l'indice d'impureté est élevé, plus la distribution des enregistrements dans les sous-ensembles selon les valeurs de la variable cible est élevé. La variable sélectionnée sera celle qui entraînera la plus grande baisse de l'indice d'impureté dans le but d'atteindre un certain degré d'homogénéité dans les feuilles. L'arbre créé et « entraîné » avec cet ensemble d'entraînement comprenant des données observées pourra ensuite être utilisé pour fins de classification ou de prévision sur des ensembles de données où les valeurs de la variable cible sont inconnues. Les modèles d'arbres font donc partie des méthodes dites inductives. Des méthodes d'élagage des arbres peuvent réduire le risque de sur-spécialisation des arbres en réduisant leur taille. En effet, un arbre créé en utilisant un ensemble d'entraînement où il y a présence de bruit ou de données extrêmes peut être surajusté par rapport à cet ensemble. Cela le rendra moins performant lorsqu'il sera utilisé sur d'autres ensembles de données. Cet élagage peut se faire pendant la création de l'arbre (pré-élagage), ou suite à la création d'un arbre (post-élagage). Plusieurs algorithmes de création d'arbres de classification et de régression ont été élaborés au fil du temps. L'un des premiers algorithmes a été présenté par Morgan et Sonquist (1963). Leur algorithme, appelé AID « Automatic Interaction Detection », permet de créer des arbres de régression binaires. La variable cible doit être continue, et les variables indépendantes peuvent être catégorielles ou continues. En utilisant les principes de l'analyse de la variance, à chaque noeud, la variable sélectionnée sera celle dont la séparation des enregistrements en deux branches permettra de maximiser la somme des carrés des écarts (SCE) intra-groupe calculée ainsi : où est la valeur de la variable cible dans la branche contenant est la moyenne de la variable cible dans la branche enregistrements et . La croissance de l'arbre s'arrête lorsque la SCE intra-groupe est inférieure à 2% de la SCE totale du noeud. Peu de temps après, Hunt, Marin et Stone (1966) présentent l'algorithme CLS. Cet algorithme, le « Concept Learning System », permet de créer un arbre de classification 21 où la variable cible peut prendre les valeurs : oui/non (arbre de décision). Les variables indépendantes doivent être de type catégoriel, ou recodées en catégories ou classes si ce n'est pas le cas. Partant d'un arbre vide, l'algorithme crée un noeud-racine . Tant que les enregistrements d'un noeud n'ont pas tous la même valeur de variable cible, des branches sont créées en sélectionnant une variable indépendante pour la création des noeuds du prochain niveau. L'ensemble de départ sera subdivisé pour chaque branche selon la valeur de variable indépendante de chaque enregistrement. Il y aura ainsi deux ou plusieurs branches partant d'un noeud donné. Une variable indépendante ne peut être sélectionnée plus d'une fois pour la création d'un niveau. Aucun critère particulier n'est utilisé dans cet algorithme pour la sélection des variables indépendantes, ce qui a comme désavantage la création d'arbres non optimaux en termes de taille si les variables les moins discriminantes sont sélectionnées en premier. Kass (1980) modifie l'algorithme AID de Morgan et Sonquist (1963) et propose l'algorithme CHAID (« Chi Squared Automatic Interaction Detection »). Ici, la variable cible et les variables indépendantes doivent être catégorielles, ou être recodées en classes si elles sont continues. La sélection des variables pour la création des embranchements se fait via l'utilisation de la p-value du test de khi-carré ajusté par la méthode de Bonferroni. L'algorithme fonctionne comme suit : Pour chaque noeud de l'arbre : 1) Pour chacune des variables indépendantes : 1.1) trouver la paire de valeurs qui sont les moins significativement différentes d'après la distribution de la variable cible selon le test de khi-carré; 1.2) regrouper ces deux valeurs en une seule si la p-value du test est supérieure à une valeur critique; 1.3) reprendre les étapes 1.1) et 1.2) jusqu'à ce qu'aucune paire de valeur ne puissent être regroupées; 2) Pour chaque variable (avec valeurs regroupées), une p-value finale est calculée. La variable étant la plus liée avec la variable cible (donc avec la p-value la plus petite) est utilisée pour la création de l'embranchement. Il y aura une branche par valeur en utilisant les regroupements de valeurs créés à l'étape 1). La croissance de chaque branche s'arrête lorsque le test de chi-carré entre la variable cible et la meilleure des variables indépendantes n'est plus significatif. Contrairement à 22 AID, cet algorithme permet le traitement de variables indépendantes avec valeurs manquantes. L'absence de valeur est alors traitée comme une catégorie comme telle. L'un des algorithmes les plus utilisés pour la création d'arbres de classification et de régression est CART (« Classification And Regression Trees »), créé par Breiman et al. (1984). Cet algorithme polyvalent permet la création d'arbres binaires et l'utilisation de variables cibles et indépendantes de type catégoriel ou continu. Dans le cas d'une variable cible catégorielle, il y a deux critères de séparation qui sont proposés : Gini et « Twoing ». Le critère de Gini mesure la baisse d'impureté associée à l'utilisation d'une variable indépendante pour la création de l'embranchement. Le critère de Gini (CG) fonctionne de la façon suivante : Soit un noeud et une variable indépendante : est l'index de Gini du noeud qui détermine la dispersion des enregistrements du noeud selon les valeurs de variable cible. L'index de Gini où est calculé ainsi : est la proportion du nombre d'enregistrements du noeud ayant la valeur de la variable cible. Plus les enregistrements présents dans le noeud sont homogènes quant à la valeur de variable cible qui leur est associée, moins l'index sera élevé. est l'impureté résiduelle qui sera nécessaire pour classifier les enregistrements suite à la création de l'embranchement binaire si on utilise la variable l'embranchement. où pour créer est calculé avec la formule qui suit : est la proportion du nombre d'enregistrements de la branche et est l'index de Gini de la branche . Pour une variable indépendante catégorielle, le critère de Gini sera calculé pour toutes les façons possibles de séparer les enregistrements en deux groupes en utilisant les sous-groupes de valeurs de la variable indépendante. Pour une variable indépendante continue, Supposons une variable avec est calculé comme suit : valeurs. Après avoir ordonné les valeurs de la variable, on calcule pour chaque valeur les enregistrements en deux branches : ( = 1, ..., <= et > ) une valeur . en divisant est ensuite calculé en 23 utilisant = 1, 2. La valeur pour laquelle on obtient la valeur minimale est utilisée pour calculer le critère de Gini de la variable. La variable pour laquelle on obtiendra le critère de Gini maximal sera sélectionnée pour la création de l'embranchement. Le critère du « Twoing » a été proposé pour compenser la tendance du critère de Gini à produire des embranchements débalancés à certains endroits lorsque la variable cible présente un grand nombre de valeurs. Le critère du « Twoing » est calculé ainsi : où et et et sont les proportions du nombre d'enregistrements des branches sont les proportions du nombre d'enregistrements des branches qui ont la valeur et , et de la variable cible. Cependant, Breiman et al. (1984) mentionnent qu'après expérimentation sur plusieurs ensembles de données, le critère de Gini présente des résultats légèrement supérieurs et que son utilisation est préférable dans la plupart des cas. Dans le cas d'une variable cible continue, les critères de séparation de Gini et du « Twoing » ne peuvent être utilisés. L'algorithme sélectionnera dans ce cas la variable qui minimisera l'erreur de prévision au carré dans les deux sous-noeuds de l'embranchement. Différents critères d'arrêt peuvent être utilisés : profondeur maximale atteinte, homogénéité totale d'une classe dans un noeud, nombre minimal d'enregistrements atteint dans un noeud, etc. Les valeurs manquantes sont tolérées dans l'algorithme CART. Breiman et al. proposent d'utiliser une méthode de variable de remplacement (« surrogate variable »). Cette méthode permet d'utiliser les valeurs d'une variable indépendante sans valeurs manquantes afin de déterminer l'embranchement d'un enregistrement avec une valeur manquante. La variable de remplacement utilisée sera celle permettant de créer un embranchement spécifique le plus similaire (« surrogate split ») à celui créé avec la variable avec valeurs manquantes. Un aspect important de l'algorithme CART est la méthode de post-élagage proposée : le « cost complexity pruning ». Dans cette méthode, le « coût de complexité » d'un arbre est fonction du nombre de feuilles et du taux d'erreur. Partant d'un arbre développé complètement, le coût de complexité de chaque sous-arbre pouvant être créé à partir de l'arbre original (en remplaçant un noeud intermédiaire par une feuille) est calculé. Le 24 sous-arbre présentant le coût de complexité minimal parmi tous ceux ayant un coût de complexité inférieur à celui de l'arbre original remplacera celui-ci comme arbre terminal. Construisant sur l'algorithme CLS, Quinlan (1986) crée l'algorithme ID3 (« Iterative Dichotomizer (version) 3 »). Ici, les variables peuvent être catégorielles ou continues. À la différence de CLS, ID3 utilise une mesure de gain informationnel basée sur l'entropie pour la sélection des variables des noeuds. La variable sélectionnée à chaque noeud sera celle qui apportera le plus grand gain informationnel. Ce gain informationnel fonctionne de façon similaire à l'indice de Gini et est calculé de la façon suivante : Soit un noeud N et une variable indépendante var. Le gain informationnel est l'entropie du noeud sera : qui mesure son degré d'impureté. Ce degré d'impureté est relatif à la dispersion des enregistrements du noeud selon les valeurs de la variable cible. Plus les enregistrements présents dans le noeud sont homogènes quant à la valeur de variable cible qui leur est associée, moins l'entropie sera élevée. L'entropie est calculée ainsi : où est la proportion du nombre d'enregistrements du noeud ayant la valeur de la variable cible. est l'impureté résiduelle qui sera nécessaire pour classifier les enregistrements suite à la création de l'embranchement si on utilise la variable l'embranchement. où est calculée avec la formule qui suit : est la proportion du nombre d'enregistrements de la branche l'entropie de la branche pour créer et . Pour une variable indépendante continue, est est calculée de façon similaire au critère de Gini. Donc la variable ayant le plus grand gain informationnel sera celle qui permettra de réduire le plus possible la charge de travail restante suite à la création de l'embranchement avec cette variable pour terminer la classification des enregistrements. Suite à la sélection d'une variable, une branche sera crée pour chacune des valeurs de la variable. Il est à noter que cet algorithme ne peut traiter les valeurs manquantes. 25 Afin de pallier aux limitations de l'algorithme ID3, Quinlan (1993) présente l'algorithme C4.5. En effet, la mesure de gain informationnel utilisée par ID3 peut mener à la sélection d'une variable ayant un très grand nombre de valeurs distinctes, mais dont la valeur utilitaire pour produire une règle de classification est faible (ex.: variable de numéro d'identification). Une telle variable peut causer la création d'un très grand nombre de branches avec une cardinalité minime d'enregistrements dans chacune d'entres elles, entrainant ainsi un sur-ajustement. Pour pallier à cette faiblesse, l'algorithme C4.5 utilise une mesure d'impureté basée sur le ratio de gain. Cette mesure tient compte du nombre d'enregistrements se retrouvant dans chacune des branches par rapport au nombre total d'enregistrements du noeud. Cette mesure de ratio de gain (RG) est calculée ainsi : où est la proportion du nombre d'enregistrements de la branche . Ainsi, le gain informationnel d'une variable se retrouve ajusté au dénominateur par une mesure tenant compte de la cardinalité de ses embranchements. Dunham (2003) présente d'autres avantages de C4.5 par rapport à ID3 : Les données manquantes sont tolérées par l'algorithme qui les ignore lors de la construction de l'arbre; Il y a deux méthodes d'élagage proposées par l'algorithme : o Remplacement d'un noeud par une de ses feuilles si le taux d'erreur est minimalement affecté par le remplacement; o Remplacement d'un noeud par un de ses sous-noeuds si le taux d'erreur est minimalement affecté par le remplacement. Le lecteur intéressé trouvera dans Rokash et Maimon (2008) une revue de l'historique des arbres de décision (surtout des arbres de classification), des critères de séparation, des méthodes d'élagages ainsi que des algorithmes de construction d'arbres les plus récents. Cet ouvrage est entièrement consacré aux arbres et aux méthodes ensemblistes à base d'arbres. 2.3.2 Méthodes ensemblistes Suivant l'invention des arbres de décisions, des chercheurs ont développé des méthodologies utilisant des ensembles d'arbres. Ces méthodes, appelées méthodes 26 ensemblistes, consistent à créer un modèle constitué d'un certain nombre d'arbres. La détermination de la valeur prédite par la combinaison des prédictions des arbres de l'ensemble dépendra du type de variable cible. Dans le cas d'une variable catégorielle, généralement, la valeur la plus souvent prédite par les arbres de l'ensemble sera la prévision du modèle. Si la variable cible est de type continu, la moyenne, équipondérée ou non selon la méthode, des prévisions fournies par chacun des modèles sera retournée comme valeur prédite par le modèle ensembliste. Les méthodes ensemblistes ont été créées afin de réduire les inconvénients liés à l'utilisation d'un seul arbre pour produire des prévisions, notamment l'instabilité. Les arbres de décision sont des méthodes instables car de petites variations dans les données d'apprentissage peuvent entraîner de grandes variations dans les modèles produits. Les méthodes ensemblistes se basent sur le principe que la moyenne de plusieurs prévisions donne souvent une prévision plus précise qu'une prévision obtenue par un seul modèle. Cela se produira selon Hansen et Salamon (1990) si deux conditions sont rencontrées : 1) Les classificateurs sont précis : le taux d'erreur obtenu par chacun des classificateurs est inférieur à celui obtenu en devinant au hasard; 2) Les classificateurs sont diversifiés : deux classificateurs distincts ont des taux d'erreur distincts sur des prévisions produites sur de nouveaux enregistrements. Conséquemment, les méthodes ensemblistes utiliseront diverses méthodes pour créer de la diversité dans les modèles produits. Dietterich (2000) présente cinq façons de créer des ensembles diversifiés : 1) Le vote Bayésien : Supposons l'hypothèse probabilité conditionnelle cible d'un nouvel enregistrement qui définit la distribution de . La prédiction d'une variable en utilisant un ensemble d'entraînement peut être exprimée comme le problème de déterminer . Nous retrouvons ici une méthode d'ensemble où la valeur prédite sera la somme pondérée des hypothèses dans l'ensemble d'hypothèses H : ; 2) Perturbation de la sélection de l'ensemble d'entraînement : Un ensemble de modèles est généré en sélectionnant, pour chaque modèle, un échantillon aléatoire d'enregistrements parmi l'ensemble d'enregistrements disponibles; 27 3) Perturbation de la sélection des variables indépendantes : Un ensemble de modèles est généré en sélectionnant, pour chaque modèle, un échantillon aléatoire de variables indépendantes parmi l'ensemble de variables disponibles; 4) Perturbation de la variable cible : Un ensemble de modèles est généré en modifiant les valeurs de variable cible de la façon suivante pour chaque modèle : Les valeurs de la variable cible sont regroupées aléatoirement en deux groupes et sont modifiées pour prendre une valeur binaire (ex.: 0,1) selon le groupe. Le modèle est entrainé avec cet ensemble d'entraînement modifié. L'ensemble attribuera un vote à chaque valeur originale de variable cible dont le groupe aura été prédit par un modèle, et la valeur de prédiction retournée par l'ensemble sera la valeur ayant reçu le plus de votes; 5) Injection d'aléatoire : Chaque modèle de l'ensemble est construit en variant de façon aléatoire un ou plusieurs paramètres de construction du modèle (ex.: profondeur de l'arbre, nombre minimal d'enregistrements dans un noeud, etc.). Dietterich explique également pourquoi les modèles ensemblistes agrégeant les prévisions de plusieurs modèles donnent souvent des résultats plus précis qu'avec l'utilisation d'un seul modèle. Il donne trois raisons à cela, qui sont de nature statistique, computationnelle et représentationnelle : 1) Statistique : Chaque modèle représente une hypothèse de la fonction expliquant la variable cible. Cette hypothèse est située à un endroit différent de la fonction dans l'espace regroupant toutes les hypothèses possibles. Un modèle ensembliste combinant plusieurs modèles, donc plusieurs hypothèses, représentera une hypothèse qui sera probablement plus près de la fonction que la plupart des hypothèses représentées par chacun des modèles; 2) Computationnelle : Un modèle seul partant d'un point de recherche peut se retrouver bloqué dans un optimum local, ce qui l'empêchera d'approximer correctement la fonction . Un modèle ensembliste combinant plusieurs modèles aura plus de chances de s'approcher de l'optimum global; 3) Représentationnel : Un modèle seul ne peut espérer représenter la « vraie » fonction expliquant la variable cible. Un modèle ensembliste utilisant une moyenne pondérée de plusieurs modèles comprenant l'utilisation d'une multitude d'informations peut davantage espérer couvrir convenablement (même si la couverture est incomplète) l'espace des modèles possibles pour approximer la fonction . 28 Le gain de précision apporté par les méthodes ensemblistes est principalement dû à la réduction de la composante de la variance dans l'erreur de prédiction. On peut décomposer l'erreur de prédiction en trois sous-composantes : l'erreur minimale de prédiction, le biais et la variance (voir Breiman (1998)). Seni et Elder (2010) présentent la décomposition de l'erreur de prédiction de la façon suivante : Soit l'équation : représentant la fonction cible de donné, additionné d'un terme d'erreur qu'on tente de découvrir avec un modèle supposé i.i.d.. n'est pas connue et le terme d'erreur représente du bruit dans les données, des erreurs de mesure, etc. Maintenant, soit un estimateur agrégé : où avec est la moyenne de plusieurs modèles ensembles de données d'entraînement : construits avec le même algorithme . L'erreur moyenne au carré (MSE) sera, pour un modèle et ensemble de données précis , avec = (1, ..., ) : Un arbre utilisé seul présentera un biais assez bas mais une grande variance, étant donné qu'une petite variation dans les données de l'ensemble d'entraînement peut entraîner une grande variation dans l'arbre créé. Les méthodes ensemblistes améliorent la performance de prévision en permettant de réduire, soit la variance, soit le biais, ou en permettant d'atteindre un équilibre entre les deux. La composante d'erreur ( l'erreur totale, elle, ne peut être réduite. ) de 29 Bagging Breiman (1996) conçoit la méthode du Bagging (« Bootstrap aggregating ») qui consiste à créer arbres en sélectionnant aléatoirement pour chaque arbre un échantillon dans l'ensemble d'apprentissage. D'un arbre à l'autre, il y a remise des tuples de l'échantillon dans l'ensemble d'apprentissage. À la fin du processus de création, pour chaque tuple de l'ensemble de test : Si la variable cible est de type nominal ou ordinal, la valeur de la variable cible ayant été sélectionnée le plus souvent par les arbres sera sélectionnée de façon équipondérée; Si la variable cible est de type continu, une moyenne équipondérée des valeurs obtenues pour chacun des arbres sera retournée comme prévision du modèle. Boosting Freund et Schapire (1996) présentent la méthode ensembliste du Boosting. Cette même méthode a ensuite été généralisée par Breiman (1998) sous le terme de « Arcing » pour « Adaptively Resample and Combine ». Cette méthode consiste, comme le Bagging, à créer successivement arbres en sélectionnant à chaque fois un échantillon de taille dans l'ensemble d'apprentissage. Au départ, tous les enregistrements ont la même probabilité (poids) d'être sélectionnés égale à . Cependant, lors du processus de création des arbres, les échantillons sélectionnés pour la création d'un arbre et mal classifiés par celui-ci seront retournés dans l'ensemble d'apprentissage avec une probabilité plus élevée d'être sélectionnés lors de la création d'un arbre subséquent. Les échantillons bien classifiés, quant à eux, verront leur poids décroître suivant la même logique. Ainsi, l'algorithme, appelé Adaboost (acronyme de « Adaptive Boosting ») « encourage » la sélection des tuples les plus difficiles à classifier au fur et à mesure du déroulement du processus de création. Chaque arbre créé recevra un poids qui sera utilisé à la fin du processus de création pour classifier les enregistrements de l'ensemble de test. Ce poids sera calculé en tenant compte du nombre de tuples mal classifiés dans l'échantillon ayant servi à la création de l'arbre. Le modèle ainsi produit attribuera comme valeur de prévision à un nouvel enregistrement une valeur de la variable cible par un vote pondéré en tenant compte des poids de chaque arbre. 30 Friedman (2001, 2002) adapte l'algorithme AdaBoost pour les problèmes de régression où la variable cible est continue. Friedman démontre que l'algorithme Adaboost utilise en fait une fonction de perte exponentielle. Il propose alors la méthode du « Gradient Boosting » qui généralise l'algorithme AdaBoost pour l'utilisation de n'importe quelle fonction de perte différentielle. Notons que le « Gradient Boosting » est applicable autant pour des problèmes de classification que de régression, en utilisant des fonctions de perte appropriées. Dans cette méthode, on tente de déterminer une fonction prédictive l'espérance d'une fonction de perte où est la variable cible et qui minimisera : la fonction qu'on cherche à estimer. Cette fonction de perte doit être différentiable par rapport à la fonction prédictive. Cette minimisation de la fonction de perte devrait en théorie entraîner la minimisation du taux d'erreurs de prévision. La fonction prédictive est d'abord initialisée avec la valeur d'une constante qui constitue une prédiction initiale non optimale. Ensuite, cette fonction sera mise à jour avec les prédictions successives d'une série de arbres de régression qui constitueront l'ensemble. Nous avons ainsi une fonction de type additive qui met à jour la valeur de la fonction prédictive avec le résultat retourné par chaque itération. La variable cible prédite par ces arbres sera, non pas la variable cible originale, mais une variable cible « artificielle », le gradient négatif, calculé par la négative de la dérivée de la fonction de perte par rapport à la fonction prédictive pour chaque enregistrement servant à l'entraînement de l'arbre. Ce gradient négatif indique la pente la plus abrupte (« steepest descent ») en direction de la fonction optimale. On parle ici de gradient stochastique (Friedman (2002)) car une proportion d'enregistrements de l'ensemble entraînement est sélectionnée de façon aléatoire sans remise. La prédiction optimale de chaque noeud terminal de l'arbre sera le paramètre estimé où est l'ensemble des enregistrements qui minimise la fonction de perte : du noeud . La fonction est mise à jour après chaque itération suivant un pas d'apprentissage : le long de la pente 31 où est le nœud terminal où l’enregistrement se retrouvera. À la fin du processus, est retournée comme étant la fonction prédictive. Le calibrage de l'algorithme, notamment la sélection des paramètres du taux d'apprentissage, de la profondeur des arbres et du nombre d'arbres utilisés, demande un certain effort. Freidman suggère d'utiliser un ensemble de test hors échantillon pour ce faire. Selon Friedman, cet algorithme permet de produire des modèles robustes qui démontrent une bonne résistance au bruit dans les données. Cependant, un problème affectant le « Gradient Boosting », et les méthodes ensemblistes de façon générale, est l'interprétation. Ici, Friedman propose une méthode permettant de déterminer une mesure d'influence relative pour chaque variable indépendante. Cette mesure est la suivante : où est le nombre d'arbres de l'ensemble et suite à l'utilisation de la variable est la réduction de l'erreur au carré lors de la création des embranchements dans l'arbre . Cette mesure de réduction de l'erreur est la mesure d'impureté utilisée dans Breiman et al. (1984) dans le cas d'une variable cible continue. Forêts aléatoires Breiman (2001) créé une méthode dérivée du Bagging qu'il appelle : Forêts aléatoires (« Random Forests »). Ainsi, une modification est apportée au Bagging en « injectant » un facteur aléatoire lors de la création des noeuds des arbres composant l'ensemble. À chaque noeud, un sous-ensemble des variables explicatives est sélectionné et l'algorithme doit sélectionner dans ce sous-ensemble la variable qui déterminera l'embranchement optimal. Le nombre proposé de variables à sélectionner à chaque noeud est où est le nombre de variables indépendantes. Cependant, Breiman observe d'après ses expérimentations que la performance de la méthode est peu affectée par la taille du sous-ensemble de variables sélectionnées. Les arbres sont créés par l'utilisation de l'algorithme CART sans élagage. Cette méthode favorise la création d'arbres plus variés et est applicable autant aux arbres de classification qu'aux arbres de régression. Selon Breiman, les modèles de forêts aléatoires présentent les caractéristiques suivantes (traduction libre) : 1) leur précision est équivalente à l'algorithme Adaboost et parfois meilleure; 32 2) ils sont robustes et résistants au bruit dans les données; 3) ils sont plus rapides que les modèles du Bagging et du Boosting en raison du moins grand nombre de variables à évaluer à chaque noeud; 4) ce sont des modèles simples et qui peuvent être implémentés en utilisant la parallélisation. Breiman propose également une méthode d'évaluation de l'importance des variables indépendantes utilisées par les modèles de forêts aléatoires visant à faciliter leur interprétation. Un modèle de forêt aléatoire est construit avec un ensemble d'entraînement. Une erreur de classification ou de prédiction est calculée avec un ensemble de test hors échantillon pour chaque arbre du modèle de forêt aléatoire. Ensuite, pour chaque variable indépendante , ses valeurs dans l'ensemble hors échantillon sont tour à tour permutées de façon aléatoire parmi les enregistrements et une erreur est calculée pour chacune d'elles pour chaque arbre du modèle de forêt aléatoire. Pour chaque variable, la différence entre les erreurs avant et après permutation est calculée pour chaque arbre et la moyenne de cette mesure de variation d'erreur est finalement calculée sur l'ensemble des arbres. Pour chaque variable, on obtient donc une mesure qui détermine l'importance de chaque variable indépendante selon la grandeur de la moyenne d'accroissement de l'erreur. Une hypothèse pour expliquer l'utilité des forêts aléatoires en tant que méthode non linéaire est avancée par Cutler et al. (2007). Cette méthode devrait, selon cet article, performer mieux que les méthodes linéaires s'il y a de fortes interactions entre les variables indépendantes. La mesure d'importance des variables indépendante présentée par Breiman (2001) a été par la suite utilisée par certains chercheurs dans des méthodologies pour sélectionner un sous-ensemble de variables pour la création de modèles ensemblistes. Cela, dans le but par exemple de réduire le nombre de variables redondantes et/ou de produire des modèles plus facilement interprétables. On peut mentionner tout d'abord Díaz-Uriarte et Alvarez de Andrés (2006). Dans un problème de classification où des gènes sont utilisés comme variables indépendantes pour produire (classifier) un diagnostic, ils tentent de sélectionner un sous-ensemble de gènes le plus petit possible qui permettra d'obtenir une performance de classification 33 similaire à celle obtenue sans réduire le nombre de variables. Les dix ensembles de données présentent un très grand nombre de variables indépendantes milliers) en comparaison avec le nombre d'enregistrements (quelques (un maximum de 102 pour le plus grand des ensembles). Ils procèdent en créant initialement un modèle de forêt aléatoire avec l'ensemble des variables indépendantes, avec lequel des mesures d'importance et une erreur de classification hors échantillon sont calculées. Ensuite, de façon incrémentale, les 20% des variables de l'ensemble précédent présentant l'importance la plus faible sont retirées de l'ensemble d'entraînement et un nouveau modèle de forêt aléatoire est produit avec son erreur de classification hors échantillon. Cela, pour un nombre maximal d'itérations. Les mesures d'importance utilisées sont celles calculées avec la forêt aléatoire initiale et ne sont pas recalculées à chaque itération, cela risquant d'entraîner des problèmes de surentraînement. À la fin du processus, l'ensemble de gènes ayant la taille la plus petite et se trouvant à moins d'un écart-type de l'erreur de classification minimale observée pour l'ensemble des forêts créées est conservé. Les résultats montrent que les ensembles réduits de variables indépendantes permettent d'obtenir des taux d'erreur de classification similaires à ceux obtenus en utilisant la totalité des variables. La réduction du nombre de variables est considérable, passant de quelques milliers (modèles complets) à 230 et moins dans les modèles réduits. Ben Ishak et Ghattas (2008) procèdent de façon inverse en ajoutant successivement des variables dans un modèle en commençant par celles ayant la plus forte importance, et en conservant le modèle produisant la plus faible erreur hors échantillon. Les méthodes utilisées pour calculer les mesures d'importance comprenaient les machines à vecteurs supports et les forêts aléatoires. Les ensembles de données utilisés sont au nombre de quatre, sélectionnés parmi les dix utilisés dans Díaz-Uriarte et Alvarez de Andrés (2006). Les conclusions sont similaires à celles de Díaz-Uriarte et Alvarez de Andrés (2006). Enfin, Genuer, Poggi et Tuleau-Malot (2010), proposent une méthode en quatre étapes pour la réduction du nombre de variables. Cela, pour atteindre deux objectifs spécifiques : 34 1) interprétation : déterminer les variables les plus étroitement liées à la variable cible; 2) prédiction : déterminer un nombre minimal de variables permettant d'obtenir une erreur de prédiction comparable à celle obtenue avec l'ensemble des variables indépendantes disponibles. Méthode : 1) Les variables sont classées en ordre décroissant selon leur importance moyenne (calculée sur 50 itérations); 2) Une première élimination a lieu en mettant de côté les variables dont la mesure d'importance montre un écart-type en deçà d'un seuil minimal estimé par arbre CART; 3) Pour l'objectif d'interprétation : Des modèles de forêt aléatoire sont créés en ajoutant successivement des variables, en débutant par celles ayant la plus grande importance. Le modèle ayant le plus petit nombre de variables et se trouvant à moins d'un écart-type de l'erreur de classification minimale moyenne (calculé sur 50 itérations) observée pour l'ensemble des forêts créées est conservé; 4) Pour l'objectif de prédiction : Utilisant les variables du modèle choisi à l'étape 3), des modèles sont produits en ajoutant successivement les variables une par une par ordre décroissant d'importance. La production de modèles s'arrête si l'ajout d'une variable supplémentaire mène à une décroissance de l'erreur en deçà d'un certain seuil. Pour quatre ensembles de données utilisés dans Díaz-Uriarte et Alvarez de Andrés (2006), le nombre de variables dans les modèles réduits est considérablement inférieur au nombre de départ (variation passant de quelques milliers à moins de cent variables), et les résultats en terme d'erreur de classification obtenu par validation croisée sont de même ordre que ceux obtenus avec les modèles complets. Rokash (2009) offre une revue des différentes méthodes ensemblistes de classification disponibles aux chercheurs et professionnels. Cette revue inclut les plus récentes méthodes et certaines méthodes prometteuses habituellement non mentionnées dans d'autres revues, comme l'algorithme DECORATE (Melville et Mooney (2003)) et le « Attribute Bagging » (Bryll, Gutierrez-Osuna et Quek (2003)) par exemple. Il propose également une nouvelle méthodologie unifiée afin de caractériser et comparer ces 35 méthodes entre elles. Cette méthode classifie les différentes méthodes selon cinq aspects : la méthode d'agrégation des résultats des classificateurs de l'ensemble, l'indépendance ou non des classificateurs entre eux, la façon d'introduire de la diversité dans les classificateurs, la méthode de détermination de la taille de l'ensemble, et l'indépendance ou non du type de classificateurs avec la méthode ensembliste. Finalement, l'auteur propose une liste de critères de sélection à considérer pour la sélection de la méthode appropriée selon la problématique (ex.: temps de calcul, interprétation des résultats, flexibilité, etc.) Dans Siroky (2009), une revue de l'historique des forêts aléatoires est présentée, qui comprend la revue des méthodes ensemblistes précurseurs du Bagging et du Boosting. L'auteur discute ensuite des méthodes de visualisation des données connexes aux modèles de forêts aléatoires, méthodes qui permettent de pallier à l'interprétation plus ardue de ces modèles en comparaison avec un arbre simple. Ces données comprennent notamment les résultats, les relations entre les variables indépendantes et la variable cible, et les taux d'erreurs hors échantillon. Les situations où les forêts se révèlent utiles sont énumérées, notamment la sélection de variables et le remplacement de données manquantes, ainsi que les logiciels permettant de les implémenter. Finalement, Siroky mentionne des recherches récentes qui se sont intéressées aux propriétés et limitations des forêts, notamment leur consistance (ex.: Biau, Devroye et Lugosi (2008)) et le biais des mesures d'importance produites par les forêts aléatoires (ex.: Strobl et al. (2007)). Une bibliographie exhaustive accompagne cet article. Seni et Elder (2010) offrent une revue des algorithmes des méthodes ensemblistes et fournissent des exemples de code du logiciel R afin d'implémenter ces méthodes. Ils montrent également comment le modèle « Importance Sampling Learning Ensemble (ISLE) » présenté dans Friedman et Popescu (2003) permet de représenter les quatre méthodes ensemblistes du Bagging, d'AdaBoost, du « Gradient Boosting » et des forêts aléatoires comme des cas spécifiques d'un même algorithme. Finalement, ils présentent une méthode de construction de modèles d'ensembles de règles visant à améliorer l'interprétation des modèles ensemblistes, avec des exemples utilisant des données artificielles et réelles. Cette méthode a été créée par Friedman et Popescu (2005). Dans cette méthode, les règles sont extraites d'arbres ayant servi 36 à construire un modèle ensembliste. Ensuite, un modèle linéaire est construit en utilisant ces règles non linéaires : Les coefficients sont estimés suivant Friedman et Popescu (2004). Ainsi, cette méthode permet une analyse plus détaillée des règles extraites via l'interprétation des coefficients associés à chaque règle. L'importance des variables indépendantes peut également être évaluée selon leur utilisation par les règles ayant les coefficients les plus significatifs. 2.3.3 Comparaisons des méthodes ensemblistes entre elles et avec d'autres méthodes Plusieurs chercheurs ont comparé empiriquement les méthodes ensemblistes entres elles, et avec d'autres méthodes de classification et de prédiction. Bauer et Kohavi (1999) ont mené une étude comparative de méthodes ayant comme base le Bagging et le Boosting (Adaboost et Arc-x4) pour des problèmes de classification. Le but de l'étude était d'obtenir une meilleure compréhension des raisons expliquant les performances des deux types de méthodes, et des situations où elles fonctionnent mieux. Pour cela, une décomposition biais/variance des erreurs de classification obtenues a été effectuée. Il y avait deux types de classificateurs utilisés dans les ensembles : les arbres de décision (trois variantes) et l'algorithme Naive-Bayes. Quatorze ensembles de données ont été utilisés. De façon générale, en ce qui concerne les ensembles construits avec les arbres de décisions, les méthodes basées sur le Boosting ont donné les meilleurs résultats. Cela rejoint les observations de plusieurs études antérieures, notamment Breiman (1998) et Quinlan (1996). La réduction de l'erreur de classification apportée par le Bagging est principalement due à la réduction de la variance. Les méthodes de Boosting, quant à elles, ont permis une réduction à la fois de la variance et du biais. Le Bagging présente une variance moins élevée que les méthodes du Boosting, qui elles, présentent toutefois un biais plus faible. Les auteurs ont constaté que l'utilisation de l'élagage augmentait parfois l'erreur pour le Bagging, alors que l'inverse a été observé pour le Boosting. Finalement, malgré sa supériorité face au Bagging, la méthode Adaboost s'est révélée sensible au bruit dans les données. Sa performance se dégradait significativement au fur et à mesure que les auteurs augmentaient le niveau de bruit dans les données. 37 Après expérimentation sur 19 ensembles de données, Breiman (2001) montre une performance de prévision des forêts aléatoires similaire, et souvent supérieure, comparé au Boosting (Adaboost). Des tests supplémentaires effectués en ajoutant 5% de bruit dans les données montrent une plus grande résistance des forêts aléatoires face au bruit selon l'accroissement du taux d'erreur de classification. Dans Labarre (2003), l'auteure a comparé les capacités prédictives de diverses méthodes quantitatives en ce qui a trait à l'identification d'acheteurs potentiels. Les méthodes comparées consistaient en : la régression logistique, une méthode maison utilisée dans une entreprise et quatre méthodes ensemblistes. Les quatre méthodes ensemblistes étaient : le Bagging, le Boosting, la Randomisation et les forêts aléatoires. La variable cible était de type binaire : achat = oui/non. Les variables explicatives étaient de deux types : binaire et continu. Les résultats obtenus, en utilisant un échantillon de test constitué de données prises plus tard dans le temps comparé à l'échantillon d'entraînement, montrent que les méthodes ensemblistes ont donné des résultats similaires à la méthode de l'entreprise et supérieurs à la régression logistique. Parmi les méthodes ensembliste, la méthode des forêts aléatoires est la seule ayant pu surpasser la méthode de l'entreprise lors d'une validation. Dans l'article de Hamza et Larocque (2005), on compare la performance de prédiction d'un arbre de classification simple et de trois méthodes ensemblistes : le Bagging, le Boosting et les forêts aléatoires. Ces méthodes sont utilisées avec différents choix de paramètres (nombre d'arbres dans les méthodes d'ensembles, indice d'impureté pour la sélection des embranchements). L'algorithme de construction des arbres de classification utilisé est CART. Il y a utilisation de 14 ensembles de données accessibles publiquement et provenant de divers domaines d'application. La performance est déterminée par le pourcentage d'erreur de classification en utilisant la méthodologie de validation croisée à dix groupes. Les résultats obtenus montrent que, en général, la méthode des forêts aléatoires donne les meilleurs résultats (dans neuf ensembles de données sur quatorze) et que cette méthode est la plus robuste en présence de bruit dans les données. Les méthodes utilisant l'algorithme du Boosting obtiennent ensuite les meilleurs résultats, suivies des méthodes utilisant le Bagging. 38 Cutler et al. (2007) ont comparé les performances de classification des forêts aléatoires avec quatre autres méthodes : l'analyse discriminante linéaire, la régression logistique, la régression logistique additive et l'arbre de classification simple. La classification s'effectuait sur trois ensembles de données dans le domaine de l'écologie et portait sur deux espèces de plantes et une variété d'oiseaux nicheurs. Les données écologiques présentent des similarités avec les données financières car les interactions entre ces données sont complexes et non linéaires selon Cutler et al., et il y a régulièrement des valeurs manquantes parmi elles. Sur les trois ensembles de données, la méthode des forêts aléatoires a présenté les meilleurs résultats selon le critère de performance du pourcentage de bonnes classifications évalué par validation croisée à dix groupes. Également, pour l'un des deux ensembles d'espèces de plantes, les variables identifiées comme étant les plus prédictives selon une mesure d'importance similaire à celle utilisée dans ce mémoire (voir section 3.9.4) concordaient avec les variables prédites comme étant les plus utiles pour la classification de cette espèce dans la littérature. Ce mémoire va se situer dans la continuité de ces recherches en utilisant des méthodes ensemblistes pour produire des prévisions de BPA trimestriels. Cela, en utilisant des variables indépendantes de types économiques et financières. Il y aura : Comparaison de la performance des méthodes ensemblistes entre elles et avec une méthode standard, la régression linéaire, et une méthode servant de base de comparaison, l'arbre de régression simple; Comparaison de la précision des résultats des méthodes ensemblistes avec celle des analystes. 39 CHAPITRE 3 - Méthodologie 3.1 Introduction La revue de littérature a permis, dans un premier temps, de revoir les différentes méthodes quantitatives qui ont été utilisées dans le passé pour la prévision financière. La performance de ces méthodes pour la prévision des bénéfices ou d'autres données financières est variable selon le type de méthode. La comparaison des méthodes quantitatives utilisées en prévision financière a pu faire ressortir une certaine dominance des méthodes non paramétriques sur les méthodes paramétriques. Cela, fort probablement en raison de la nature non linéaire des données financières. Parmi les méthodes quantitatives, les méthodes ensemblistes à base d'arbres se sont révélées intéressantes pour la prévision financière, notamment dans la prédiction du risque de faillite et des rendements anormaux. Quant à la prévision des bénéfices, les recherches montrent que les analystes financiers arrivent à prévoir les bénéfices avec un degré de précision appréciable par l'industrie financière. Ces derniers disposent toujours d'une longueur d'avance sur les méthodes quantitatives, de par leur capacité à traiter des informations non disponibles pour l'analyse quantitative, et parce qu'ils disposent d'un avantage temporel, entre autres. 3.2 Objectifs de recherche À partir des constatations apportées par la revue de littérature, les deux objectifs de recherche suivants ont été déterminés pour cette recherche : 1) Mesurer et comparer les performances en termes de précision des prévisions de BPA trimestriel obtenues avec les trois méthodes ensemblistes suivantes : le Boosting, le Bagging et les forêts aléatoires. Il y aura également utilisation d'un arbre de régression simple comme base de comparaison afin de confirmer la supériorité prédite des méthodes ensemblistes sur celui-ci, et confirmer ou infirmer les résultats d'autres recherches. La première hypothèse pour cet objectif est que la méthodologie des forêts aléatoires dominera les deux autres méthodes ensemblistes et l'arbre simple. Ce résultat a été observé dans plusieurs recherches passées, notamment Labarre (2003), Hamza et Larocque (2005) et Cutler et al. (2007). La régression linéaire sera également utilisée comme standard en tant que méthode paramétrique. Cela, en raison du fait qu'elle est toujours grandement utilisée dans les travaux de recherche en finance, et également pour fins de 40 comparaison avec les arbres de régression et les méthodes ensemblistes, qui sont des méthodes non paramétriques. Comme la nature des données financières est généralement non linéaire, comme deuxième hypothèse pour cet objectif, nous nous attendons à ce que les méthodes non paramétriques démontrent une meilleure performance que les méthodes paramétriques, comme cela a été observé dans Cutler et al. (2007), entre autres; 2) Comparer l'erreur absolue moyenne de prévision en pourcentage (EAMP) des méthodes ensemblistes avec celle des analystes. Cela, pour fins de comparaison avec les écarts observés dans d'autres recherches où une comparaison de performance de prédiction entre les méthodes quantitatives et les analystes a été effectuée. Advenant qu'un écart réduit soit trouvé, que nous proposons de 15% ou moins, nous croyons que les méthodes ensemblistes pourraient être utilisées par les analystes pour valider leurs propres prévisions. Elles pourraient également servir à identifier les variables prédictives qui ont été sélectionnées dans les arbres constituant les modèles produits par ces méthodes, ainsi que les règles de décisions liées à ces variables dans les embranchements des arbres. Également, de façon secondaire, il sera intéressant de comparer les industriestrimestres où les méthodes ensemblistes ont montré les meilleurs (moins bons) résultats avec ceux où les analystes performent le mieux (le moins). 3.3 Description de la variable cible La variable cible utilisée sera le bénéfice par action (BPA) trimestriel. Cette donnée est pratique en recherche, en raison de la disponibilité dans diverses bases de données d'une masse appréciable d'historiques de prévisions de BPA trimestriels par les analystes financiers, et de BPA trimestriels réalisés. Le bénéfice utilisé pour le BPA dans ce mémoire est un bénéfice de type « Street ». Dans la littérature s'intéressant aux bénéfices, on mentionne généralement deux types de bénéfices : « GAAP » vs « Street », dont voici les caractéristiques : 41 Tableau 3 : Caractéristiques des bénéfices « GAAP » vs « Street » 3 Type de bénéfice Bénéfices « GAAP » Caractéristiques Bénéfices apparaissant dans les rapports financiers publiés par les entreprises Bénéfices produits selon les principes comptables généralement reconnus (PCGR) (en anglais : GAAP : « Generally Accepted Accounting Principles ») Bénéfices « Street » Bénéfices annoncés dans les communiqués de presse des entreprises Bénéfices rapportés par plusieurs fournisseurs de données relatives aux prévisions de bénéfices comme IBES, Zacks et FirstCall Égal à : bénéfices « GAAP » moins certaines charges considérées extraordinaires et choisies de façon arbitraire. Ex.: charges de restructuration, poste hors-caisse, frais liées aux fusionsacquisitions. Une autre caractéristique du BPA que nous utiliserons est qu'il est de base plutôt que dilué. L'IAS (« International Accounting Standards »)4 donne une définition de ces deux types de BPA : BPA de base : Le résultat de base par action doit être calculé en divisant le résultat attribuable aux porteurs d’actions ordinaires de l’entité mère (le numérateur) par le nombre moyen pondéré d’actions ordinaires en circulation (le dénominateur) au cours de la période; BPA dilué : Pour le calcul du résultat dilué par action, une entité doit ajuster le résultat attribuable aux actionnaires ordinaires de l’entité mère, ainsi que le nombre moyen pondéré d’actions en circulation des effets de toutes les actions ordinaires potentielles dilutives. Nous avons choisi dans ce mémoire d'utiliser le BPA de base. Les données disponibles auraient permis l'utilisation de l'un ou l'autre des deux types de BPA. 3 4 Bradshaw et Sloan (2002, traduction libre). http://eifrs.iasb.org/eifrs/bnstandards/fr/ias33.pdf (accès réservé). 42 3.4 Choix et description des variables explicatives Différentes variables explicatives ont été sélectionnées pour leur potentiel prédictif sur les bénéfices. Ces variables sont au nombre de 44 et ont été regroupées en quatre groupes : 1) Variables économiques; 2) Variables financières; 3) Variables boursières; 4) Variables de contrôle. Tableau 4 : Variables explicativesa Variables économiques (13) Heures travaillées. secteur manufact. (ehpmf) Demandes initiales d'ass.chômage (eclai) Nouvelles comm. de biens de conso. et de matériaux, secteur manufact. (ex213) Indice d'anticipation des consommateurs (eu0m8) Indice S&P 500 (eu0m1) Commandes de biens de capital secteur manufact. (eomca) Nouveaux permis de bâtir (ehuat) Délais inhabituels de livraisons (eu0m3) Masse monétaire M2 (emny2) Écart taux d'intérêt T-Bonds 10 ans <> fonds fédéraux (erm10) Variables financières (17) Bénéfice par action (feps) Bénéfice (fben) a Variables de contrôle (2) Code d'industrie (ecosec) Taille de l'entreprise (ftaille) Indice S&P 500 Secteur : Services financiers (fifin) Rendement de l'actif (froa) Stabilité des rendements (fstar) Service de la dette (fdets) Profitabilité cumulative (fprocu) Liquidité (flqdt) Capitalisation boursière (fcapb) Ratio de rotation de l'actif (frota) Ratio d'endettement (fdett) Indicateur composite avancé (ejlead) Indicateur composite coïncident (ejcoin) Indicateur composite retardé (ejlag) Variables boursières (12) Cours du titre de l'entreprise (fcote) Indice S&P 500 Secteur : Santé (fihea) Indice S&P 500 Secteur : Consommation discrétionnaire (ficod) Indice S&P 500 Secteur : Consommation courante (ficos) Indice S&P 500 Secteur : Énergie (fienr) Indice S&P 500 Secteur : Technologie (fiint) Indice S&P 500 Secteur : Matériaux de base (fimat) Indice S&P 500 Secteur : Produits industriels (fiind) Indice S&P 500 Secteur : Télécommunications (fitel) Indice S&P 500 Secteur : Services publics (fiuti) Ratio d'inventaire (finv) Ratio de comptes Indice S&P 500 VIX (fvix) recevables (frec) Ratio de dépenses d'équipement (fcapx) Ratio de marge brute (fmb) Ratio de frais d'administration (fadm) Taux d'imposition (fimp) Ratio de productivité (fprod) Entre parenthèses est indiqué le code de la variable utilisé dans les tableaux subséquents. Il est important de prendre note que, à l'exception des deux variables de contrôle et de la variable financière de la stabilité des rendements (fstar), ces variables ne seront pas directement utilisées comme variables explicatives. Plutôt, quatre variations 43 trimestrielles seront calculées à partir de chacune d'elles et seront utilisées comme variables explicatives (voir 3.6 Modèle temporel). Ainsi, nous utiliserons au total 167 variables explicatives (indépendantes) : 41 * 4 = 164 variations trimestrielles + trois variables. 3.4.1 Variables économiques Selon le « Conference Board », organisme privé américain à but non lucratif, dix indicateurs ont tendance à anticiper les cycles économiques et sont donc considérés comme des indicateurs avancés de l'économie. Selon le guide des indicateurs des cycles économiques5 du « Conference Board » ces indicateurs doivent respecter quelques critères (traduction libre) : Être précurseurs des cycles économiques; Être liés de façon économiquement logique aux cycles économiques; Être calculés de façon statistiquement fiable; Ne pas être sujets à une variance trop élevée; Être disponibles dans un délai raisonnable. Ces dix indicateurs sont : 1) Le nombre moyen hebdomadaire d'heures travaillées du secteur manufacturier; 2) Le nombre moyen hebdomadaire de demandes initiales d'assurance-chômage; 3) Les nouvelles commandes de biens de consommation et de matériaux du secteur manufacturier; 4) L'indice d'anticipation des consommateurs; 5) L'indice S&P 500; 6) Les commandes de biens de capital du secteur manufacturier; 7) Les nouveaux permis de bâtir; 8) Les délais inhabituels de livraisons; 9) La masse monétaire M2; 10) L'écart entre les taux d'intérêt des obligations fédérales dix ans et les fonds fédéraux. Comme on peut supposer que la plupart des entreprises présentent des bénéfices plus ou moins corrélés avec les cycles économiques, ces indicateurs seront utilisés comme variables explicatives. 5 http://www.conference-board.org/pdf_free/economics/bci/BCI-Handbook.pdf, p. 14. 44 À ces indicateurs individuels, nous avons ajouté les trois indicateurs composites : avancé, coïncident et retardé. Ces indicateurs composites sont constitués à partir des indicateurs individuels de chacun des trois groupes selon la méthodologie présentée dans la section IV (« Components and Construction of Composite Indexes ») du guide des indicateurs des cycles économiques6 du « Conference Board ». Un indicateur composite présente des avantages comparé aux indicateurs individuels : « Il offre un signal plus régulier et plus précis sur les pics et les creux du cycle économique que chacun des indicateurs précurseurs pris individuellement et permet de diminuer les risques de faux signaux que ces derniers peuvent occasionner.7 » Malgré l'objectif de prévision des bénéfices dans cette recherche, nous avons néanmoins choisi d'inclure les indicateurs coïncidents et retardés. Cela, dans l'hypothèse qu'ils aient un pouvoir prédictif pour certaines industries dont les bénéfices réagiraient moins rapidement aux changements de cycles. Les données mensuelles de tous ces indicateurs ont été utilisées. Ces données mensuelles représentent, soit la valeur au dernier jour du mois, soit la moyenne des données du mois, selon la source de données. La donnée correspondant à un trimestre donné dans cette recherche sera celle du dernier mois du trimestre. 3.4.2 Variables financières Tout d'abord, les valeurs passées de la variable dépendante, le BPA trimestriel, seront utilisées comme variables indépendantes, en supposant que les bénéfices trimestriels passés puissent prévoir les bénéfices futurs. Le bénéfice en dollar sera lui aussi utilisé pour la même raison. Cette variable permet de calculer une mesure additionnelle de variation trimestrielle de bénéfice ne dépendant pas des variations du nombre d'actions en circulation. Il s'agit ici du bénéfice trimestriel net avant intérêts et impôts. L'analyse des états financiers des entreprises est nécessaire pour évaluer leur santé financière, et, en conséquence, leur capacité à survivre et à générer des profits dans le futur. Nous posons donc l'hypothèse que les variables financières s'étant montrées 6 7 http://www.conference-board.org/pdf_free/economics/bci/BCI-Handbook.pdf, p. 47. Guide des indicateurs économiques des principaux pays industrialisés, Desjardins Études Économiques, p. 52. 45 significatives pour prévoir la faillite des entreprises dans les recherches passées devraient l'être également pour prévoir les bénéfices. La faillite d'entreprise peut en effet être associée à une succession de pertes financières (bénéfices négatifs). Dans un article important publié en 1977 par Altman, Haldeman et Narayanan, un modèle de prévision de faillite, le modèle ZETATM, a été élaboré. Ce modèle utilise comme variables prédictives sept différentes mesures qui, suite à un processus itératif, ont été identifiées comme ayant un pouvoir prédictif sur la détresse financière. Il permet d'attribuer un « score » à une entreprise qui, s'il est inférieur à un certain niveau, indique un risque élevé de faillite dans un avenir rapproché. Dans ce mémoire, les sept variables financières utilisées dans Altman, Haldeman et Narayanan (1977) seront utilisées. Ces variables sont les suivantes : 1) Rendement de l'actif : Bénéfice net avant intérêts et impôts / Actif total; 2) Stabilité des rendements : Écart-type (Bénéfice net annuel avant intérêts et impôts / Actif total annuel) des cinq dernières années; 3) Service de la dette : Bénéfice net avant intérêts et impôts / Intérêts payés; 4) Profitabilité cumulative : Réserves / Actif total; 5) Liquidité : Ratio de liquidité : Actif à court terme / Passif à court terme; 6) Capitalisation boursière : Total de la capitalisation boursière / Capitaux permanents; 7) Taille de l'entreprise : log (Actif total). Ces ratios se retrouvent dans les catégories de ratios financiers : 'Liquidité' et 'Rentabilité', qui sont deux des cinq catégories de ratios financiers généralement utilisées selon Ross et al. (2007, Section 3.3, traduction libre) : 1) Liquidité; 2) Structure financière; 3) Exploitation; 4) Rentabilité; 5) Valeur au marché. Afin de couvrir les catégories '2) Structure financière' et '3) Exploitation', deux autres ratios, parmi les plus utilisés en recherche dans ces catégories selon Akers, Bellovary et Giacomino (2007), seront ajoutés : 46 Structure financière : Pour tenir compte de l'endettement total : Passif total / Actif total; Ratio de rotation de l'actif : Ventes / Actif total moyen. N.B.: La catégorie '5) Valeur au marché' sera couverte par les variables boursières décrites dans la section 3.4.3. Un autre groupe de sept variables financières sera également utilisé comme variables indépendantes dans ce travail. Ce sont sept ratios qui ont été identifiés comme particulièrement utiles pour la prédiction de BPA via l'utilisation de réseaux de neurones dans un travail récent, Cao et Parry (2009), qui eux-mêmes s'inspiraient des variables utilisées dans deux autres travaux récents : Abarbanell et Bushee (1998), et Beneish, Lee et Tarpley (2001). Ces sept ratios sont les suivants : 1) Ratio d'inventaire : Inventaire ($) / Nombre d'actions ordinaires utilisé pour le calcul de BPA de base; 2) Ratio de comptes recevables : Recevables ($) / Nombre d'actions ordinaires utilisé pour le calcul de BPA de base; 3) Ratio de dépenses d'équipement : Dépenses d'équipement (cédule V) ($) / Nombre d'actions ordinaires utilisé pour le calcul de BPA de base; 4) Ratio de marge brute : (Ventes - Coût des marchandises vendues) / Nombre d'actions ordinaires utilisé pour le calcul de BPA de base; 5) Ratio de frais d'administration : Frais d'administration et de ventes/ Nombre d'actions ordinaires utilisé pour le calcul de BPA de base; 6) Taux d'imposition : Impôts / Bénéfice avant impôts; 7) Ratio de productivité : log (Ventes/ Nombre d'employés). Dans le calcul des ratios 3) et 7), les éléments : 'Dépenses d'équipements (cédule V)' et 'Nombre d'employés' sont rapportés uniquement dans les états financiers annuels dans nos sources de données. Nous diviserons donc par quatre le montant annuel de 'Dépenses d'équipements' afin d'approximer le montant trimestriel, et nous utiliserons la donnée annuelle du nombre d'employés comme donnée trimestrielle, en supposant que ce nombre demeure stable pour l'année en question. Cela, pour la dernière donnée annuelle connue au moment du trimestre. Nous nous appuyons ainsi sur Cao, Schniederjans et Zhang (2004). Ils ont utilisé ce procédé pour ces variables dans leur modèle, et n'ont pas observé de différences significatives sur leurs résultats en les 47 comparant avec des résultats obtenus : 1) avec l'utilisation d'une variable trimestrielle alternative de dépenses d'équipements, et 2) en écartant la variable du ratio de productivité. Sauf pour les exceptions mentionnées, toutes les variables du groupe 'Variables financières' seront calculées avec les données des états financiers trimestriels. 3.4.3 Variables boursières Différentes nouvelles financières sont couramment publiées sur les entreprises. Ces nouvelles peuvent être classifiées comme positives, neutres ou négatives et auront souvent un effet avancé sur les bénéfices futurs des entreprises. Maintenant, il serait très fastidieux de considérer toutes ces nouvelles une par une afin d'évaluer leur effet potentiel sur les bénéfices. Une alternative est de considérer l'évolution du cours du titre d'une entreprise comme variable de remplacement pour l'effet global de ces nouvelles. On peut poser l'hypothèse que l'évolution à la hausse ou à la baisse du titre, et l'ampleur du mouvement, permettraient de capter l'anticipation des investisseurs sur les bénéfices futurs. Les cours sont ajustés pour tenir compte des fractionnements/consolidations d'actions en les divisant par un facteur d'ajustement cumulatif fourni par le fournisseur de données. De la même manière, les mouvements récents des différents indices industriels disponibles du S&P 500 devraient également être de bons indicateurs avancés des attentes des investisseurs pour chaque industrie. Les industries de ces indices sont : Tableau 5 : Industries des indices S&P 500 Industrie - S&P 500 Services financiers Santé Consommation discrétionnaire Consommation courante Énergie Technologies de l'information Matériaux de base Produits industriels Télécommunications Services publics La correspondance entre les industries des indices disponibles du S&P 500 et les industries des entreprises faisant partie de notre étude (industries obtenues de IBES) 48 n'est pas parfaite (ex.: Consommation courante, discrétionnaire (S&P 500) vs Consommation de biens durables, non durables (IBES)). Nous avons tout de même décidé d'inclure cette variable, faute de mieux. Une autre variable sera utilisée : la volatilité de l'indice S&P 500. Nous supposons que cette variable pourrait également être considérée comme un indicateur avancé, car elle pourrait avoir un effet prédictif sur les mouvements futurs de l'indice S&P 500, lui même un indicateur avancé. Dans la littérature, nous retrouvons certains articles qui appuient cette hypothèse. Par exemple, Giot (2002) observe que des niveaux élevés de l'indice de volatilité implicite VIX lié à l'indice S&P 100 sont liés à des rendements positifs sur certaines périodes de temps à court terme (un, cinq et vingt jours). Cependant, pour d'autres niveaux de volatilité et d'autres périodes de temps, les résultats ne sont pas aussi évidents dans son étude, qui porte sur une période de 16 ans, de 1986 à 2002. Ici, pour chaque trimestre, nous avons calculé une valeur de VIX correspondant à la moyenne de la valeur VIX de fermeture des journées du trimestre. 3.4.4 Variables de contrôle Selon l'industrie, certaines variables économiques ou financières pourraient avoir une influence plus élevée sur les bénéfices futurs. L'industrie de l'entreprise sera donc utilisée comme variable explicative. L'industrie des entreprises de notre étude est déterminée par les données descriptives fournies par IBES. IBES utilise un système de classification qui lui est propre et qui est similaire à celui utilisé par le S&P 500 (pour les entreprises américaines). L'industrie sera identifiée par les deux premiers chiffres du code SIG (« Sector/Industry/Group ») qui est composé de six chiffres, où les deux premiers chiffres identifient le secteur, les deux suivants l'industrie et les deux derniers le groupe. Donc ici, ce que nous appelons 'Industrie' dans notre recherche correspond au 'Secteur' dans le code SIG d'IBES. 49 Tableau 6 : Industries IBES Code SIG 01 02 03 04 05 06 07 08 09 10 11 99 99 Industrie Services financiers Santé Consommation (non durables) Consommation (services) Consommation (durables) Énergie Transports Technologie Extraction/Transformation Construction/Manufacturier Services publics Divers Autres Code d'industrie utilisé subséquemment dans les tableaux FINANCE HEALTH CONSND CONSSVC CONSDUR ENERGY TRANSP TECHNOL BASIC CAPITAL UTILITY MISCELL UNDESIG Finalement, la taille de l'entreprise, la septième variable utilisée par Altman, Haldeman et Narayanan (1977), sera l'autre variable de contrôle. 3.5 Description des variables liées aux prévisions des analystes dans IBES Mesure : Donnée prévue par les analystes; Périodicité : Fréquence de la mesure (annuelle, semi-annuelle, trimestrielle); Indicateurs de périodicité : Indicateur alphanumérique qui indique le nombre de périodes fiscales séparant la période de la prévision de la dernière période où les états financiers ont été rendus publics, selon la périodicité (ex.: si la période de prévision est le quatrième trimestre de l'année 2003 et que les derniers résultats trimestriels publicisés sont ceux de deuxième trimestre 2003, l'indicateur de périodicité indiquera deux); Date d'activation (« Activate Date ») : Date où la prévision a été enregistrée dans IBES; Date d'annonce (« Announce Date ») : Date où l'analyste a produit la prévision; Date de révision (« Review Date ») : Date où l'analyste a révisé sa prévision; Date de fin de la période de prévision (« Forecast Period End Date ») : Date de fin en format AAMM identifiant le mois de fin de la période de prévision; BPA prévu : prévision de BPA par l'analyste; BPA actuel : BPA réalisé reporté dans les états financiers de la firme; N.B.: Dans IBES, il s'agit des BPA réalisés (« Historical ») provenant des états financiers publiés initialement. Il arrive que les entreprises publient des états 50 financiers corrigés suite à la publication initiale de leurs états financiers. Cela, à la suite d'événements comme des fusions-acquisitions, des changements dans la méthode de comptabilisation, ou pour corriger des erreurs ou des omissions dans la publication initiale notamment. Ces BPA corrigés (« Restated ») sont également disponibles dans IBES, mais nous avons choisi d'utiliser les BPA réalisés (« Historical ») pour fins de comparabilité avec les prévisions des analystes. Cela, car il nous aurait été impossible d'ajuster les prévisions des analystes adéquatement pour refléter les corrections dans les BPA réalisés. En effet, ces changements sont la plupart du temps effectués pour tenir compte d'informations qui n'étaient pas disponibles aux analystes lorsqu'ils ont produit leurs prévisions. 3.6 Modèle temporel Pour toutes les variables explicatives où il est possible de le faire (toutes les variables listées ci-haut, sauf trois : Stabilité des rendements, Code d'industrie, Taille de l'entreprise8), quatre variables seront créées en calculant les variations trimestrielles des quatre trimestres antérieurs à : Figure 1 : Modèle temporel La terminologie utilisée sera la suivante : pour chaque variable où des variations trimestrielles seront calculées, un suffixe '_vqxl' sera ajouté au code de la variable indiqué dans le tableau 4, où indique le nombre de trimestres retardés séparant la variation trimestrielle du trimestre de prévision . Ex.: Variation trimestrielle retardée de deux trimestres du bénéfice par action (feps) : feps_vq2l. 8 La taille du trimestre sera utilisée. 51 Elles permettront de vérifier si les variations trimestrielles récentes de ces variables ont un pouvoir prévisionnel sur la variable cible. Nous avons choisi de nous intéresser au passé récent (un an ou moins) car nous croyons que ce sont les variations trimestrielles récentes des données économiques et financières qui pourront le mieux aider à prévoir le prochain BPA trimestriel. Nous constituons ainsi un système de fenêtres roulantes où chaque fenêtre s'étale sur cinq trimestres, et où les données des quatre premiers trimestres (constituées principalement de variations en pourcentage) serviront à prévoir le BPA du cinquième trimestre. C'est une méthode inspirée de celles utilisées récemment dans la recherche, notamment Cao et Parry (2009) présentée dans la revue de littérature. Nous posons l'hypothèse que deux trimestres passés en particulier devraient être sélectionnés par les arbres de régression. L'un est évidemment le trimestre passé le plus récent : . La variation trimestrielle la plus récente d'un facteur économique et/ou d'un ratio financier pourrait avoir un effet plus important sur le bénéfice du trimestre suivant. L'autre serait le trimestre le plus éloigné, plus tôt que celui du trimestre de prévision , qui est le même trimestre un an . Celui-ci pourrait contenir un effet saisonnier pour certaines variables financières, comme le bénéfice lui-même entre autres. Ainsi, certaines entreprises ont tendance à connaître des accroissements ou des diminutions saisonnières de bénéfices, comme c'est le cas pour les entreprises de l'industrie du commerce de détail par exemple, qui connaissent généralement des bénéfices supérieurs lors de la période des Fêtes. 3.7 Données 3.7.1 Sources La source de données des prévisions de BPA trimestriels par les analystes financiers sera la BD IBES du fournisseur Thomson Reuters9. L'accès à cette BD a été fait par l'intermédiaire du « Wharton Research Data Services (WRDS) » de la Warthon School de la University of Pennsylvania, qui permet un accès à diverses BD de données financières, économiques et de marketing. 9 THOMSON REUTERS. I/B/E/S Detail History User Guide, 54 p. <https://customers.reuters.com/Home/> (accès réservé). 52 Cette BD a été abondamment utilisée dans les recherches s'intéressant aux prévisions des analystes. Elle renferme des prévisions de données annuelles datant de 1976, et trimestrielles datant de 1984, jusqu'à aujourd'hui. La BD IBES renferme également les BPA réalisés par les entreprises et sera utilisée comme source de données pour les BPA réels pour fins de comparabilité. En effet, bien que les BPA réels soient disponibles dans d'autres sources de données, comme Compustat par exemple, ils ne sont parfois pas de même nature et calculés différemment. La BD utilisée couvre des entreprises américaines uniquement. Dans IBES, il y a deux types de données avec deux possibilités pour chacun des deux types : 1) « Sommaires » vs « Détaillées »; 2) « Ajustées » vs « Non ajustées ». Pour le premier type, les données « Sommaires » représentent le consensus de prévision de tous les analystes pour une entreprise et un trimestre donné. Ce consensus est présenté sous forme de moyenne et de médiane des prévisions. Dans ce travail, nous avons choisi d'utiliser les données « Détaillées » afin d'avoir une plus grande marge de manoeuvre dans le traitement des prévisions des analystes. Par exemple, les données détaillées nous permettent d'utiliser les prévisions les plus récentes des analystes pour le calcul de la médiane. Aussi, ce mode de données est moins affecté par un problème de perte d'informations analysé par Payne et Thomas (2003). Ce problème est causé par l'ajustement pour fractionnement dans les données IBES. Dans les données de type « Sommaires », comme la précision est de deux décimales, les divisions des BPA par le facteur d'ajustement peuvent entraîner une perte d'information qui peut fausser les calculs d'erreur de prévision. Dans ce mémoire, comme nous utilisons des données détaillées qui sont fournies par IBES avec une précision de quatre décimales, la sévérité de ce problème est moins élevée selon Payne et Thomas (2003) : « The data provided on the Detail files are rounded to four decimals, indicating that the rounding issues discussed in this paper are less severe if the Detail files are used. » (Payne et Thomas, 2003 : p. 1050). À propos du deuxième type, le seul format de données disponible pour notre étude était le format « Ajustées ». L'ajustement signifie que les historiques de BPA, autant les prévisions de BPA que les BPA réalisés, sont ajustés rétroactivement selon les fractionnements ou regroupement d'actions pouvant survenir pour une entreprise au cours des années. Voici un exemple : 53 Tableau 7 : Exemple d'ajustement de BPA Type de BPA BPA prévu BPA réel Trimestre 1 0.8 Après deux fractionnements '2 pour 1' survenus entre le trimestre 1 et le trimestre N Trimestre 1 (Ajusté par une division par quatre) 0.2 0.90 0.225 Dans un ensemble de données IBES, les BPA prévus et réalisés sont ajustés par le même facteur d'ajustement pour un trimestre donné. Cela permet donc la comparabilité directe entre la prévision de BPA et le BPA réel. Cela permet également de comparer les BPA d'un trimestre à l'autre, peu importe l'écart de temps entre ces deux trimestres, afin de calculer, par exemple, la variation du BPA entre ces deux trimestres sur une même base. Cela, même si un ou plusieurs fractionnements sont survenus entre ces deux trimestres. Par ailleurs, dans IBES, les données historiques des entreprises ayant fait faillite ou ayant cessé leurs opérations sont conservées, évitant ainsi l'introduction d'un biais lié à l'utilisation de données d'entreprises survivantes seulement. La source de données pour les indicateurs économique est Global Insight. Cette BD contient des données mensuelles où la donnée pour un mois en particulier est, soit la donnée du dernier jour du mois, soit la moyenne pour le mois. Les données des états financiers utilisées pour calculer les différents ratios financiers, ainsi que les cours des titres des entreprises, proviennent de « Compustat (North America) ». La BD Compustat est elle aussi accessible via WRDS. Pour récupérer les données dans Compustat, nous avons utilisé une liste de CUSIP créée à partir de IBES. Un CUSIP (« Committee on Uniform Security Identification Procedures ») est un code servant à identifier une entreprise nord-américaine. Le système des CUSIP est géré par Standards and Poors et est propriété de l'organisation American Bankers Association. La liste des CUSIP a été créée en sélectionnant ceux des entreprises pour lesquelles : 1) les analystes ont produit des prévisions de BPA trimestriels qui sont enregistrés dans IBES, et 2) les BPA réalisés sont également disponibles dans IBES. Cela, pour la période de 1990 à 2005. 54 N.B.: Dans Compustat, certaines données trimestrielles ont une valeur nulle. Chaque item de donnée a un item de code de donnée correspondant qui contient parfois un code numérique afin d'expliquer l'absence de donnée. Ces codes ont la signification suivante pour les données trimestrielles10 : 1 : Donnée non disponible; 2 : Donnée semestrielle : Dans le cas des données des premier et troisième trimestres : signifie que la valeur apparaissant au deuxième/quatrième trimestre respectivement représente une valeur semestrielle. Dans le cas de données de l'état des résultats, nous avons divisé la donnée du deuxième/quatrième trimestre par deux pour obtenir une approximation de la donnée trimestrielle; 3 : Dans le cas des données des premier, deuxième, troisième et quatrième trimestres : signifie que la valeur apparaissant au quatrième trimestre représente une valeur annuelle. Dans le cas de données de l'état des résultats, nous avons divisé la donnée du quatrième trimestre par quatre pour obtenir une approximation de la donnée trimestrielle; 4 : Donnée combinée : Donnée incluse dans une autre donnée; 8 : Donnée insignifiante. N.B.: Un tel code existe également pour les données annuelles, mais ce champ est toujours vide dans nos données. Dans la BD « Compustat (North America) », les données trimestrielles sont présentées uniquement sous une forme « Restated »11. C'est-à-dire que, lorsqu'une entreprise republie dans le futur des états financiers modifiés touchant des trimestres antérieurs, les données modifiées sont intégrées dans la BD pour fins de comparaison avec les années ultérieures. Cela arrive la plupart du temps lors de fusion-acquisitions, d'opérations discontinuées ou de modifications à la méthode de comptabilisation. L'historique des valeurs de l'indice VIX de volatilité implicite de l'indice S&P 500 provient des données de Yahoo!Finance (http://finance.yahoo.com/q?s=^VIX). 10 http://faculty.business.utsa.edu/jboone/xpress%20guide/dataguide/datacdcd.html Standards & Poors Compustat ® User's Guide, The McGraw-Hill Companies, Inc. <http://www.batd.eu/debodt/downloads/compustat_user_all.pdf>. 11 55 3.7.2 Étendue La période choisie pour les données de ce mémoire s'étend de 1990 à 2005. 3.7.3 Traitement et nettoyage A. Étapes de traitement et nettoyage des données 1) Les BPA réalisés ayant la valeur '-99999999' sont enlevés. Ces valeurs indiquent une donnée non disponible; 2) Les prévisions de BPA sont filtrées en enlevant les prévisions présentes dans le fichier « Excluded Estimates ». Ce sont des prévisions où des anomalies comptables ou méthodologiques ont été relevées par Thomson Reuters, et où un arrangement n'a pu être conclu avec l'analyste pour corriger la situation; 3) Les prévisions de BPA sont filtrées en enlevant les prévisions présentes dans le fichier « Stop Estimates ». Ce sont des prévisions qui ne sont plus actives suite à un événement particulier (ex.: conflit d'intérêt apparaissant entre une banque d'investissement et une entreprise couverte par un analyste de cette banque en cas de service d'émission d'actions); 4) La plus récente prévision d'un analyste est déterminée et conservée pour une entreprise et un trimestre donné. Nous utiliserons ainsi les prévisions sensées être les plus précises des analystes, advenant qu'ils aient révisé leur prévision antérieure pour une raison quelconque (ex.: erreur, utilisation de nouvelles informations). Cette façon de faire est également utilisée couramment dans la littérature (voir Bernhardt et Kutsoati (1999), Brown (2001) et Brown et Mohammad (2003)); 5) Uniquement les données des entreprises couvertes par au moins un analyste dans IBES seront utilisées pour produire les prévisions de bénéfices par les méthodes quantitatives; 6) Les entreprises sélectionnées pour l'étude sont celles dont l'année fiscale se termine en décembre. Cela, afin de permettre une comparaison des résultats par trimestre plus significative. Ainsi, par exemple, le 1er trimestre d'une année donnée représentera le premier trimestre de l'année fiscale pour toutes les entreprises. Le tableau suivant donne la répartition des données trimestrielles obtenues de Compustat selon le mois de fin d'année fiscale : 56 Tableau 8 : Répartition par mois de fin d'année fiscale Mois de fin d'année fiscale janvier Février Mars Avril Mai Juin Juillet Août Septembre Octobre Novembre Décembre Total : Entreprises (nb) 342 117 518 135 134 730 148 133 624 181 95 6 445 9 602 Répartition des entreprises (%) 3.56 1.22 5.39 1.41 1.40 7.60 1.54 1.39 6.50 1.89 0.99 67.12 100.00 7) Les entreprises-trimestres où le BPA réalisé est égal à zéro sont enlevés afin de pouvoir calculer une mesure de performance (EAMP) où le BPA réalisé est au dénominateur. Voici le pourcentage des entreprises-trimestres dans cette situation par industrie : Tableau 9 : Pourcentage de BPA trimestriel réalisé de 0$ par industrie a Industrie BASIC CAPITAL CONSDUR CONSND CONSSVC ENERGY FINANCE HEALTH MISCELL TECHNOL TRANSP UNDESIG UTILITY a Entreprises-trimestres avec BPA = 0 (%) 0.70 0.69 0.47 0.57 1.01 1.10 0.19 0.81 0.00 1.63 0.41 0.00 0.51 FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics; MISCELL : Divers; UNDESIG : Autres. 8) Pour chaque trimestre de données et chaque entreprise ayant un minimum de quatre trimestres antérieurs de données existants, quatre variations trimestrielles passées sont calculées de la façon suivante pour toutes les variables explicatives appropriées : variation trimestrielle = 57 où : = valeur de la variable pour le trimestre = valeur de la variable pour le trimestre précédent Advenant que l'une des valeurs nécessaires pour le calcul de la variation ( ) soit nulle, ou que le dénominateur ( ou ) soit égal à zéro, la variation trimestrielle prendra la valeur nulle; 9) Uniquement les entreprises pour lesquelles : a. 100% des variations trimestrielles des variables économiques et b. au moins 50% des variations trimestrielles des données financières ont des données non nulles seront utilisées pour produire les prévisions. Le niveau de 50% pour les données financières a été choisi arbitrairement pour assurer un niveau minimum de présence de données; 10) Suite à ce traitement, les données résiduelles sont analysées par les méthodes quantitatives. Le tableau suivant donne un aperçu de l'effet du nettoyage des données sur l'ensemble de données initial : Tableau 10 : Impact du traitement et du nettoyage des données Données Variable cible : BPA réalisés Prévisions de BPA par les analystes Variables économiques Variables financières et boursières trimestrielles Variables financières annuelles Initialement 348 591 BPA réalisés de 12 310 entreprises sur 64 trimestres : de 1990-T1 à 2005-T4 1 688 720 prévisions de BPA par 15 452 analystes sur 10 795 entreprises sur 64 trimestres : de 1990-T1 à 2005-T4 64 trimestres : de 1990-T1 à 2005T4 64 trimestres : de 1990-T1 à 2005T4 Après traitement et nettoyage 100 422 BPA de 5 832 entreprises sur 51 trimestres de 1993-T2 à 2005T4 637 911 prévisions de BPA par 8 448 analystes sur 5 832 entreprises sur 51 trimestres : de 1993-T2 à 2005-T4 51 trimestres : de 1993-T2 à 2005-T4 16 années : de 1990 à 2005 13 années : de 1993 à 2005 51 trimestres : de 1993-T2 à 2005-T4 La perte des trimestres de 1990-T1 à 1993-T1 est principalement due aux séries de données économique utilisées. L'une d'entre-elles, les commandes de biens de capital 58 du secteur manufacturier, ne comporte pas de données avant février 1992. Comme des variations trimestrielles sont calculées sur les quatre derniers trimestres précédant le trimestre actuel ( ), et qu'uniquement les entreprises pour lesquelles 100% des variations trimestrielles des variables économiques sont présentes sont utilisées, nous perdons les trimestres jusqu'à (et incluant) 1993-T1. B. Remplacement des données manquantes Suite au traitement et nettoyage des données, nous procéderons au remplacement des données manquantes (ayant une valeur nulle) dans les variables prédictives. En effet, la plupart des variables de variations trimestrielles calculées présentent un certain pourcentage de valeurs nulles en raison de données manquantes pour diverses raisons évoquées plus haut, ou en raison d'un dénominateur égal à zéro. Pour pouvoir utiliser la régression linéaire, qui ne tolère pas de données manquantes dans les variables prédictives, nous devons remplacer ces valeurs manquantes12. Deux méthodes ont été appliquées afin de remplacer les données manquantes, et des prévisions seront produites avec les données pour chacune de ces deux méthodes : a. Remplacement par imputation : Pour chaque variable indépendante de chaque ensemble de données (entraînement et test) des douze trimestres de la période de test, la fonction MICE (« Multivariate Imputation by Chained Equations ») de R a été utilisée pour imputer les valeurs manquantes. Cette méthode de traitement de données manquantes d'imputation multivariée par équations chainées a été élaborée par van Buuren et Groothuis-Oudshoorn (2009), bâtissant sur la méthode générale d'imputation conçue par Rubin (1987, 1996). Cette méthode permet d'attribuer aux données manquantes dans un ensemble de données une valeur inférée à partir des autres enregistrements de l'ensemble. Pour chaque variable (colonne de données) où il y a des données manquantes, une méthode d'imputation permet de remplacer les valeurs nulles par une valeur observée. Dans la fonction MICE, diverses méthodes sont disponibles pour ce faire selon le type de donnée des variables. Ici, toutes les variables présentant des données manquantes sont de type numérique. Nous utiliserons la méthode utilisée par défaut dans MICE pour les variables de type numériques, soit la méthode de « Predictive Mean Matching ». Cette méthode a été créée par Little 12 La fonction qui sera utilisée dans le logiciel R pour l'implémentation des forêts aléatoires, randomForest, ne tolère pas les valeurs manquantes également. 59 (1988) et est une méthode d'imputation semi-paramétrique d'usage général. Selon van Buuren et Groothuis-Oudshoorn (2009), ses avantages et inconvénients sont : « Its main virtues are that imputations are restricted to the observed values and that it can preserve non-linear relations even if the structural part of the imputation model is wrong. A disadvantage is that it may fail to produce enough between-imputation variability if the number of predictors is small. Moreover, the algorithm runs a risk of getting stuck, a situation that should be diagnosed (...). » (van Buuren et Groothuis-Oudshoorn, 2009 : p. 18-19). De façon générale, dans l'ensemble de données, les variables présentant des données manquantes sont traitées une par une, de gauche à droite, par l'algorithme. Pour chaque variable traitée, toutes les autres variables de l'ensemble servent de variables prédictives. Les valeurs imputées des variables déjà traitées sont utilisées lors de l'imputation des variables suivantes. L’algorithme est présenté plus en détail à l’annexe B. L'ensemble de données traité par la fonction MICE sera constitué de toutes les variables explicatives complètes et des variables explicatives présentant des données manquantes. Seules les variables de type numérique sont utilisées. Pour chaque trimestre de l'échantillon de test et pour chaque industrie, un calcul d'imputation sera effectué sur les données manquantes des variations trimestrielles en utilisant comme étendue de données tous les trimestres antérieurs à, et incluant le trimestre de l'échantillon de test . Pour chaque calcul d'imputation correspondant à un trimestre et une industrie donnée, advenant qu'une variable explicative complète entraîne un échec dans le déroulement de l'algorithme, elle sera retirée de l'ensemble de données pour l'imputation de ce couple trimestre-industrie. N.B.: L'échec survient au moment du calcul de la matrice inverse en raison d'une matrice singulière; b. Remplacement par la moyenne : Pour chaque trimestre de données et chaque variation trimestrielle d'une variable, nous avons calculé une moyenne propre à chaque industrie et selon trois tailles d'entreprises selon le total des actifs : de zéro à 100 millions de $; de 100 millions à un milliards de $; un milliards de $ et +. 60 La valeur de chaque variation trimestrielle ayant une donnée manquante (nulle) sera donc remplacée par la moyenne de cette variation pour le trimestre, l'industrie de l'entreprise et la taille de l'entreprise. Advenant que toutes les données d'un trimestre/industrie/taille d'entreprise soient manquantes et que la moyenne ne puisse être calculée, la moyenne trimestrielle globale des entreprises de l'industrie, sans tenir compte de la taille, sera utilisée. C. Ajustement des valeurs extrêmes Dans les données d'entraînement des modèles, nous ajusterons les valeurs extrêmes de la variable cible. Il nous serait difficile et long de déterminer si les valeurs extrêmes de BPA représentent des erreurs ou sont des valeurs valides, et de les corriger dans le cas d'erreurs. Nous considérerons donc comme « extrêmes » les valeurs de BPA inférieures au premier centile et supérieures au 99e centile, et les modifierons afin qu'elles prennent la valeur du premier et du 99e centile respectivement. Nous pourrons ainsi réduire l'écart-type de la variable cible, ce qui devrait nous permettre d'obtenir des modèles moins sujets à la sur-spécialisation (« overfitting ») et plus robustes au bruit. 3.8 Distribution des données après traitement et nettoyage Nous examinerons maintenant l'état des données suite aux étapes de préparation. Tout d'abord, comme des modèles distincts seront produits pour chaque industrie, il serait intéressant d'examiner la distribution des données par industrie. Selon le tableau 11, les trois industries comportant le plus d'enregistrements sont, dans l'ordre, les services financiers (21.82%), les technologies de l'information (15.29%) et la santé (13.87%). Tableau 11 : Distribution des données par industrie N.B.: Les industries sont présentées par ordre décroissant selon la quantité de données. Industrie Services financiers Technologie de l'information Santé Consommation (services) Construction/ Manufacturier Extraction/ Transformation Énergie Services publics Code FINANCE Entreprises (nb) 1 378 Enregistrements (nb) 21 912 Enregistrements (%) 21.82 TECHNOL HEALTH 1 003 841 15 352 13 932 15.29 13.87 CONSSVC 908 13 410 13.35 CAPITAL 406 7 954 7.92 BASIC ENERGY UTILITY 293 333 253 6 596 5 739 4 801 6.57 5.71 4.78 61 Consommation (durables) Consommation (non durables) Transports Autres Divers a CONSDUR CONSND TRANSP MISCELL UNDESIG Total : 203 4 167 4.15 211 131 3 2 a 5 965 3 961 2 593 3 2 100 422 3.94 2.58 0.00 0.00 100.00 Ici le nombre total d'entreprise (5 965) diffère du nombre final d'entreprises (5 832) du tableau 10 : Impact du traitement et du nettoyage des données. Cela, parce que certaines entreprises ont changé d'industrie de 1990 à 2005 dans IBES et sont donc comptées plus d'une fois. Comme notre recherche s'intéresse aux bénéfices trimestriels, le tableau 12 présente la répartition des enregistrements par trimestre et par année. Tableau 12 : Distribution des données (nb enregistrements) par trimestre Année / Trimestre 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 Total : T1 1 290 1 550 1 721 1 989 2 070 2 084 2 048 2 051 1 993 2 021 2 131 2 304 23 252 T2 1 098 1 386 1 607 1 808 2 078 2 175 2 149 2 108 2 122 2 060 2 099 2 210 2 342 25 242 T3 1 245 1 457 1 667 1 924 2 141 2 196 2 179 1 861 2 120 2 065 2 131 2 262 2 427 25 675 T4 1 292 1 549 1 678 1 968 2 119 2 209 2 155 2 149 2 105 2 122 2 199 2 303 2 405 26 253 Total 3 635 5 682 6 502 7 421 8 327 8 650 8 567 8 166 8 398 8 240 8 450 8 906 9 478 100 422 Total (%) 3.62 5.66 6.47 7.39 8.29 8.61 8.53 8.13 8.36 8.21 8.41 8.87 9.44 100.00 En tenant compte des années comprenant quatre trimestres de données, il est intéressant d'observer que le nombre d'enregistrements est, en général, croissant : 1) suivant les années, des plus anciennes vers les plus récentes; 2) du premier au quatrième trimestre. 3.9 Méthodes quantitatives 3.9.1 Méthodes et paramètres utilisés Il y aura cinq méthodes quantitatives utilisées : 1) Régression linéaire (standard de comparaison); 2) Arbre de régression simple de type CART (standard de comparaison); 3) Méthodes ensemblistes : 62 3.1) Méthode ensembliste : « Boosting »; 3.2) Méthode ensembliste : « Bagging »; 3.3) Méthode ensembliste : Forêt aléatoire. Ces méthodes sont implémentées dans le logiciel R qui sera utilisé pour produire les prévisions de BPA. C'est un logiciel libre d'analyse statistique disponible gratuitement sur internet13. Nous indiquons ici les fonctions de R et les paramètres utilisés. Les paramètres non mentionnés sont ceux utilisés par défaut dans R. Régression linéaire La régression linéaire est utilisée comme méthode de référence, étant couramment utilisée dans les recherches empiriques. Il s'agit ici de la régression multivariée suivant la forme : où : = variable dépendante = coefficient d'ordonnée à l'origine = variable indépendante = coefficient de la variable explicative = terme d'erreur La régression linéaire multivariée repose sur les hypothèses fondamentales suivantes afin d'assumer que les valeurs estimées des coefficients et sont les meilleurs estimateurs sans biais de ces coefficients : 1. La fonction est une fonction linéaire ( est un terme d'erreur non observable); 2. L'échantillon de n observations avec = (1, ..., ) est déterminé aléatoirement parmi la population; 3. Il n'existe pas de relation linéaire parfaite entre les variables indépendantes; 4. L’erreur a une espérance de zéro, peu importe la valeur des variables indépendantes : 13 http://www.r-project.org ; 63 5. L’erreur a la même variance, peu importe la valeur des variables indépendantes : . La variable dépendante sera ici notre variable cible du bénéfice par action trimestriel (BPA), et les variables indépendantes seront les variables retenues pour cette étude et décrites à la section 3.4. Cette méthode est implémentée et les coefficients estimés avec la fonction R : lm (package stats, version 2.11, Équipe de développement R et divers contributeurs (2010)); Arbre de régression simple de type CART L'arbre de régression est une des méthodes de prédiction proposées par l'exploitation de données. Afin d'expliquer le fonctionnement de cette méthode, commençons par définir une notation. Soit un ensemble de données composé des tuples prenant la forme : avec = (1, ..., ) où : = variable cible = variable explicative Il y a variables explicatives { } et 1 variable cible ={ } avec valeurs possibles. L'objectif ici est d'attribuer à un tuple une valeur de variable cible inconnue à prime abord. Dans le cas d'une variable cible discrète, on parlera alors d'arbres de classification. Si la variable cible est continue, on parlera d'arbres de régression. La méthode des arbres de régression permettra de créer un modèle à partir d'un ensemble de données d'apprentissage où les valeurs de la variable cible sont connues. À partir de ce modèle, les tuples d'un ensemble de données de test pourront être associés à une valeur de variable cible. Cela dans un but de classification, ou de prévision si la variable cible représente une variable future (ex.: prix d'une action dans six mois). Un arbre de régression est composé d’un nœud initial, à partir duquel seront ajoutés des embranchements menant vers des nœuds intermédiaires et/ou des feuilles (nœuds terminaux). Ces nœuds seront sélectionnés au moyen d’un algorithme. Débutant par un noeud initial, l'algorithme sélectionnera la variable explicative qui entraînera la plus 64 grande baisse d'impureté dans les données, suite à leur scission en deux ou plusieurs branches en utilisant les valeurs de cette variable. L'impureté diminue si la dispersion des enregistrements du noeud selon la valeur de variable cible qui leur est attribuée diminue. Cela se fera au moyen de l'utilisation d'un indice d'impureté. Cette variable sera alors sélectionnée pour diviser les tuples en deux ou plusieurs groupes (branches). Au bout de chaque branche, un nouveau noeud sera créé avec nouvelle sélection de variable explicative, et ainsi de suite jusqu'à ce qu'un critère d'arrêt soit atteint. Ce critère d'arrêt peut être, par exemple, un niveau de profondeur maximal atteint, ou un nombre minimal de tuples se retrouvant dans un noeud afin de poursuivre la croissance de la branche (sinon, création d'une feuille). Plusieurs facteurs d'arrêt peuvent être utilisés pour un seul arbre. La valeur à laquelle sera associée la feuille sera celle se retrouvant dans le plus grand nombre dans les enregistrements composant la feuille dans le cas d'une variable cible nominale ou ordinale. Dans le cas d'une variable cible continue, ce sera une moyenne équipondérée des valeurs de la variable cible. Suite à la construction d'un arbre à l'aide d'un ensemble de données d'entraînement, il est possible d'optimiser son efficacité en procédant à son élagage. En effet, il se peut que l'arbre construit soit sur-spécialisé par rapport à l'ensemble d'entraînement. Certaines branches peuvent refléter des anomalies dans les données d'entraînement liées à la présence de bruit ou de valeurs extrêmes. Un tel arbre pourrait ne pas être optimal s'il est utilisé avec des données hors échantillon. L'élimination de certaines branches de l'arbre pour les remplacer par des feuilles pourrait alors le rendre davantage performant. De façon générale, une comparaison des performances de prédiction de plusieurs sous-arbres élagués tirés du modèle initial avec des données hors échantillon permettra de sélectionner le meilleur modèle élagué. Les arbres (incluant les arbres de régression) présentent les avantages et inconvénients principaux suivants : Avantages : Produisent des modèles décisionnels faciles à interpréter et utiliser; Tolèrent les valeurs manquantes dans les enregistrements pour les variables explicatives. Si la variable avec valeur manquante est catégorielle, l'absence de valeur sera considérée comme une catégorie en tant que telle. Alternativement, certains algorithmes comme CART permettent de sélectionner les valeurs d'une autre variable explicative pour déterminer l'embranchement 65 d'un enregistrement avec une valeur manquante pour la variable variable . Cette sera celle permettant de créer un embranchement spécifique le plus similaire à celui créé avec la variable Sont résistants aux valeurs extrêmes; Ne nécessitent pas la satisfaction d'hypothèses de distribution des données comme c'est le cas avec les méthodes paramétriques; Permettent de détecter des interactions complexes (si existantes) entre les variables indépendantes; Sont des modèles relativement rapides à construire et à utiliser. Inconvénients : Instabilité : de petites variations dans les données d'apprentissage peuvent entraîner de grandes variations dans les modèles produits. Cela entraîne une grande variance chez les arbres de régression; Cette méthode assure l'optimalité de la création des embranchements uniquement. L'arbre de régression complet créé, lui, n'est pas nécessairement optimal; Un embranchement erroné créé près de la racine aura un impact sur tous ses sous-embranchements; Ne tiennent pas compte des corrélations entre certaines variables indépendantes; Produisent des taux d'erreurs élevés lorsque la répartition de la variable cible selon les variables explicatives dans les valeurs observées produit des régions non rectangulaires. Ex.: variable cible y avec deux variables explicatives x1 et x2 : Figure 2 : Exemple : Variable cible avec régions non rectangulaires 66 Dans leur livre, Breiman et al. (1984) expliquent en détail le fonctionnement des arbres de classification et de régression, et présentent l'un des principaux algorithmes de construction d'arbres utilisé : CART. C'est cet algorithme qui sera utilisé pour concevoir les arbres dans ce travail. Cette méthode est implémentée avec la fonction R : rpart (package rpart, version 3.1.46, Atkinson, Therneau et Ripley (2010)). Cette méthode présente les trois caractéristiques suivantes : 1) La variable cible peut être de type : nominal, ordinal ou continu; 2) Les variables explicatives peuvent être de type : nominal ou continu. Les variables de type ordinal seront considérées comme continues; 3) Les embranchements de l'arbre créé seront binaires. Les principaux paramètres suivants seront utilisés dans l'algorithme : indice d'impureté : nous utiliserons la méthode ANOVA afin de calculer l'indice d'impureté. Cette méthode sélectionnera à chaque noeud la variable réduisant le plus la somme des carrés des écarts dans les enregistrements du sousensemble du noeud; critères d'arrêt : o profondeur maximale : dix niveaux (Nous avons fixé ce paramètre à dix afin d'éviter la production d'arbres trop spécialisés (trop profonds)); o nombre minimal de tuples dans un noeud : 20; o paramètre de complexité : 0.01. Suite à la création d'un embranchement, le R2 de l'arbre doit croître par une valeur égale ou supérieure à 0.01. Sinon, l'embranchement est éliminé et le noeud devient terminal. Maintenant, voici le fonctionnement de l'algorithme CART pour une variable cible continue : 1) Pour chaque niveau (en commençant par le niveau racine) : 2) Pour chaque nœud du niveau : 2.1) Si un critère d’arrêt est satisfait, calculer la valeur du prédicat attribuée à la feuille. Ce sera la moyenne équipondérée des valeurs de la variable cible pour les enregistrements se retrouvant dans le noeud; 67 2.2) Si aucun critère d’arrêt n’est satisfait : 2.2.1) Calculer pour chaque variable indépendante , l'indice d'impureté. Dans le cas d'une variable indépendante catégorielle, l'indice d'impureté calculé pour toutes les façons possibles de séparer les enregistrements en deux groupes en utilisant les sous-groupes de valeurs de la variable indépendante. Dans le cas d'une variable indépendante continue, cette valeur sera choisie parmi toutes les valeurs de la variable parmi les enregistrements du noeud. Cela en ordonnant d'abord les valeurs, et en séparant les enregistrements en deux groupes en utilisant tour à tout chacune des valeurs avec : groupe 1 : enregistrements ayant valeur <= et groupe 2 : enregistrements ayant valeur > ; 2.2.2) Parmi toutes les variables indépendantes, choisir celle qui entraîne la plus grande baisse d’impureté suite à son utilisation pour la création de l'embranchement. La méthode ANOVA utilisée pour le calcul de l'indice d'impureté fonctionne comme suit : Soient les éléments suivants : = valeur de la variable cible de l'enregistrement dans un noeud enregistrements avec comprenant = (1,..., ) = moyenne des valeurs de la variable cible pour le noeud = valeur de la variable cible de l'enregistrement sous le noeud comprenant dans la branche de gauche enregistrements avec = (1, ..., ) = moyenne des valeurs de la variable cible dans la branche de gauche sous le noeud = valeur de la variable cible de l'enregistrement sous le noeud comprenant enregistrements avec ans la branche de droite = (1, ..., ) = moyenne des valeurs de la variable cible dans la branche de droite noeud = somme des carrés des écarts dans le noeud = = somme des carrés des écarts dans la branche = = somme des carrés des écarts dans la branche = sous le 68 Dans tout noeud , la somme des carrés des écarts est . Après création de deux embranchements sous le noeud, nous aurons l'équation suivante : À chaque noeud, advenant qu'une condition d'arrêt n'est pas atteinte, l'algorithme sélectionnera la variable explicative dont la valeur utilisée pour créer l'embranchement diminuera le plus . Afin d'imager le fonctionnement d'un arbre CART, ici un arbre de régression, voici un exemple d'utilisation : Supposons les paramètres suivants : o variable cible : bénéfice par action du prochain trimestre : BPA o profondeur maximale : deux (niveau racine = 0, premier niveau = 1, deuxième ; niveau = 2); o nombre minimal de tuples dans un noeud : dix; o paramètre de complexité : 0.01. Figure 3 : Exemple : Arbre de régression Dans la figure 3, au niveau 0, la première variable explicative sélectionnée selon l'indice d'impureté ANOVA est la variation trimestrielle la plus récente de la valeur du titre : Titre (%). La condition Titre (%) > deux est vérifiée pour 42 enregistrements qui se retrouvent dans la branche de gauche au niveau 1. Les huit autres se retrouvent dans la branche de droite. Dans le noeud de droite, comme une 69 condition d'arrêt est atteinte (nombre d'enregistrements dans le noeud < dix), le noeud devient terminal (une feuille) et le prédicat de cette branche est la moyenne des valeurs de la variable cible pour les huit enregistrements : 3.7 $. Pour le noeud de gauche, comme aucune condition d'arrêt n'est atteinte, un nouvel embranchement est créé et la variable explicative sélectionnée est la variation trimestrielle la plus récente du nombre d'heures travaillées dans le secteur manufacturier : Heures travaillées manuf. (%). Ensuite, comme une condition d'arrêt est atteinte pour les deux nouveaux noeuds (profondeur maximale atteinte : niveau 2), ils deviennent des feuilles et la croissance de l'arbre s'arrête. On se retrouve alors avec un modèle prédictif présentant la règle de décision suivante : Si Titre (%) > 2 et Heures travaillées manuf. (%) > 3 Alors BPA = 1.5$; Si Titre (%) > 2 et Heures travaillées manuf. (%) <= 3 Alors BPA = 3.1$; Sinon BPA = 3.7$. Le package rpart permet l'utilisation d'une méthode d'élagage prune dérivée de la méthode originale du « cost complexity pruning » présentée dans Breiman et al. (1984). Différents sous-modèles d'arbres sont produits à partir du modèle d’arbre initialement produit par la fonction rpart avec le paramètre de complexité déterminé (0.01). Cela, en utilisant d’autres valeurs de paramètre de complexité > 0.01 afin de déterminer si des branches peuvent être éliminées du modèle initial en tenant compte du nouveau paramètre de complexité. Ces valeurs sont celles calculées par l'algorithme à chaque noeud de l'arbre et indiquent l'accroissement du R2 de l'arbre suite à la création de l'embranchement sous le noeud. En utilisant la fonction prune, nous sélectionnerons l'arbre créé avec le paramètre de complexité produisant l'erreur relative de prédiction estimée moyenne la moins élevée (calculée par validation croisée à dix groupes). Méthodes ensemblistes Les méthodes ensemblistes à base d'arbres consistent à créer des modèles constitués d'un ensemble de plusieurs arbres distincts. À partir de ces modèles, une prévision sera produite en tenant compte de l'ensemble des prévisions de chacun des arbres de l'ensemble. Selon la nature des arbres composant l'ensemble (arbre de classification ou de régression), les prévisions seront combinées de façon appropriée. Dans le cas d'arbres de classification, ce peut être en sélectionnant la classe ayant récolté le plus 70 grand nombre de votes. Dans le cas d'arbres de régression, habituellement une moyenne (pondérée ou non) des prévisions de chacun des arbres de l'ensemble sera la prévision du modèle. Voyons maintenant les détails des méthodes ensemblistes que nous comptons utiliser. Méthode ensembliste : Bagging La méthode du « Bagging », élaborée par Breiman (1996), crée des perturbations dans la sélection de l'ensemble d'entraînement en sélectionnant au hasard, avec remise, une proportion donnée (<= 100%) des enregistrements de l'ensemble d'entraînement afin de créer un échantillon bootstrap. Lors de la construction des arbres, à chaque noeud, toutes les variables indépendantes sont évaluées pour déterminer la variable à utiliser pour créer l'embranchement. La valeur prédite sera la moyenne équipondérée des prédictions de chacun des arbres de l'ensemble. Dans R, le Bagging est implémenté par la fonction bagging (package ipred, version 0.88, Hothorn et Peters (2009)) qui sera utilisée pour créer le modèle avec les paramètres suivants : nbag = 500 = nombre d'arbres créés pour constituer l'ensemble; maxdepth = dix = profondeur maximale permise pour la construction des arbres de l'ensemble; cp = 0.01 = paramètre de complexité fixé à 0.01 pour la création des 500 arbres de chaque ensemble; ns = = nombre d'enregistrements de l'ensemble d'entraînement sélectionnés avec remise dans l'ensemble d'entraînement (méthode « bootstrap out of with replacement » suggérée par Breiman(1996)). Pour la production de chaque arbre, la fonction bagging utilise la fonction rpart pour produire les arbres. Notez qu'aucun élagage n'est effectué ici sur les arbres de l'ensemble. Méthode ensembliste : Boosting Ici, nous utiliserons l'algorithme de descente de gradient (« Gradient Boosting ») de Friedman (2001, 2002). Dans cette forme de Boosting, une fonction prédictive est constituée d'un ensemble d’arbres construit successivement en ajoutant des arbres de 71 façon à minimiser l'espérance d'une fonction de perte. La fonction de perte exponentielle utilisée dans Freund et Schapire (1996) est utilisée ici. Essentiellement, l'algorithme CART est utilisé pour la construction de chaque arbre. La valeur prédite est optimisée et mise à jour après la création de chaque arbre. Cet algorithme fonctionne comme suit dans le package gbm : Soient : = nombre d'enregistrements de l'ensemble d'apprentissage = nombre d'arbres créés pour constituer l'ensemble. En fait, ici, chaque arbre constitue une itération dans l'estimation de la valeur prédite finale. = niveau d'interaction entre les variables explicatives utilisé pour approximer la fonction ensembliste. Équivaut au nombre de noeuds terminaux dans les arbres utilisés. Selon le niveau , cette interaction prend la forme du modèle additif suivant (décomposition de ANOVA) : où le nombre de termes sera égal à . Ici, on essaie d'approximer la fonction en utilisant un niveau donné d'interaction entre les variables explicatives. Comme le mentionne Friedman (2001), seulement les premiers termes suffisent pour approximer convenablement cette fonction. Cela même si on pouvait, en réalité, utiliser un niveau d'interaction égal au nombre total de variables explicatives. Ainsi, chaque arbre produit dans l'ensemble aura, au plus, noeuds terminaux. La fonction constituée de l'ensemble des arbres aura comme ordre d'interaction au plus où est le nombre de variables indépendantes. Comme le mentionne Friedman, la valeur optimale de ce paramètre serait l'ordre maximal des interactions dominantes entre les variables indépendantes. = proportion des enregistrements de l'ensemble d'apprentissage utilisé pour construire chaque arbre = taux d’apprentissage = valeur du pas le long de la pente d'apprentissage = fonction de perte associée à la distribution choisie Algorithme : 1. Initialisation du modèle prédictif avec une constante : 72 2. Pour = 1, …, faire 2.1 Calcul du gradient négatif : 2.2 Sélection aléatoire de de taille enregistrements de l’ensemble d’apprentissage sans remise. Ici, chaque enregistrement a la même probabilité d'être sélectionné. Donc le poids de chaque enregistrement, 2.3 Création d’un arbre de régression avec , est égal à ; nœuds terminaux : , en utilisant les enregistrements sélectionnés à l’étape 2.2. Ici la variable dépendante est le gradient négatif ; 2.4 Calcul des valeurs optimales retournées par chaque nœud terminal : où avec = ensemble des enregistrements dans le noeud ; 2.5 Mise à jour de où 3. = index du nœud terminal où l’enregistrement x se retrouvera; est retournée comme étant la prédiction. Dans R, la fonction R : gbm (package gbm, version 1.6-3.1, Ridgeway (2010)) sera utilisée pour appliquer cette méthode de Boosting avec les paramètres suivants : Paramètres : nbtree = interaction.depth = niveau d'interaction entre les variables explicatives = cinq. = 500; Selon Friedman, Hastie et Tibshirani (2000) après expérimentations, une valeur située entre quatre et huit donne les meilleurs résultats, relativement similaires pour des niveaux de quatre à huit. Nous avons donc sélectionné une valeur de cinq pour ce paramètre, comme Sosvilla-Rivero et Rodriguez (2010) l'ont fait dans leur utilisation de gbm pour l'évaluation de la prédictibilité des indices boursiers. Des essais intermédiaires de notre côté, dont les résultats ne sont pas présentés dans ce mémoire, vont dans le même sens que Friedman, Hastie et Tibshirani (2000); 73 distribution = gaussian = distribution comprenant un ensemble de fonctions utilisées par l'algorithme pour minimiser l'erreur au carré. Deux autres choix étaient possibles pour une variable cible continue : laplace (minimisation de l'erreur absolue) et quantile regression (estimation des centiles de la distribution conditionnelle de la variable cible); bag.fraction = shrinkage = taux d’apprentissage = = 0.5 (tel que suggéré dans Ridgeway (2010)); = 0.001 (valeur produisant les meilleurs résultats après différents essais, avec le nombre d’arbres sélectionné : 500. Les résultats de ces essais de calibrage ne sont pas présentés dans ce mémoire). Pour la distribution utilisée (gaussian) les fonctions suivantes sont utilisées : Déviance = Valeur initiale : Gradient : Estimé de nœud terminal = Méthode ensembliste : Forêts aléatoires La méthode des forêts aléatoires est essentiellement celle du Bagging, à la différence qu'il y a ici injection d'aléatoire lors de la création de chaque noeud dans la création des arbres. Ainsi, à chaque noeud, un sous-ensemble de variables sera choisi aléatoirement parmi toutes les variables indépendantes disponibles. De ce sous-ensemble sera sélectionnée la variable utilisée pour la formation du noeud, plutôt que d'effectuer la sélection parmi toutes les variables indépendantes disponibles. Le Bagging se retrouve ainsi être un cas spécifique des forêts aléatoires, où la taille de l'ensemble de variables évaluées à chaque noeud est le nombre total de variables indépendantes. Comparativement au Bagging, les modèles de forêts aléatoires sont donc plus rapides à construire. La fonction R randomForest (package randomForest, version 4.5-36, Breiman et al. (2010)) sera utilisée afin d'implémenter cette méthode. ntree = 500 = nombre d'arbres créés pour constituer l'ensemble; type = regression (afin d'indiquer que l'ensemble sera constitué d'arbres de régression); 74 mtry = = nombre de variables explicatives choisies au hasard à chaque noeud pour le choix de l'embranchement. Ici, nous utilisons la valeur par défaut, ; maxnodes = 1024 = nombre maximal de nœuds terminaux, correspondant à un arbre binaire avec profondeur maximale de dix niveaux. 3.9.2 Critère d'évaluation des analystes et des modèles Nous allons produire des résultats de performance pour la mesure d'évaluation suivante, pour chaque industrie de l'ensemble de test : l'erreur absolue moyenne de prévision en pourcentage (EAMP) (« Absolute Mean Percentage Error » : AMPE). Formule : où : = trimestre ou année de l'ensemble de test, selon la comparaison effectuée = industrie = entreprise = nombre d'entreprises dans l'ensemble de test pour l'industrie du trimestre ou de l'année = BPA trimestriel actuel du trimestre de l'entreprise = BPA trimestriel prévu du trimestre de l'entreprise En ce qui concerne les analystes, le BPA prévu sera déterminé en sélectionnant la valeur médiane de toutes les prévisions de BPA trimestriels produites par les analystes pour chaque entreprise. Cela, afin d'utiliser une mesure de tendance centrale plus représentative des attentes du groupe d'analystes, tout en évitant de biaiser le calcul de cette prévision par la présence de valeurs extrêmes. 3.9.3 Ensembles d'entraînement et de test des modèles Comme ensemble de test, nous avons choisi d'utiliser successivement chacun des douze trimestres des trois dernières années de notre échantillon : 2003, 2004 et 2005. Pour déterminer les ensembles d'entraînement, nous avons voulu nous inspirer de ce qui serait fait par un analyste produisant des prévisions de bénéfices dans le monde du 75 travail. Pour produire une prévision de BPA pour un trimestre donné, un analyste utilisera tout l'historique de données disponible. Ainsi, pour chacun des douze trimestres de test, l'ensemble d'entraînement utilisé pour produire les cinq modèles quantitatifs sera composé des données trimestrielles de tous les trimestres précédents disponibles. Donc, d'un trimestre de test à l'autre, l'ensemble d'entraînement s'accroîtra successivement d'un trimestre supplémentaire. Pour produire les prévisions de chacun des douze trimestres de l'ensemble de test, nous allons préalablement diviser les données des ensembles d'entraînement entre chacune des industries utilisées dans IBES, et nous allons produire un modèle spécifique à chaque industrie. Cela, dans l'hypothèse que les bénéfices de chaque industrie doivent dépendre de caractéristiques propres à celles-ci, et que les variables financières ou économiques ayant un pouvoir prédictif sur les bénéfices pourraient varier d'une industrie à l'autre. Cela pourrait affecter le choix des variables sélectionnées dans les arbres composant les modèles pour les quatre méthodes quantitatives à base d'arbres de chacune des industries (l'arbre simple et les trois méthodes ensemblistes). Voici le nombre d'enregistrements composant les ensembles d'entraînement et de test pour chaque industrie et pour les trimestres des trois années : Tableau 13 : Taille des ensembles d'entraînement et de test 2003 Industrie a Trimestre BASIC T1 BASIC T2 BASIC T3 BASIC T4 CAPITAL T1 CAPITAL T2 CAPITAL T3 CAPITAL T4 CONSDUR T1 CONSDUR T2 CONSDUR T3 CONSDUR T4 CONSND T1 CONSND T2 CONSND T3 CONSND T4 CONSSVC T1 CONSSVC T2 CONSSVC T3 CONSSVC T4 ENERGY T1 ENERGY T2 ENERGY T3 ENERGY T4 FINANCE T1 FINANCE T2 FINANCE T3 FINANCE T4 Entr. 5 205 5 320 5 434 5 550 6 234 6 368 6 510 6 651 3 256 3 330 3 404 3 477 2 969 3 047 3 128 3 209 9 871 10 133 10 409 10 691 4 185 4 298 4 416 4 535 15 159 15 647 16 160 16 691 Test 115 114 116 113 134 142 141 143 74 74 73 73 78 81 81 84 262 276 282 290 113 118 119 117 488 513 531 567 2004 Total 5 320 5 434 5 550 5 663 6 368 6 510 6 651 6 794 3 330 3 404 3 477 3 550 3 047 3 128 3 209 3 293 10 133 10 409 10 691 10 981 4 298 4 416 4 535 4 652 15 647 16 160 16 691 17 258 Entr. 5 663 5 769 5 882 5 994 6 794 6 933 7 076 7 226 3 550 3 620 3 692 3 769 3 293 3 372 3 454 3 534 10 981 11 269 11 565 11 867 4 652 4 775 4 904 5 038 17 258 17 796 18 345 18 912 Test 106 113 112 117 139 143 150 144 70 72 77 78 79 82 80 80 288 296 302 304 123 129 134 136 538 549 567 577 2005 Total 5 769 5 882 5 994 6 111 6 933 7 076 7 226 7 370 3 620 3 692 3 769 3 847 3 372 3 454 3 534 3 614 11 269 11 565 11 867 12 171 4 775 4 904 5 038 5 174 17 796 18 345 18 912 19 489 Entr. 6 111 6 225 6 344 6 472 7 370 7 512 7 657 7 806 3 847 3 922 4 000 4 084 3 614 3 697 3 785 3 877 12 171 12 471 12 778 13 089 5 174 5 311 5 446 5 592 19 489 20 077 20 670 21 292 Test 114 119 128 124 142 145 149 148 75 78 84 83 83 88 92 84 300 307 311 321 137 135 146 147 588 593 622 620 Total 6 225 6 344 6 472 6 596 7 512 7 657 7 806 7 954 3 922 4 000 4 084 4 167 3 697 3 785 3 877 3 961 12 471 12 778 13 089 13 410 5 311 5 446 5 592 5 739 20 077 20 670 21 292 21 912 76 HEALTH T1 9 898 289 10 187 11 123 312 11 435 12 458 356 12 814 HEALTH T2 10 187 306 10 493 11 435 329 11 764 12 814 366 13 180 HEALTH T3 10 493 309 10 802 11 764 341 12 105 13 180 379 13 559 HEALTH T4 10 802 321 11 123 12 105 353 12 458 13 559 373 13 932 MISCELL T1 0 0 0 0 0 0 0 0 0 MISCELL T2 0 0 0 0 2 2 0 0 0 MISCELL T3 0 0 0 0 0 0 0 0 0 MISCELL T4 0 0 0 0 0 0 0 0 0 TECHNOL T1 11 306 322 11 628 12 622 322 12 944 13 974 345 14 319 TECHNOL T2 11 628 329 11 957 12 944 339 13 283 14 319 346 14 665 TECHNOL T3 11 957 329 12 286 13 283 340 13 623 14 665 351 15 016 TECHNOL T4 12 286 336 12 622 13 623 351 13 974 15 016 336 15 352 TRANSP T1 1 972 44 2 016 2 155 47 2 202 2 360 57 2 417 TRANSP T2 2 016 47 2 063 2 202 49 2 251 2 417 60 2 477 TRANSP T3 2 063 45 2 108 2 251 54 2 305 2 477 58 2 535 TRANSP T4 2 108 47 2 155 2 305 55 2 360 2 535 58 2 593 UNDESIG T1 0 0 0 0 0 0 0 0 0 UNDESIG T2 0 0 0 0 0 0 0 0 0 UNDESIG T3 0 0 0 0 0 0 0 0 0 UNDESIG T4 2 1 3 0 0 0 0 0 0 UTILITY T1 3 531 102 3 633 3 944 107 4 051 4 371 107 4 478 UTILITY T2 3 633 99 3 732 4 051 107 4 158 4 478 105 4 583 UTILITY T3 3 732 105 3 837 4 158 105 4 263 4 583 107 4 690 UTILITY T4 3 837 107 3 944 4 263 108 4 371 4 690 111 4 801 Total : 306 738 8 450 315 188 341 211 8 906 350 117 377 779 9 478 387 257 a FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics; MISCELL : Divers; UNDESIG : Autres. En raison du faible nombre de données des industries 'Divers' (MISCELL) et 'Autres' (UNDESIG), nous laisserons tomber les données de ces deux industries pour l'analyse des données. 3.9.4 Présélection d'un sous-ensemble de variables explicatives Le nombre de variables explicatives que nous avons identifiées jusqu'à maintenant et que nous croyons potentiellement utiles pour la prévision des BPA trimestriels s'élève à 167. L'utilisation d'un grand nombre de variables indépendantes peut causer des problèmes lors de la conception et de l'analyse des résultats produits par des méthodes quantitatives. Han et Kamber (2006, Section 2.5.2, traduction libre) identifient notamment les problèmes suivants : 1) Certaines variables peuvent se révéler non pertinentes ou redondantes; 2) Conserver des variables superflues peut mener à la découverte de règles peu performantes; 3) Impact à la hausse sur le temps de traitement; 4) Production de règles de décision difficiles à interpréter car contenant trop de variables (dans le cas des arbres). 77 Nous voudrons donc utiliser une méthode afin de réduire le nombre des variables initialement identifiées, afin de déterminer parmi celles-ci celles qui ont le meilleur potentiel prédictif sur les BPA. Plusieurs méthodes existent pour ce faire. Nous avons décidé d’utiliser les forêts aléatoires pour sélectionner les variables ayant le meilleur potentiel prédictif. Dans R, le package randomForest comporte une fonctionnalité nommée importance. Cette fonctionnalité permet de déterminer dans un modèle de forêt aléatoire les variables les plus importantes selon le critère de l'erreur moyenne au carré (MSE). Tout d'abord, l'erreur au carré est calculée pour chaque arbre du modèle sur un ensemble d'enregistrements sélectionnés hors échantillon. Ensuite, pour chaque variable, l'erreur est également calculée de la même façon suite à la permutation au hasard des valeurs de la variable en question parmi les enregistrements hors échantillon. La différence : (erreur après permutation - erreur avant permutation) est ensuite calculée pour chaque arbre de l'ensemble. La moyenne des différences est finalement calculée et divisée par l'erreur standard pour fins de normalisation. Cette mesure de la diminution de l'erreur de prévision est ainsi obtenue pour chaque variable explicative et permet de déterminer, selon l'importance de la diminution, lesquelles sont les plus utiles dans le modèle. Nous procéderons de la manière suivante pour utiliser cette méthode : 1) Sélection des données des trimestres antérieurs à 2003 (afin de ne pas utiliser les données des trimestres de l'ensemble de test); 2) Production de onze forêts aléatoires (une pour chacune des industries de IBES) avec les données de tous les trimestres de l'étape 1). Pour ce faire, nous avons décidé d'utiliser les données pour lesquelles les valeurs manquantes parmi les variables explicatives sont traitées par la méthode de remplacement par imputation multivariée, présentée à la section 3.7.3 B. Chaque forêt a été construite en utilisant les mêmes valeurs de paramètres que ceux décrits pour la méthode ensembliste : forêts aléatoires : ntree = 500 = nombre d'arbres créés pour constituer l'ensemble; mtry = = nombre de variables explicatives choisies au hasard à chaque noeud pour le choix de l'embranchement. Ici, nous utilisons la valeur par défaut, maxnodes = 1024 ; = nombre maximal de nœuds terminaux, correspondant à un arbre binaire avec profondeur maximale de dix niveaux; 78 3) Sélection, pour chaque industrie, des dix variables présentant les valeurs de diminution moyenne de MSE les plus élevées; 4) Création d'une liste de variables explicatives constituées de l'union de toutes les variables sélectionnées dans chacune des industries. Cela, sans égard au nombre de fois que chaque variable a été sélectionnée dans les onze modèles de forêts aléatoires; 5) Le sous-ensemble des variables sélectionnées sera utilisé comme ensemble réduit de variables explicatives pour la production des modèles de prévision. 79 CHAPITRE 4 - Présentation et analyse des résultats 4.1 Analyse des variables indépendantes utilisées 4.1.1 Pouvoir prédictif Le tableau 14 montre pour chacune des variables la diminution de l'erreur moyenne au carré (MSE), tel que décrit dans la section 3.9.4. Cela, pour l'ensemble des variables retenues pour la construction des modèles, dix variables pour chaque industrie. Ainsi, pour chaque industrie, les dix variables où des valeurs sont affichées sont les dix ayant eu la valeur de diminution moyenne de MSE les plus élevées, selon les résultats obtenus en utilisant la fonction importance du package R randomForest. Pour chaque industrie, les trois diminutions de MSE les plus importantes sont indiquées en vert. Au total, l'union des groupes de dix variables de chacune des onze industries donne un ensemble de 41 variables. Tableau 14 : Diminution de l’erreur moyenne de prévision au carré (MSE) par variable ejlead_vq1l eu0m1_vq1l fben_vq1l fben_vq2l fben_vq3l fben_vq4l fcapb_vq1l fcapb_vq2l fcapb_vq3l fcapb_vq4l fcapx_vq1l fcapx_vq4l fcote_vq1l fcote_vq2l fdett_vq1l fdett_vq2l fdett_vq3l fdett_vq4l feps_vq1l feps_vq2l feps_vq3l feps_vq4l ficos_vq1l fmb_vq1l UTILITY TRANSP TECHNOL HEALTH b FINANCE ENERGY CONSSVC CONSND CONSDUR CAPITAL a Variable BASIC Industries 13.25 17.78 12.01 15.74 12.78 25.01 17.42 24.96 33.05 25.72 30.70 17.27 26.97 30.07 32.81 23.56 17.46 19.73 11.96 27.45 19.47 16.84 18.01 38.83 42.75 21.39 17.04 28.94 37.30 17.06 15.79 31.04 31.00 11.73 13.98 30.93 19.97 23.05 29.14 36.07 18.57 26.46 25.39 23.63 22.02 19.76 32.55 28.69 14.60 20.45 32.10 47.46 31.19 15.48 16.20 12.72 21.31 57.93 13.41 19.63 16.51 Fréquence 1 1 6 1 1 4 1 1 1 1 1 1 3 1 1 1 1 1 11 5 4 9 1 3 80 fmb_vq2l fmb_vq3l fmb_vq4l fprocu_vq1l fprocu_vq2l fprocu_vq3l fprocu_vq4l fprod_vq1l fprod_vq2l frec_vq3l froa_vq1l froa_vq4l frota_vq1l frota_vq2l frota_vq4l fstar ftaille_q1l a b 24.65 1 1 12.54 16.76 17.21 4 16.03 23.65 38.14 17.22 51.31 12.71 6 12.90 18.03 42.02 3 13.60 21.22 2 28.35 17.35 2 14.44 1 16.69 1 13.98 1 13.36 1 8.66 1 18.80 19.03 2 10.93 1 14.66 1 26.35 22.88 16.66 20.04 15.54 18.58 32.02 30.93 14.09 17.48 10 67.26 87.73 89.67 92.81 63.23 70.98 157.23 84.84 55.24 55.55 42.78 11 ejlead : Indicateur composite avancé; eu0m1 : Indice S&P 500; fben : Bénéfice; fcapb : Capitalisation boursière; fcapx : Ratio de dépenses d'équipement; fcote : Cours du titre de l'entreprise; fdett : Ratio d'endettement; feps : Bénéfice par action; ficos : Indice S&P 500 Secteur : Consommation courante; fmb : Ratio de marge brute; fprocu : Profitabilité cumulative; fprod : Ratio de productivité; frec : Ratio de comptes recevables; froa : Rendement de l'actif; frota : Ratio de rotation de l'actif; fstar : Stabilité des rendements; ftaille : Taille de l'entreprise. FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics; MISCELL : Divers; UNDESIG : Autres. 24.01 16.63 La taille de l'entreprise (ftaille_q1l) se révèle être la variable ayant le meilleur pouvoir prédictif pour chacune des onze industries. Les variations de BPA trimestriel retardées d’un (feps_vq1l) et de quatre (feps_vq4l) trimestres arrivent en deuxième/troisième position dans sept et quatre industries respectivement. En termes de fréquence, la taille de l'entreprise (ftaille_q1l) et la variation de BPA trimestriel retardée d’un trimestre se retrouvent dans les dix variables les plus prédictives dans toutes les onze industries. Viennent ensuite la stabilité des rendements (fstar) et la variation de BPA trimestriel retardée de quatre trimestres dans dix et neuf industries respectivement. Il nous apparait tout à fait logique que les variables liées au bénéfice (bénéfice net : fben et BPA : feps), ainsi que la taille de l'entreprise soient parmi les plus prédictives. Les variations de bénéfice passées et l'ampleur de ces variations (à la hausse ou à la baisse) sont certainement parmi les meilleurs indicateurs des BPA futurs. Plusieurs études antérieures démontrent l'importance des bénéfices passés sur la prévision des bénéfices futurs. Notamment, cela a été observé dans Andreescu (2004), où les ratios liés aux bénéfices passés se retrouvent parmi les meilleurs prédicteurs des bénéfices futurs. Particulièrement, son modèle simple de régression linéaire, où le rendement de l'actif annuel était la variable dépendante, et la même variable retardée d'un an était la variable indépendante, montrait un R2 de 0.208. 81 La taille de l'entreprise, liée à sa maturité dans son cycle de vie, doit elle aussi être parmi les plus importants prédicteurs du BPA, et doit probablement être corrélée positivement à celui-ci. Dans Creamer et Stolfo (2009), la taille s'était révélée être l'une des variables les plus significatives parmi les variables financières dans leur modèle de régression logistique pour prévoir les « Earnings surprises », sur une période de 1996 à 2001. Le coefficient était positif et significatif à un niveau de 5%. N.B.: Pour la période de 2002 à 2005 cependant, le coefficient s'est révélé beaucoup moins significatif (0.1% ou moins). Aussi, la prédominance des variations du premier et du quatrième trimestre retardé, autant en termes du rang et de la fréquence pour les variables liées au bénéfice, souligne l'importance de la proximité dans le temps et de la saisonnalité sur le pouvoir prédictif. Il est intéressant de noter que des groupes de trois ou quatre variations trimestrielles de certaines variables se montrent prédictives pour des industries particulières. Ainsi, les quatre variations de ratio d'endettement (fdett) ont été sélectionnées pour l'industrie des services financiers, ce qui est également le cas de la capitalisation boursière (fcapb) pour l'industrie des services publics (UTILITY). Les variations retardées de un, deux et trois trimestres ont été sélectionnées dans le cas du bénéfice (fben) pour l'industrie de la santé, et de la profitabilité cumulative (fprocu) pour l'industrie des technologies de l'information. Parmi les sept variables du modèle ZETA de Altman, Haldeman et Narayanan (1977), on constate que cinq d'entre elles sont sélectionnées parmi les 41 variables sélectionnées. Les deux seules qui n'ont pas été sélectionnées sont le service de la dette (fdets) et le ratio de liquidité (flqdt). On remarque finalement que, parmi les 52 variables économiques évaluées, seules deux se retrouvent parmi les 41 variables sélectionnées : l'indicateur composite avancé retardé d’un trimestre (ejlead_vq1l) et la variation de l'indice S&P 500 retardée d’un trimestre (eu0m1_vq1l). Cette situation semble démontrer que les variations macroéconomiques, dans l'ensemble, n'ont pas un effet prédictif à court terme dans une fenêtre d'un an sur les BPA trimestriels. On peut supposer que l'effet des variations des variables macro-économiques prend davantage de temps à influer sur les bénéfices des entreprises. Cela rejoint une observation de l'étude de Fridson, Garman et Wu (1997) où le R2 ajusté de leur modèle augmentait de 11 à 25.5% en introduisant un délai de deux ans. Leur modèle visait à prévoir le défaut d'obligations. 82 4.1.2 Statistiques descriptives des variables Le tableau 28 affichant les statistiques descriptives des variables indépendantes est présenté en annexe A. De par la nature des variables utilisées (des variations trimestrielles en pourcentage) il est à noter que certaines d'entre elles présentent des valeurs minimum-maximum ainsi que des écart-types assez élevés. Cela est particulièrement le cas des variations de bénéfice net (fben). Il est intéressant de constater le signe négatif des moyennes des quatre variations de bénéfice net, en opposition aux moyennes positives des quatre variations de BPA. C'est d'ailleurs la seule variable avec le rendement de l'actif (froa) où on observe des moyennes négatives. 4.2 Performance des méthodes quantitatives Dans un premier temps, le tableau 15 présente l'EAMP globale des méthodes quantitatives de toutes les observations des trois années de l'ensemble de test. En vert sont indiquées les EAMP les plus basses parmi les cinq méthodes quantitatives pour chacune des deux méthodes de remplacement des données manquantes. Tableau 15 : Performance globale des méthodes quantitatives Méthode Régression linéaire (RL) Arbre simple (AS) Boosting (BO) Bagging (BA) Forêts aléatoires (FA) EAMP (%) Remplacement Remplacement par par imputation la moyenne (MO) multiple (IM) 294.69 301.75 136.74 136.17 123.51 123.67 126.48 126.62 111.29 111.08 On observe premièrement que les méthodes ensemblistes dominent la méthode de l'arbre simple, utilisée comme méthode standard de comparaison à base d'arbres. Elles dominent également la régression linéaire, utilisée comme standard de comparaison en tant que méthode quantitative paramétrique. Parmi les méthodes ensemblistes, on peut constater que la méthode des forêts aléatoires domine globalement les deux autres méthodes ensemblistes, et que la méthode du Bagging présente la performance la plus faible. Finalement, à première vue, aucune des deux méthodes de remplacement des valeurs manquantes ne semble contribuer significativement à donner des EAMP plus basses. Le 83 remplacement par la moyenne donne la moyenne globale d’EAMP la plus basse pour trois méthodes : la régression linéaire, le Bagging et le Boosting. Pour le remplacement par imputation multiple, c’est le cas pour l’arbre simple et pour les forêts aléatoires. Les trois tableaux suivants donnent les EAMP trimestrielles pour toutes les industriestrimestres de l'ensemble de test pour toutes les méthodes quantitatives. En vert sont indiquées les EAMP trimestrielles les plus basses parmi les méthodes quantitatives. Cela, pour chacune des deux méthodes de remplacement des données manquantes et pour chaque industrie-trimestre. 84 Tableau 16 : EAMP trimestrielle 2003 : Analystes et méthodes quantitatives Remplacement par la moyenne Remplacement par imputation multiple Industrie a b c c Trimestre AN RL RL AS BO BA FA AS BO BA FA 58.66 428.95 311.89 323.43 267.63 287.80 465.51 289.83 326.43 261.40 257.00 BASIC 0303 95.57 331.05 336.34 410.71 340.79 300.52 304.94 311.47 408.03 321.72 295.52 BASIC 0306 59.90 459.42 311.94 344.30 296.81 254.27 524.51 275.11 348.14 298.16 261.27 BASIC 0309 70.80 281.39 192.69 260.00 197.43 189.52 277.46 213.87 264.76 216.10 195.53 BASIC 0312 45.53 231.51 306.59 269.28 268.61 149.75 240.37 300.65 272.48 273.82 168.92 CAPITAL 0303 50.03 161.57 177.06 182.35 172.50 135.70 167.65 174.91 182.41 171.63 130.83 CAPITAL 0306 50.39 232.30 161.06 185.37 154.30 155.44 239.36 158.42 185.85 152.85 154.37 CAPITAL 0309 56.79 162.09 113.56 150.82 115.40 102.13 162.96 114.53 151.76 119.27 102.67 CAPITAL 0312 41.59 197.53 143.59 202.15 157.28 131.03 194.53 188.33 204.99 163.25 127.80 CONSDUR 0303 31.90 173.83 105.30 159.40 143.28 149.03 171.30 123.24 159.11 142.25 151.72 CONSDUR 0306 57.49 263.03 250.27 227.23 152.69 152.45 257.23 140.76 223.53 137.63 149.31 CONSDUR 0309 51.10 218.88 129.12 158.79 111.88 73.99 218.69 129.68 159.36 114.73 80.31 CONSDUR 0312 44.76 245.41 151.22 196.61 127.57 98.64 268.97 123.82 195.14 110.61 94.80 CONSND 0303 35.41 246.54 99.20 148.05 103.86 97.66 256.43 105.22 147.60 105.17 99.98 CONSND 0306 37.09 39 690.82 110.25 159.46 128.03 116.41 43 600.49 101.25 151.15 107.06 107.09 CONSND 0309 61.94 94.00 92.39 152.48 84.97 83.24 100.94 96.31 153.58 82.50 73.54 CONSND 0312 42.03 163.79 194.35 140.19 160.25 130.78 166.09 196.44 141.26 174.05 148.56 CONSSVC 0303 42.65 272.97 188.03 124.52 168.95 152.24 267.65 171.50 125.55 168.79 152.68 CONSSVC 0306 46.09 376.67 174.49 119.63 146.59 122.79 369.99 162.25 120.13 142.22 122.77 CONSSVC 0309 50.18 131.82 141.79 115.38 125.67 128.28 129.70 139.62 116.89 127.17 129.51 CONSSVC 0312 28.55 127.26 139.92 140.67 124.21 103.52 129.71 134.03 137.90 117.20 102.63 ENERGY 0303 41.84 175.75 161.14 154.43 151.58 148.75 175.93 168.56 154.87 151.84 149.39 ENERGY 0306 63.90 156.22 196.56 168.68 161.34 162.43 156.04 199.42 169.68 165.50 163.23 ENERGY 0309 45.30 154.78 157.95 144.54 151.00 154.23 154.32 149.78 145.23 152.65 149.52 ENERGY 0312 20.07 80.17 77.08 84.50 76.93 71.95 80.64 77.13 84.26 76.99 74.00 FINANCE 0303 32.27 82.47 86.18 92.30 86.16 75.89 81.74 86.38 91.92 86.32 75.15 FINANCE 0306 37.84 112.55 103.81 111.31 101.94 90.19 113.15 103.86 111.17 102.15 89.05 FINANCE 0309 39.57 119.14 92.89 108.97 94.16 91.34 119.78 99.30 110.34 99.41 94.35 FINANCE 0312 28.29 106.87 104.00 76.36 99.31 81.18 108.62 106.71 77.88 100.17 80.52 HEALTH 0303 38.62 125.75 95.68 76.43 92.97 81.40 126.99 100.53 75.53 96.44 81.54 HEALTH 0306 38.33 121.76 118.45 86.78 120.65 94.58 116.60 119.73 84.52 115.31 93.75 HEALTH 0309 52.91 121.16 124.87 87.90 114.52 98.15 119.68 123.07 85.31 109.70 93.84 HEALTH 0312 46.47 149.69 175.28 103.98 150.29 134.84 160.33 151.71 104.30 138.31 129.54 TECHNOL 0303 49.96 146.69 165.46 104.19 154.29 125.69 140.60 184.06 103.19 157.76 126.81 TECHNOL 0306 54.50 160.94 138.44 93.57 125.71 113.65 171.07 143.65 97.40 136.04 120.13 TECHNOL 0309 66.39 155.52 171.56 101.96 159.31 143.26 147.37 176.47 104.67 160.23 140.48 TECHNOL 0312 21.45 169.38 236.73 189.35 176.16 174.15 183.61 228.52 173.78 141.58 138.72 TRANSP 0303 58.92 100.14 144.52 101.24 88.66 94.79 111.15 148.20 103.41 90.32 92.27 TRANSP 0306 39.86 198.39 121.38 87.59 105.13 111.37 176.98 101.22 88.70 101.36 100.28 TRANSP 0309 46.31 153.46 148.72 115.22 107.93 99.84 153.21 129.61 115.95 107.94 96.25 TRANSP 0312 48.77 132.61 143.97 128.98 146.67 115.68 115.13 155.97 127.80 145.26 112.58 UTILITY 0303 71.61 238.80 196.66 113.00 165.18 136.99 246.29 157.87 111.19 147.94 134.59 UTILITY 0306 90.23 267.56 361.09 220.66 268.38 173.30 261.64 356.06 220.09 263.42 171.59 UTILITY 0309 92.97 323.07 179.50 126.58 137.23 104.12 330.86 184.76 125.60 132.50 107.84 UTILITY 0312 Moyenne : 46.02 547.43 148.00 130.98 135.89 119.28 586.26 145.72 131.22 135.55 119.22 a FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics; MISCELL : Divers; UNDESIG : Autres. b AN : Analystes. c RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires. 85 Tableau 17 : EAMP trimestrielle 2004 : Analystes et méthodes quantitatives Remplacement par la moyenne Remplacement par imputation multiple Industrie a b c c Trimestre AN RL RL AS BO BA FA AS BO BA FA BASIC 0403 108.38 297.41 188.19 209.61 177.16 177.36 312.83 221.41 213.66 173.15 174.31 BASIC 0406 122.15 156.73 168.56 187.34 166.02 142.80 145.63 183.38 182.64 152.40 135.56 BASIC 0409 45.80 113.94 117.03 150.43 114.70 100.28 115.28 122.55 151.64 116.01 97.74 BASIC 0412 76.40 151.84 125.38 150.10 131.42 135.50 147.97 133.04 151.20 133.83 136.74 CAPITAL 0403 34.13 426.70 123.50 141.01 119.96 108.57 399.85 123.80 142.59 122.20 111.20 CAPITAL 0406 47.78 3 141.13 127.55 141.51 116.21 89.29 3 171.65 125.27 141.37 116.95 95.86 CAPITAL 0409 33.84 132.85 117.58 143.66 119.00 89.71 124.87 115.59 143.46 118.09 88.92 CAPITAL 0412 73.76 160.88 129.43 164.70 134.65 125.93 155.85 131.62 164.65 135.74 119.54 CONSDUR 0403 27.16 188.67 127.98 160.37 122.87 103.12 188.66 137.41 161.13 127.08 111.48 CONSDUR 0406 24.39 163.19 138.37 144.30 115.30 101.15 157.10 137.75 144.68 116.35 104.62 CONSDUR 0409 64.05 192.96 136.07 183.53 138.36 139.00 187.84 137.78 184.59 141.47 136.37 CONSDUR 0412 46.98 156.50 116.32 160.38 115.62 109.76 153.86 118.81 162.46 118.63 108.92 CONSND 0403 34.33 157.86 102.28 154.52 97.46 92.19 165.51 104.20 155.49 99.85 90.67 CONSND 0406 37.42 135.64 104.57 140.90 103.48 89.33 135.99 82.16 136.00 88.83 73.31 CONSND 0409 36.27 103.62 97.98 161.73 103.85 85.40 106.21 94.01 158.35 97.31 80.86 CONSND 0412 100.15 139.51 143.27 200.08 129.67 125.58 141.51 143.08 200.99 130.77 127.91 CONSSVC 0403 43.74 175.01 176.52 141.33 164.30 130.48 176.21 171.44 141.61 162.70 134.89 CONSSVC 0406 50.92 159.58 166.18 135.95 159.35 123.84 156.80 165.77 135.51 157.77 125.81 CONSSVC 0409 28.22 123.15 144.26 119.50 136.60 116.73 121.40 144.67 120.02 133.92 120.57 CONSSVC 0412 40.29 121.83 118.37 104.04 113.72 116.19 119.94 118.76 103.91 114.49 120.60 ENERGY 0403 32.64 110.24 116.10 119.25 102.78 105.47 110.60 106.71 119.61 102.42 107.16 ENERGY 0406 24.69 152.03 117.30 146.63 123.22 115.43 155.45 115.20 145.78 121.52 120.89 ENERGY 0409 55.88 151.76 153.81 157.12 134.59 136.94 162.83 157.38 161.46 138.98 140.01 ENERGY 0412 62.81 310.84 102.38 135.79 103.93 123.19 208.39 104.84 135.03 105.07 119.38 FINANCE 0403 19.32 128.23 94.37 102.14 93.01 80.47 126.37 94.23 102.07 93.23 79.84 FINANCE 0406 31.23 140.72 90.25 103.86 91.14 79.41 96.45 90.34 103.85 90.60 80.57 FINANCE 0409 31.33 109.58 108.00 119.33 108.27 90.71 108.42 108.09 120.06 108.85 95.33 FINANCE 0412 28.32 94.43 97.85 110.50 99.84 88.68 96.22 98.00 110.41 99.66 87.77 HEALTH 0403 35.18 129.17 127.45 83.99 113.28 90.60 127.80 122.58 84.95 111.25 95.28 HEALTH 0406 35.09 149.54 145.36 86.21 116.94 87.06 151.48 130.08 82.98 111.23 82.72 HEALTH 0409 45.68 135.10 127.77 88.22 118.12 97.94 129.93 126.69 87.36 118.17 97.34 HEALTH 0412 50.15 121.69 124.52 85.09 108.51 102.26 122.84 121.56 86.23 115.11 104.57 TECHNOL 0403 42.78 149.69 163.10 109.94 151.77 132.51 153.75 159.49 112.19 147.90 136.67 TECHNOL 0406 34.38 124.10 145.32 103.83 134.72 124.24 120.73 151.47 104.44 141.93 123.57 TECHNOL 0409 36.93 126.52 149.13 106.48 139.21 132.33 117.33 149.40 109.24 143.32 130.00 TECHNOL 0412 42.04 130.11 149.62 103.58 138.86 127.06 116.22 153.91 104.21 144.88 125.90 TRANSP 0403 19.82 152.58 160.95 150.97 142.45 137.51 152.86 151.70 150.11 146.37 131.88 TRANSP 0406 33.94 65.03 191.02 84.22 83.74 77.13 67.77 174.03 88.87 92.31 78.72 TRANSP 0409 48.95 231.43 147.97 143.04 158.16 144.82 209.48 162.90 142.44 158.34 146.56 TRANSP 0412 21.57 94.12 137.31 106.61 124.91 100.32 88.49 241.11 109.50 134.48 105.49 UTILITY 0403 41.89 330.13 165.53 136.02 149.36 113.59 317.02 164.83 134.04 141.49 121.36 UTILITY 0406 25.92 220.95 154.21 101.73 115.18 95.50 205.38 159.40 101.05 114.88 99.30 UTILITY 0409 24.01 274.16 191.49 152.07 177.51 123.56 241.14 196.48 149.77 178.19 133.53 UTILITY 0412 31.01 131.34 232.02 118.43 156.04 132.36 145.87 231.45 117.01 156.79 122.71 Moyenne : 40.08 195.88 130.99 119.71 122.51 107.59 189.70 131.48 119.93 122.77 108.44 a FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics; MISCELL : Divers; UNDESIG : Autres. b AN : Analystes. c RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires. 86 Tableau 18 : EAMP trimestrielle 2005 : Analystes et méthodes quantitatives Remplacement par la moyenne Remplacement par imputation multiple Industrie a b c c Trimestre AN RL RL AS BO BA FA AS BO BA FA BASIC 0503 55.20 213.25 178.40 188.93 157.30 172.24 214.62 193.51 188.97 156.56 169.55 BASIC 0506 39.47 165.40 156.23 175.95 135.24 127.20 168.79 161.21 176.14 139.64 122.57 BASIC 0509 37.69 153.31 171.37 172.99 157.77 135.65 158.19 156.31 170.03 153.53 129.21 BASIC 0512 43.26 216.98 169.30 194.13 157.56 137.68 219.65 159.50 189.12 147.85 147.08 CAPITAL 0503 51.06 143.79 124.66 146.22 114.97 102.37 140.65 127.22 145.98 115.16 103.07 CAPITAL 0506 38.05 152.36 117.38 127.42 107.58 87.54 131.18 116.93 127.07 105.04 89.68 CAPITAL 0509 31.47 122.59 90.04 111.99 82.73 69.47 104.66 88.32 111.21 79.56 73.63 CAPITAL 0512 38.37 101.36 88.46 108.72 81.23 76.44 100.18 87.72 107.95 79.39 74.10 CONSDUR 0503 38.74 239.19 188.68 243.56 200.18 166.71 244.23 184.72 240.42 192.80 169.74 CONSDUR 0506 27.51 162.24 121.36 155.49 105.21 109.70 149.84 129.53 161.20 119.81 98.10 CONSDUR 0509 36.38 210.56 115.51 195.13 123.14 108.82 213.52 114.05 193.87 118.94 118.78 CONSDUR 0512 70.25 125.71 109.60 130.99 107.61 99.49 126.92 113.57 131.04 108.57 101.27 CONSND 0503 43.42 163.98 109.11 163.94 96.36 86.40 161.22 113.49 168.24 104.92 88.51 CONSND 0506 38.20 256.45 91.33 153.70 95.66 87.99 151.49 89.70 151.57 92.04 86.77 CONSND 0509 42.19 242.16 93.13 183.43 95.60 83.78 227.51 146.69 185.24 101.47 82.94 CONSND 0512 63.56 97.21 79.84 110.94 69.48 80.74 105.19 74.38 111.00 66.92 77.90 CONSSVC 0503 47.03 161.41 174.33 139.69 161.16 150.75 158.73 171.68 139.38 156.46 148.65 CONSSVC 0506 41.86 120.28 162.38 114.64 146.23 114.36 119.54 159.86 116.81 149.98 112.19 CONSSVC 0509 48.21 141.79 147.46 121.43 136.73 129.68 142.77 142.17 121.49 137.96 123.93 CONSSVC 0512 57.42 101.55 130.28 112.87 122.20 120.38 106.63 133.13 112.42 121.37 124.61 ENERGY 0503 37.07 160.07 87.16 106.89 92.24 93.67 166.02 95.52 106.05 91.52 93.07 ENERGY 0506 43.81 200.14 140.61 163.54 132.50 116.79 193.12 135.17 163.11 132.85 120.84 ENERGY 0509 56.53 159.08 129.43 152.76 111.51 110.57 148.95 129.01 152.86 114.16 116.48 ENERGY 0512 35.28 161.34 107.10 120.26 95.76 92.45 174.93 111.49 121.04 99.96 93.40 FINANCE 0503 29.38 115.29 93.84 103.86 90.90 82.70 94.02 90.61 103.70 90.39 81.18 FINANCE 0506 39.96 86.76 90.90 96.79 89.77 82.04 86.36 88.54 96.75 89.19 81.24 FINANCE 0509 42.99 130.37 125.74 135.01 124.01 107.77 133.17 125.74 135.01 123.39 108.15 FINANCE 0512 42.01 108.47 111.30 120.15 109.36 93.06 108.14 111.30 119.75 109.35 93.67 HEALTH 0503 35.06 128.64 112.01 84.89 108.23 91.80 129.52 111.50 84.64 111.32 91.86 HEALTH 0506 37.16 128.90 127.68 83.58 112.84 101.13 129.46 127.30 83.10 115.30 103.37 HEALTH 0509 47.30 142.20 128.24 85.14 117.20 97.69 136.43 128.03 85.91 118.22 95.24 HEALTH 0512 45.60 136.79 123.02 83.62 111.88 101.68 135.31 124.55 85.99 117.78 101.23 TECHNOL 0503 43.45 141.56 174.05 124.68 169.44 143.81 141.75 176.38 122.01 167.16 138.55 TECHNOL 0506 45.16 127.86 170.57 102.26 145.85 115.51 121.22 167.43 102.19 146.53 113.48 TECHNOL 0509 43.22 111.66 146.54 102.08 131.07 104.58 107.83 151.74 103.42 142.17 103.21 TECHNOL 0512 46.37 99.66 142.76 106.54 132.84 116.46 104.69 148.04 106.67 131.29 113.33 TRANSP 0503 47.93 4210.55 132.90 114.73 126.85 98.89 3506.94 152.84 115.98 130.11 98.22 TRANSP 0506 46.31 145.21 140.48 129.48 147.94 151.91 137.79 140.43 130.68 150.09 148.56 TRANSP 0509 39.09 118.45 119.79 127.12 122.16 110.28 114.49 136.52 125.38 115.14 103.23 TRANSP 0512 41.10 137.92 147.94 102.03 90.56 103.81 136.33 114.74 102.57 97.28 100.88 UTILITY 0503 40.62 232.46 210.88 154.34 164.34 125.79 191.43 192.11 153.64 161.05 125.84 UTILITY 0506 27.48 161.83 139.58 91.55 105.27 87.77 138.79 123.07 91.84 101.63 84.40 UTILITY 0509 56.29 232.27 219.22 180.86 182.92 133.31 214.58 214.10 180.06 181.10 126.44 UTILITY 0512 68.24 302.22 282.24 160.33 196.12 185.95 261.18 286.94 167.40 187.03 136.85 Moyenne : 42.88 162.82 132.13 120.42 121.83 107.65 154.07 132.09 120.47 122.28 106.33 a FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics; MISCELL : Divers; UNDESIG : Autres. b AN : Analystes. c RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires. 87 Nous pouvons constater ici la domination de la méthode des forêts aléatoires sur l'ensemble des trois années de test. Pour ces trois années (132 industries-trimestres en tout), cette méthode arrive en première position parmi les méthodes quantitatives 74 fois et 75 fois sur 132 pour la méthode de remplacement des valeurs manquantes par la moyenne (MO), et par imputation multiple (IM) respectivement. Ensuite, on retrouve la méthode du Boosting avec 36 (MO) et 35 (IM) premières positions sur 132. Finalement en troisième place, on retrouve l'autre méthode ensembliste, le Bagging avec dix (MO) et onze (IM) premières positions obtenues. Quant aux deux autres méthodes quantitatives, la méthode de l'arbre simple obtient six (MO) et six (IM) premières positions et la régression linéaire se retrouve en première position six (MO) et cinq (IM) fois sur 132. Les résultats obtenus montrent ainsi la supériorité prédictive des méthodes non paramétriques sur une méthode paramétrique standard, la régression linéaire, dans un autre domaine d'application. Cela permet donc d'ajouter la prévision des BPA trimestriels utilisant des variables indépendantes couvrant un horizon court d'un an aux autres domaines d'application où cette supériorité (méthodes non paramétriques vs méthodes paramétriques) a également été observée. Mentionnons les recherches suivantes : Labarre (2003) : Identification des acheteurs potentiels; Belhouari (2005) : Prédiction de faillite; Cutler et al. (2007) : Classification de trois types d'organismes en écologie; Creamer et Stolfo (2009) : Prédiction de rendement cumulatif anormal (CAR) et de « Earnings surprises ». Cela nous permet d'affirmer qu'il existe vraisemblablement dans les données des relations complexes impliquant plusieurs variables financières permettant la prévision des BPA trimestriels. Ces relations, si elles existent, doivent probablement être captées en partie par les arbres de régression composant les méthodes ensemblistes, ce qui leur permet d'obtenir une performance de prévision supérieure à la régression linéaire. Parmi les méthodes ensemblistes, les résultats obtenus montrent également la supériorité prédictive de la méthode des forêts aléatoires sur les autres méthodes ensemblistes pour un domaine additionnel. Ce même résultat a été observé dans quelques recherches, dont, parmi les plus récentes : Hamza et Larocque (2005) et Creamer et Stolfo (2009). On doit mentionner par contre que, dans d'autres recherches, les forêts aléatoires n'ont pas toujours été la meilleure méthode ensembliste, notamment 88 Labarre (2003) où le Boosting domine lors de tests où la validation a été effectuée avec les mêmes données ayant servi à l'entraînement des modèles. Ainsi, les deux hypothèses de notre premier objectif de recherche (voir section 3.2) se trouvent vérifiées dans ce mémoire, à savoir : 1) Les méthodes non paramétriques performent mieux que la méthode paramétrique; 2) Parmi les méthodes d'ensembles, la méthode des forêts aléatoires montre les meilleurs résultats dans l'ensemble. Lorsqu'on examine le lien entre les meilleures méthodes et les industries pour chacun des trimestres de l'ensemble de test, des points intéressants ressortent. Pour certaines industries, une méthode en particulier semble donner constamment les meilleurs résultats, alors que pour d'autres, les résultats sont mitigés. Ainsi, les forêts aléatoires obtiennent la plus faible EAMP pour la majorité des trimestres pour les industries suivantes : Extraction/Transformation (BASIC), Construction/Manufacturier (CAPITAL), Consommation (durables) (CONSDUR), Consommation (non durables) (CONSND), Services financiers (FINANCE) et Services publics (UTILITY). De façon particulière, pour deux industries en particulier, Santé (HEALTH) et Technologie (TECHNOL), c'est le Boosting qui domine sur presque tous les trimestres. Pour les autres industries, les résultats sont non concluants : Consommation (services) (CONSSVC), Énergie (ENERGY) et Transports (TRANSP). Examinons maintenant les industries où les méthodes quantitatives ont le mieux (et le moins bien) performé. Pour avoir une vision plus globale de la performance, nous examinerons les EAMP annuelles pour les trois années de l'ensemble de test. Ces EAMP sont affichées dans les tableaux 21, 23 et 25 présentés plus bas aux p. 93, 94 et 95 respectivement. Les trois tableaux 22, 24 et 26 affichent le rang des EAMP annuelles par industrie, allant de la moyenne la plus basse (rang 1) à la plus élevée (rang 11). Dans le tableau 19, nous affichons pour chacune des méthodes le nombre de fois où les industries se situent : a) dans les trois premières positions et b) dans les trois dernières positions sur un total possible de six par méthode quantitative (deux méthodes de remplacement des valeurs manquantes x trois années). 89 Tableau 19 : Méthodes quantitatives : Performance par industrie Total : EAMP annuelle, trois ans, trois premières positions a a b Industrie RL BASIC b Total : EAMP annuelle : trois ans, trois dernières positions b AS BO BA FA Total RL AS BO BA FA Total 0 0 0 0 0 0 4 5 6 6 6 27 CAPITAL 2 2 0 2 2 8 2 2 2 2 2 10 CONSDUR 0 0 0 0 0 0 0 0 6 0 1 7 CONSND 0 6 0 6 6 18 3 0 4 0 0 7 CONSSVC 0 0 0 0 0 0 0 0 0 1 4 5 ENERGY 1 2 0 0 0 3 1 0 0 0 2 3 FINANCE 6 6 6 6 6 30 0 0 0 0 0 0 HEALTH 3 2 6 4 4 19 0 0 0 0 0 0 TECHNOL 5 0 6 0 0 11 0 3 0 3 2 8 TRANSP 1 0 0 0 0 1 2 2 0 0 0 4 UTILITY 0 0 0 0 0 0 6 6 0 6 1 19 FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics; MISCELL : Divers; UNDESIG : Autres. RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires. Ainsi, on observe que les trois industries suivantes sont celles où les méthodes quantitatives, dans l'ensemble, ont le mieux performé : Services financiers (FINANCE), Santé (HEALTH) et Consommation (non durables) (CONSND). À l'autre extrême, les trois industries pour lesquelles les résultats les moins bons ont été obtenus sont : Extraction/Transformation (BASIC), Services publics (UTILITY) et Construction/Manufacturier (CAPITAL). Nous posons l'hypothèse que la performance de prédiction pour les industries où les méthodes ont le moins bien performé a été affectée négativement par les deux principales raisons suivantes : 1) Des variables indépendantes importantes pour la prédiction de BPA trimestriel sont manquantes dans notre modèle pour cette industrie; 2) Des variables importantes pour la prédiction de BPA trimestriel sont présentes dans le modèle, mais leurs variations trimestrielles ont un impact prédictif retardé sur une période dépassant un an, l'horizon de notre modèle. Il est possible également que le nombre d'enregistrements ayant servi à la création des modèles spécifiques par industrie ait joué un rôle sur la performance de prédiction. Ainsi, deux des meilleures industries (FINANCE et HEALTH) sont parmi les trois premières industries en termes de nombre d'enregistrements. Cependant, l'industrie de la Technologie (TECHNOL) est la deuxième en importance en termes de nombre 90 d'enregistrements et se retrouve pourtant à quelques reprises parmi les industries avec la moins bonne performance de prévision. En ce qui concerne les méthodes ensemblistes, lorsqu'on examine les données dans les tableaux 21, 23 et 25, on constate les points intéressants suivants : Pour le Bagging et les forêts aléatoires, l'industrie des Services financiers (FINANCE) arrive en première position deux années sur trois, en 2003 et 2004. Ce sont également les trois mêmes industries qui arrivent dans les trois premières positions pour chacune des trois années de l'ensemble de test pour ces deux méthodes. Cette situation peut possiblement s'expliquer par le fait que le Bagging est un cas spécifique des forêts aléatoires; Pour le Boosting, l'industrie de la Santé (HEALTH) arrive systématiquement en première position sur les trois années de l'ensemble de test, alors que cette industrie n'arrive jamais en première position pour les deux autres méthodes ensemblistes dont le fonctionnement est significativement différent de celui du Boosting utilisé dans ce travail. On observe également des écarts importants parfois entre le rang d'une industrie pour le Boosting et celui obtenu par le Bagging et les forêts aléatoires (ex.: industrie de la Technologie en 2004, remplacement par imputation multiple : BO : rang 2, BA/FA : rang 10). Il est particulier ici de constater que la nature d'une méthode ensembliste a un impact sur les performances de prévision selon l'industrie. Finalement, lorsqu’on examine la méthode de remplacement des données manquantes qui donne l’EAMP trimestrielle la plus faible parmi les cinq méthodes quantitatives pour chaque industrie-trimestre, nous ne constatons pas ici aussi une dominance particulière de l’une ou de l’autre des méthodes. Le remplacement par la moyenne donne l’EAMP la plus basse 67 industries-trimestres sur 132, alors que c’est le cas pour 65 industriestrimestres sur 132 pour le remplacement par imputation multiple pour les trois années de test. Si nous examinons les résultats pour chaque méthode quantitative, nous avons les résultats suivants dans le tableau 20 qui indiquent le nombre d’industries-trimestres où la méthode de remplacement a donné l’EAMP trimestrielle la plus faible : 91 Tableau 20 : Méthodes de remplacement des valeurs manquantes : Nombre d’industries-trimestres avec EAMP minimum par méthode quantitative Méthode Régression linéaire (RL) Arbre simple (AS) Boosting (BO) Bagging (BA) Forêts aléatoires (FA) Total : Remplacement par la moyenne (MO) 59 64 68 70 59 320 Remplacement par imputation multiple (IM) 73 68 64 62 73 340 Le remplacement par la moyenne donne les meilleurs résultats pour la méthode du Boosting et du Bagging, et le remplacement par imputation multiple donne les meilleurs résultats pour les autres méthodes. Cependant, les résultats ici ne nous permettent pas de conclure à une domination nette de l’une ou l’autre des deux méthodes. 4.3 Comparaison avec la performance des analystes Pour la présentation et l’analyse des résultats comparatifs entre analystes et méthodes quantitatives, nous avons choisi de nous placer au niveau annuel afin d'avoir une idée globale de la performance. Aussi, comme le présent mémoire s'intéresse aux méthodes ensemblistes à base d'arbres, et pour limiter la quantité de données présentées, nous avons choisi ici d'exclure la présentation des résultats de la régression linéaire et de nous limiter aux méthodes à base d'arbres. N.B.: Le niveau de détail trimestriel est disponible dans les tableaux 16, 17 et 18 présentés précédemment pour les analystes et les méthodes quantitatives. Donc, pour chacune des trois années de l’ensemble de test, nous présentons trois tableaux qui affichent les données suivantes : Les tableaux 21, 23 et 25 présentent l'EAMP annuelle de tous les enregistrements pour chacune des industries. Cela, pour les analystes et les méthodes quantitatives. En vert est affichée la plus basse EAMP annuelle obtenue pour chacune des deux méthodes de remplacement des valeurs manquantes; Les figures 3, 4 et 5 présentent ces mêmes données graphiquement; Les tableaux 22, 24 et 26 présentent le rang par industrie des EAMP annuelles, allant de l'EAMP la plus basse (rang 1) à la plus élevée (rang 11). La moyenne 92 du rang est calculée également pour les méthodes ensemblistes, pour chacune des deux méthodes de remplacement des valeurs manquantes. Les trois meilleurs rangs sont marqués en vert et les trois rangs les plus bas sont marqués en orange. Finalement, les corrélations entre le rang des industries pour les analystes et le rang des méthodes, ainsi que les corrélations entre le rang des industries pour les analystes et celui des moyennes de rang pour les méthodes ensemblistes, sont affichées en bas de tableau. 93 Tableau 21 : EAMP annuelle 2003 : Analystes et méthodes quantitatives a b Industrie BASIC CAPITAL CONSDUR CONSND CONSSVC ENERGY FINANCE HEALTH TECHNOL TRANSP UTILITY Moyenne : AN 71.16 50.77 45.46 44.96 45.35 45.11 32.81 39.85 54.44 41.99 76.23 46.02 Remplacement par la moyenne c BO BA FA AS 288.58 334.79 275.91 258.23 187.81 195.86 176.33 135.46 156.85 186.85 141.34 126.72 112.72 163.74 110.71 98.84 174.00 124.59 149.91 133.43 164.22 152.24 147.30 142.69 90.34 99.80 90.17 82.76 111.04 82.03 107.10 89.06 162.66 100.91 147.45 129.40 162.08 122.66 118.70 119.25 221.00 147.84 179.60 132.44 148.00 130.98 135.89 119.28 Remplacement par imputation multiple c BO BA FA AS 272.74 337.02 274.55 252.51 185.43 197.00 177.98 138.68 145.57 186.72 139.56 127.37 106.40 161.48 101.08 93.66 166.71 125.62 152.41 138.05 163.33 152.11 147.16 141.65 92.14 99.98 91.69 83.58 112.73 80.91 105.56 87.60 164.10 102.39 148.20 129.30 151.18 119.94 109.88 106.43 214.75 146.71 172.64 131.63 145.72 131.22 135.55 119.22 Figure 4 : EAMP annuelle 2003 : Analystes et méthodes quantitatives Tableau 22 : Classement par rang 2003 Remplacement par la moyenne (MO) a b c Remplacement par imputation multiple (IM) c Moyenne (MO) : Méthodes ensemblistes (BO, BA, FA) 11.00 9.33 6.33 4.67 7.00 7.67 1.33 1.67 5.33 4.00 7.67 0.82 Moyenne (IM) : Méthodes ensemblistes (BO, BA, FA) 11.00 9.67 6.33 4.33 7.00 7.67 1.33 2.00 5.33 4.00 7.33 0.80 Industrie AN AS AS BO BA FA BO BA FA BASIC 10 11 11 11 11 11 11 11 11 CAPITAL 8 9 10 9 9 9 10 10 9 CONSDUR 7 4 9 5 5 4 9 5 5 CONSND 4 3 8 3 3 2 8 2 3 CONSSVC 6 8 5 8 8 8 5 8 8 ENERGY 5 7 7 6 10 6 7 6 10 FINANCE 1 1 2 1 1 1 2 1 1 HEALTH 2 2 1 2 2 3 1 3 2 TECHNOL 9 6 3 7 6 7 3 7 6 TRANSP 3 5 4 4 4 5 4 4 4 UTILITY 11 10 6 10 7 10 6 9 7 Corrélation : 0.85 0.57 0.92 0.72 0.86 0.57 0.87 0.72 Tableaux 21 et 22, Figure 4 : a FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics. b AN : Analystes. c RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires. 94 Tableau 23 : EAMP annuelle 2004 : Analystes et méthodes quantitatives a Industrie BASIC CAPITAL CONSDUR CONSND CONSSVC ENERGY FINANCE HEALTH TECHNOL TRANSP UTILITY Moyenne : b AN 87.85 47.35 41.26 52.01 40.69 44.50 27.63 41.81 39.01 31.34 30.74 40.08 Remplacement par la moyenne c BO BA FA AS 149.05 173.65 146.79 138.44 124.44 147.75 122.45 103.21 129.53 162.48 123.15 113.69 112.01 164.19 108.62 98.09 150.90 124.92 143.11 121.69 122.50 140.05 116.29 120.63 97.72 109.10 98.20 84.94 131.16 85.91 114.16 94.69 151.64 105.89 140.99 128.98 158.38 121.02 127.85 115.03 185.89 126.92 149.41 116.26 130.99 119.71 122.51 107.59 Remplacement par imputation multiple c BO BA FA AS 164.02 174.02 143.37 135.58 123.98 148.03 123.21 103.67 132.71 163.57 125.99 115.60 105.72 162.57 104.11 93.07 149.77 124.98 141.85 125.34 121.33 140.84 117.21 122.17 97.77 109.24 98.22 86.01 125.21 85.42 114.04 95.18 153.50 107.44 144.47 128.92 183.98 122.56 133.41 115.96 188.10 125.33 147.72 119.17 131.48 119.93 122.77 108.44 Figure 5 : EAMP annuelle 2004 : Analystes et méthodes quantitatives Tableau 24 : Classement par rang 2004 Remplacement par la moyenne (MO) a b c Remplacement par imputation multiple (IM) c Moyenne (MO) : Méthodes ensemblistes (BO, BA, FA) 10.67 5.67 6.67 5.00 7.67 6.33 1.67 2.00 6.67 5.67 8.00 0.31 Moyenne (IM) : Méthodes ensemblistes (BO, BA, FA) 10.33 5.67 7.00 4.33 7.33 6.33 1.67 2.33 7.33 5.67 8.00 0.26 Industrie AN AS AS BO BA FA BO BA FA 11 7 11 10 11 9 11 9 11 BASIC 9 4 8 5 4 4 8 5 4 CAPITAL 6 5 9 6 5 6 10 6 5 CONSDUR 10 2 10 2 3 2 9 2 2 CONSND 5 8 5 9 9 7 5 8 9 CONSSVC 8 3 7 4 8 3 7 4 8 ENERGY 1 1 3 1 1 1 3 1 1 FINANCE 7 6 1 3 2 5 1 3 3 HEALTH 4 9 2 8 10 8 2 10 10 TECHNOL 3 10 4 7 6 10 4 7 6 TRANSP 2 11 6 11 7 11 6 11 7 UTILITY Corrélation : -0.35 0.67 -0.10 0.15 -0.24 0.64 -0.17 0.13 Tableaux 23 et 24, Figure 5 : a FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics. b AN : Analystes. c RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires. 95 Tableau 25 : EAMP annuelle 2005 : Analystes et méthodes quantitatives a b Industrie BASIC CAPITAL CONSDUR CONSND CONSSVC ENERGY FINANCE HEALTH TECHNOL TRANSP UTILITY Moyenne : AN 43.66 39.62 43.46 46.74 48.74 43.23 38.71 41.42 44.53 43.59 48.44 42.88 Remplacement par la moyenne c BO BA FA AS 168.75 182.85 152.04 142.66 104.85 123.32 96.36 83.72 132.48 180.03 132.63 120.12 93.20 153.44 89.36 84.72 153.21 121.95 141.23 128.58 116.03 135.71 107.68 103.19 105.82 114.34 103.90 91.66 122.88 84.31 112.61 98.14 158.50 108.86 144.78 120.02 135.26 118.49 122.08 116.58 213.97 147.15 162.74 133.91 132.13 120.42 121.83 107.65 Remplacement par imputation multiple c BO BA FA AS 167.06 180.85 149.36 141.59 104.73 122.78 94.50 84.89 134.23 180.40 133.69 121.00 106.61 154.41 91.40 83.99 151.35 122.31 141.12 127.18 117.80 135.64 109.39 105.79 104.47 114.19 103.47 91.35 123.00 84.93 115.73 97.97 160.92 108.55 146.84 117.08 136.10 118.80 123.32 113.05 205.20 148.67 158.24 118.71 132.09 120.47 122.28 106.33 Figure 6 : EAMP annuelle 2005 : Analystes et méthodes quantitatives Tableau 26 : Classement par rang 2005 Remplacement par la moyenne (MO) a b c Remplacement par imputation multiple (IM) c Moyenne (MO) : Méthodes ensemblistes (BO, BA, FA) 10.67 3.00 8.33 4.00 7.33 5.33 3.00 3.33 6.00 5.33 9.67 0.60 Moyenne (IM) : Méthodes ensemblistes (BO, BA, FA) 10.67 3.33 8.67 3.67 7.67 5.33 3.00 3.33 6.00 5.33 9.00 0.57 Industrie AN AS AS BO BA FA BO BA FA 7 10 11 10 11 10 11 10 11 BASIC 2 2 6 2 1 2 6 2 2 CAPITAL 5 6 10 7 8 6 10 7 9 CONSDUR 9 1 9 1 2 3 9 1 1 CONSND 11 8 5 8 9 8 5 8 10 CONSSVC 4 4 7 4 5 4 7 4 5 ENERGY 1 3 3 3 3 1 3 3 3 FINANCE 3 5 1 5 4 5 1 5 4 HEALTH 8 9 2 9 7 9 2 9 7 TECHNOL 6 7 4 6 6 7 4 6 6 TRANSP 10 11 8 11 10 11 8 11 8 UTILITY Corrélation : 0.57 0.30 0.56 0.61 0.72 0.30 0.56 0.51 Tableaux 25 et 26, Figure 6 : a FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics. b AN : Analystes. c RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires. 96 Suite à l'examen des résultats, la principale constatation est l'écart important des EAMP annuelles obtenues avec les méthodes quantitatives en comparaison à celles des analystes. Même en considérant les industries où les plus basses EAMP annuelles ont été obtenues, on observe un écart de plusieurs dizaines de points de pourcentage entre les EAMP. Ainsi, il y a un écart de 41.06 points de pourcentage entre la plus basse EAMP annuelle obtenue, 80.91% (Année : 2003, Industrie : Santé, Méthode : Boosting, Remplacement par la moyenne) et l'EAMP annuelle des analystes : 39.85%. Sauf exceptions, l'EAMP des analystes se situe en deçà de 50%. Celles des meilleures méthodes quantitatives ne se retrouvent qu'exceptionnellement en dessous de 100%, cela pour les industries où elles ont le mieux performé, notamment les Services financiers (FINANCE), la Santé (HEALTH) et la Consommation (non durables) (CONSND). À titre informatif, rappelons que les résultats les plus récents observés dans la littérature montrent une EAMP de 34.6% sur une prédiction de BPA trimestriel pour la meilleure méthode quantitative (un réseau de neurones) dans Cao, Schniederjans et Zhang (2004). Dans Cao et Parry (2009), la meilleure méthode quantitative est de nouveau un réseau de neurones amélioré avec utilisation d'un algorithme génétique, et produit cette fois-ci une EAMP de 22.4% sur une prédiction de BPA trimestriel. Cependant, rappelons ici les différences méthodologiques dans Cao, Schniederjans et Zhang (2004), et Cao et Parry (2009), comparativement à notre travail : Limitation de l'EAP à 100% lorsqu'elle était supérieure à 100%, ce que nous n'avons pas fait dans ce travail; Utilisation directe de données trimestrielles financières, plutôt que de variations de données trimestrielles; Utilisation d'ensembles d'entraînement à taille fixe de 30 trimestres, plutôt qu'une taille variant de 39 à 50 trimestres dans ce mémoire. À propos des analystes, Alexander (1995), qui utilisait exactement la même méthode de calcul d'erreur de prévision des analystes que la nôtre (utilisation de la médiane des plus récentes prévisions des BPA trimestriels juste avant l'annonce), trouvait une EAMP de 32.6%. Cela, pour un échantillon de 1 295 entreprises de différentes industries sur des données allant de 1984-Q2 à 1988-Q3. Ces résultats démontrent que la méthodologie utilisée avec les méthodes d'ensembles dans ce mémoire ne permet pas d'atteindre l'objectif espéré d'un écart de 15% ou moins 97 entre l'erreur de prévision des méthodes et celle des analystes. Ceux-ci peuvent obtenir une performance de prévision supérieure, probablement pour les raisons suivantes : 1) Utilisation de données pertinentes à la prédiction de BPA trimestriel, quantitatives ou qualitatives, non utilisées dans notre méthodologie; 2) Utilisation de périodes de temps pour les variables retardées différentes de celles utilisées ici; 3) Capacité à corriger des données provenant des états financiers en utilisant des méthodes d'ajustement diverses. Cela est particulièrement important lorsque l'analyste veut utiliser les données financières passées afin d'établir des états financiers pro-forma. Ainsi, par exemple, les analystes seront en mesure d'ajuster les bénéfices nets passés en excluant des dépenses/revenus non récurrents afin de produire des projections de bénéfices plus plausibles. Les analystes sont également en mesure de tenir compte adéquatement des notes de bas de page apparaissant dans les rapports trimestriels/annuels afin d'y identifier d'autres éléments extraordinaires. Cela leur permet également d'ajuster les résultats présentés dans les états financiers avant le calcul de projections ou de ratios financiers. Cet ajustement est beaucoup plus complexe, sinon impossible, avec des méthodes quantitatives automatisées traitant un grand volume de données; 4) Capacité à extrapoler intuitivement et visuellement à partir de données historiques et de l'expérience professionnelle; 5) Utilisation de l'avantage temporel qui leur permet d'incorporer des nouvelles financières de dernière minute non disponibles pour les méthodes quantitatives. Maintenant, l'examen visuel dans les figures 4, 5 et 6 des résultats apparaissant dans les tableaux 21, 23 et 25 nous a semblé révéler une certaine corrélation entre la performance des analystes et celle des méthodes quantitatives. Il nous est donc apparu intéressant d'examiner le rang par industrie des performances dans les tableaux 22, 24 et 26, et de comparer les rangs des analystes avec ceux des méthodes quantitatives. Quelques éléments intéressants ressortent sur les trois années de l'ensemble de test. De façon générale, il y a corrélation positive entre le rang des industries des analystes et celui de la moyenne de rang des méthodes ensemblistes. L'année 2003 présente la corrélation la plus forte, suivie de 2005 et 2004; 98 Lorsqu'on examine les corrélations pour chacune des méthodes, on remarque qu'aucune méthode n'obtient systématiquement la corrélation la plus élevée avec les rangs des analystes. L'examen révèle aussi une certaine similitude entre les niveaux de corrélations du Bagging et des forêts aléatoires avec les analystes; L'industrie où les analystes performent le mieux, les Services financiers (FINANCE), arrive systématiquement dans les trois premières positions pour les quatre méthodes à base d'arbres sur les trois années; Pour 2003 et 2005, il y a concordance parfaite des industries arrivant dans les trois premières positions entre les analystes et la moyenne de rang des trois méthodes ensemblistes. Pour 2004, il n'y a que l'industrie des Services financiers qui se retrouve à la fois dans les trois premières positions des analystes et de la moyenne des rangs des méthodes ensemblistes; Pour les industries avec EAMP les plus élevées, la concordance est moins observable cependant. Lorsqu'on examine le nombre d'industries dans les trois derniers rangs à la fois chez les analystes et dans les moyennes de rang des méthodes ensemblistes, on a les résultats suivants : deux industries en 2003, une industrie en 2004 et une industrie en 2005; Aussi, malgré les corrélations positives, on doit mentionner les oppositions parfois observées entre les rangs des industries chez les analystes, en comparaison à ceux des méthodes ensemblistes. Par exemple, en 2004, la Consommation (non durables) (CONSND) arrive à l'avant-dernier rang (dixième) chez les analystes alors qu'elle se retrouve au deuxième/troisième rang pour le Bagging et les forêts aléatoires. De façon générale, les corrélations positives observées entre les rangs par industrie des analystes et des méthodes ensemblistes semblent supporter l'hypothèse suivante : dans notre recherche, l'ensemble de variables indépendantes ayant servi à la construction des modèles quantitatifs était toujours le même. Cela, même si un modèle distinct a été construit pour chaque industrie-trimestre à partir de l'ensemble d’entraînement. Comme le rang des performances de prédiction par industrie des analystes est corrélé positivement avec celui des méthodes quantitatives, cela laisse supposer que les analystes ont tendance à utiliser le même ensemble de variables/ratios financiers et économiques, peu importe l'industrie des entreprises étudiées. Cela reste évidemment à démontrer et pourrait faire l'objet de recherches additionnelles. Si c'est le cas, peut-être y aurait-il ici avantage à utiliser un ensemble distinct de variables par industrie pour 99 concevoir les modèles de prévisions des BPA. Cela, autant pour les analystes que pour les méthodes ensemblistes. Finalement, nous nous sommes intéressés à l'analyse des écarts entre les EAP des analystes et des méthodes quantitatives à base d'arbres selon les industries-années de l'ensemble de test. Nous avons construit le tableau 27 où on retrouve la moyenne annuelle des écarts entre les EAP des analystes et ceux de la meilleure méthode quantitative à base d'arbres. Pour chaque année, les trois moyennes les plus basses sont indiquées en vert et les trois plus élevées sont en orange. La figure 7 expose graphiquement ces écarts. Tableau 27 : Moyenne annuelle des écarts d'EAP : Analyste vs meilleure méthode quantitative a Industrie BASIC CAPITAL CONSDUR CONSND CONSSVC ENERGY FINANCE HEALTH TECHNOL TRANSP UTILITY 2003 132.60 73.18 67.53 64.66 66.23 83.35 52.98 43.99 56.27 62.01 63.44 2004 110.15 62.80 71.47 59.35 66.18 71.13 58.68 45.23 49.71 72.80 53.74 2005 74.36 49.80 70.13 48.68 63.38 68.28 62.45 45.87 55.68 61.61 57.67 Figure 7 : Moyenne annuelle des écarts d'EAP : Analyste vs meilleure méthode quantitative Tableau 27, Figure 7 : a FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC : Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports; TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY : Services publics. 100 Les deux meilleures industries du point de vue des écarts sont donc : la Santé (HEALTH) et les Technologies de l'information (TECHNOL), avec respectivement trois et deux moyennes annuelles d'écart se situant parmi les trois les plus réduites dans les onze industries pour les trois années de l'ensemble de test. N.B.: Pour l'année 2005, la moyenne d'écarts des Technologies de l'information (TECHNOL) se classe en quatrième position. Pour les quatre industries suivantes, une seule moyenne d'écarts s'est retrouvée dans les trois premières positions sur les trois années 2003, 2004 et 2005 : Services financiers (FINANCE), Consommation (non durables) (CONSND), Construction/manufacturier (CAPITAL) et Services publics (UTILITY). Ainsi, l'industrie des Services financiers (FINANCE) et celle de la Santé (HEALTH) se retrouvent donc à la fois parmi les industries où les méthodes ensemblistes ont le mieux performé, et où les écarts avec la performance de prévision des analystes ont été le plus réduits. C'est le cas également pour la Consommation (non durables) (CONSND). Cependant, pour cette industrie, notons qu'il n'y a que pour le Bagging et les forêts aléatoires que les résultats ont été parmi les meilleurs chez les méthodes ensemblistes. Fait intéressant, on note que les industries Extraction/transformation (BASIC) et Consommation (durables) (CONSDUR) affichent les écarts parmi les plus grands avec les analystes. Ces deux industries se retrouvent aussi parmi celles où les méthodes quantitatives ont obtenu les moins bonnes performances de prévision. De façon générale, on observe donc un certain lien entre la performance de prévision de BPA trimestriels des méthodes quantitatives, et la performance au niveau de l'écart avec les analystes selon les industries. Ce lien n'est pas systématique cependant. Dans l'ensemble, ces résultats laissent suggérer que ce sont les industries où les écarts sont les plus réduits qui seraient les plus prometteuses quant aux efforts d'amélioration de notre méthodologie à base d'arbres dans des travaux ultérieurs. Cela, dans l'optique de se rapprocher des performances humaines et de pouvoir supporter les analystes financiers dans leur travail de prévision des BPA trimestriels pour ces industries. 101 CHAPITRE 5 - Conclusion et discussion 5.1 Rappel des objectifs de recherche Ce mémoire avait pour sujet la prévision des BPA trimestriels via l'utilisation de méthodes ensemblistes d'exploitation de données. Dans l'historique de recherche, plusieurs études se sont penchées sur l'utilisation de méthodes quantitatives pour la production de prévisions de bénéfices. En raison de la nature non linéaire des données financières, les méthodes de prévision non paramétriques ont évidement attiré l'attention des chercheurs. Les dernières années ont vu plusieurs recherches porter sur l'utilisation de telles méthodes, comme les réseaux neuronaux par exemple, pour tenter de prévoir les bénéfices. Selon nos connaissances cependant, aucune recherche n'a porté sur l'utilisation de méthodes ensemblistes à base d'arbres de régression pour cette fin, et nous avons donc voulu explorer ce domaine de recherche dans cette étude. Nous avions deux objectifs de recherche principaux. Dans un premier temps, nous voulions déterminer par une étude comparative laquelle des méthodes ensemblistes pouvait le mieux prévoir les BPA trimestriels. Nous avions ici comme hypothèse que la méthode des forêts aléatoires se démarquerait des autres. Dans un second temps, dans une optique utilitaire, nous désirions mesurer l'écart entre la performance de prévision des méthodes ensemblistes et celle des analystes financiers. Cela afin de déterminer si ces méthodes, et notre modèle en particulier, permettraient d'obtenir des erreurs de prévision se rapprochant de celles des analystes. Nous avions jugé qu'un écart d'erreur de prévision se situant en deçà de 15 points de pourcentage permettrait aux méthodes ensemblistes de se montrer utiles pour supporter les analystes dans leur travail. Cela, en leur permettant d'une part de valider leurs propres prévisions, et, deuxièmement, en les aidant à distinguer les variables ayant potentiellement le meilleur pouvoir prédictif. 5.2 Rappel de la méthodologie Nous avons utilisé un échantillon comprenant, après traitement et nettoyage, 5 832 entreprises de 13 industries différentes. En raison du faible volume de données de deux d'entres elles, nous avons retenu onze industries. Les variables indépendantes identifiées sont pour la plupart des variations trimestrielles calculées à partir de données de nature financière et économique. Leur nombre s'élève à 167 (164 variations trimestrielles et trois autres variables). De ce nombre, 41 variables ont été retenues pour constituer les modèles quantitatifs en utilisant une méthode de sélection basée sur 102 l'utilisation de forêts aléatoires pour déterminer leur valeur prédictive potentielle avec une mesure d'importance. La période de temps couverte s'étale sur 51 trimestres de 1993-T2 à 2005-T4. Du côté des analystes, 637 911 prévisions de BPA produites par 8 448 analystes ont été utilisées pour calculer leur performance de prédiction. Cela, en utilisant pour chaque trimestre-entreprise, la valeur médiane des prévisions des analystes ayant couvert cette entreprise. Un modèle temporel a été constitué en utilisant les variations trimestrielles des variables pour les quatre trimestres précédant le trimestre de prévision du BPA (exception faite des variables de contrôle et de la variable de la stabilité des rendements) comme variables indépendantes pour la prévision de la variable cible du BPA trimestriel. Les cinq méthodes quantitatives suivantes ont été utilisées pour la conception des modèles qui ont été comparés : la régression linéaire; l'arbre de régression simple; la méthode ensembliste du Bagging; la méthode ensembliste du Boosting; la méthode ensembliste des forêts aléatoires. Les trimestres des trois dernières années de l'échantillon de données (2003, 2004 et 2005) ont constitué l'ensemble de test. Pour chacun de ces trimestres, l'ensemble d'entraînement des modèles a été constitué de tous les trimestres précédents. Afin de comparer la performance de prévision des méthodes quantitatives et des analystes, la mesure de performance de l'EAMP (Erreur Absolue Moyenne de prévision en Pourcentage) a été utilisée. 5.3 Rappels des résultats principaux L'utilisation de forêts aléatoires pour sélectionner un sous-ensemble de variables indépendantes selon leur importance dans ces modèles a permis de souligner l'importance particulière de trois variables. Ainsi, la taille de l'entreprise et les variations de BPA retardées de un et quatre trimestres se sont retrouvées les plus souvent sélectionnées dans les dix variables les plus importantes pour la prévision du BPA trimestriel dans les onze modèles de forêts aléatoires produits (un par industrie) pour la sélection. L'importance des BPA retardées de un et quatre trimestres remarquée dans notre étude supporte Griffin (1977) où un effet de saisonnalité et une absence d'indépendance dans les périodes adjacentes avaient été constatés dans les bénéfices trimestriels. 103 L'évaluation et la comparaison de la performance des méthodes quantitatives entre elles ont permis de déterminer deux choses. Premièrement, les méthodes d'ensembles ont démontré une performance de prévision supérieure à la régression linéaire pour la plupart des industries-trimestres. Deuxièmement, parmi les méthodes ensemblistes, les forêts aléatoires ont dominé pour la plupart des industries, sauf deux : la Santé (HEALTH) et la Technologie (TECHNOL), où c'est plutôt le Boosting qui produit presque systématiquement les meilleures prévisions selon le critère de l'EAMP trimestrielle. Ces deux résultats (supériorité des méthodes ensemblistes et particulièrement des forêts aléatoires) confirment nos hypothèses de départ. Globalement, les méthodes ensemblistes ont produit les meilleurs résultats pour les deux industries suivantes sur les trois années de l'ensemble de test : les Services financiers (FINANCE) et la Santé (HEALTH). Les moins bons résultats ont été obtenus pour les industries de l'Extraction/Transformation (BASIC) et des Services publics (UTILITY). La comparaison avec les prévisions des analystes démontre, dans un premier temps, la nette dominance de ceux-ci sur les résultats obtenus avec notre méthodologie. Ainsi, la comparaison des EAMP annuelles montre un écart minimum de 41.06 points de pourcentage entre les analystes et la meilleure méthode quantitative pour une industrie (2003, Santé). Cela nous place donc loin de l'objectif espéré d'un écart de 15% ou moins pour permettre l'utilisation des méthodes ensemblistes comme outil de validation intéressant pour la prévision des BPA trimestriels. Dans un deuxième temps, nous avons tout de même pu observer un fait intéressant : Il existe une corrélation positive entre la performance de prévision par industrie des analystes, et celle des méthodes quantitatives à base d'arbres. Le niveau de corrélation montré par les méthodes individuellement et par les moyennes de rang des méthodes ensemblistes dépasse régulièrement 0.5 sur les trois années de l'ensemble de test. Finalement, l'analyse des moyennes annuelles des écarts entre les EAP des méthodes et des analystes indique que les industries suivantes ont été celles où la performance de prévision s'est le plus rapprochée de celle des analystes : la Santé (HEALTH) et les Technologies de l'information (TECHNOL). 104 5.4 Apports de l'étude Les apports de notre étude dans le domaine des prévisions de bénéfices ont été les suivants : Utilisation, possiblement pour la première fois, de méthodes ensemblistes à base d'arbres de régression pour produire des prévisions de BPA trimestriels; Mesure de la performance de prévision des méthodes ensemblistes dans un contexte d'utilisation de variations trimestrielles de variables financières et économiques sur un horizon de temps court (un an et moins). Nous croyons que la méthodologie utilisée dans cette recherche se démarque de la majorité des recherches dans la littérature par l'utilisation de variations trimestrielles en pourcentage de variables financières et économiques, plutôt que des valeurs des variables. Nous pensons que les variations dans les ratios, en plus des valeurs des ratios elles-mêmes, auraient intérêt à être davantage utilisées dans les modèles prédictifs concernant les bénéfices; La taille de l'échantillon utilisé, couvrant 5 832 entreprises et 8 448 analystes sur une période de douze ans (1993-2005), se compare avantageusement à d'autres études similaires portant sur la prévision des bénéfices; Observation additionnelle du faible apport des variables macro-économiques sur un horizon de temps court inférieur à un an, comme cela a été observé dans d'autres études, notamment Fridson, Garman et Wu (1997), et Lemieux (2004); Notre étude ajoute un autre domaine de prévision où les méthodes non paramétriques performent mieux que la méthode paramétrique de la régression linéaire. Cela, fort possiblement en raison de la nature non linéaire des données financières; Malgré quelques exceptions, cette étude souligne la supériorité de la méthode ensembliste des forêts aléatoires sur les autres méthodes ensemblistes à base d'arbres de régression, et vient s'ajouter aux études qui ont constaté les mêmes résultats; Nous avons pu établir que les méthodes ensemblistes produisent régulièrement les meilleurs/moins bons résultats parmi les mêmes quelques industries; Notre étude a permis de souligner une similarité intéressante entre les performances de prévisions des analystes et celles des méthodes quantitatives. 105 5.5 Limites de l'étude Nous devons souligner les limites suivantes dans notre recherche qui doivent être prises en considération dans l'interprétation des résultats : Nous nous sommes servis des données apparaissant directement dans les états financiers pour le calcul des ratios financiers. Ces données n'ont pas été ajustées avec les informations apparaissant souvent dans les notes de bas de page, comme il est préférable de le faire pour tenir compte d'éléments particuliers extraordinaires (ex.: dépenses/revenus non récurrents). Cependant, cet ajustement doit être fait au cas par cas et demande un jugement subjectif critique qui peut difficilement être appliqué dans un contexte de traitement quantitatif en lot. En conséquence, les données des états financiers peuvent ne pas avoir été optimales pour la prévision des BPA; Lors de l'étape de la préparation des données, l'analyse des données des BPA (prévus et réalisés) récupérées du fournisseur IBES a révélé la présence d'erreurs dans les données. Ainsi, les clés primaires de deux fichiers de données n'étaient pas fonctionnelles et retournaient des enregistrements en double. Cela, en raison d'enregistrements erronés, d'enregistrements dédoublés ou de perte d'information dans un champ de la clé primaire. Nous avons pu contourner ces problèmes sans que cela affecte la qualité des données. Cependant, il est possible que d'autres erreurs non détectées aient pu affecter la qualité des données provenant de cette source; Lors de l'étape de la sélection du sous-ensemble de variables, nous n'avons pas procédé itérativement en testant plusieurs modèles composés d'un nombre variable de variables indépendantes afin de sélectionner un modèle réduit optimal. Cela a été fait dans Genuer, Poggi et Tuleau-Malot (2010) par exemple. Cela, en raison du temps de calcul que cela aurait nécessité vu la taille de notre échantillon de données. Un travail ultérieur aurait intérêt à utiliser cette procédure; Il se peut que la performance de la méthode de la régression linéaire ait été affectée par des violations d'une ou de plusieurs des hypothèses fondamentales. Ainsi, il est possible qu'il y ait eu présence d'hétéroscédasticité dans les données, ce que nous n'avons pas testé dans ce travail; En général, les valeurs des paramètres des méthodes à base d'arbres (ex.: profondeur des arbres, nombre d'arbres utilisés dans les ensembles, etc.) ont été 106 déterminées arbitrairement, ou sommairement, après des tests de comparaison de performance dont les résultats n'apparaissent pas dans ce mémoire. Pour certains paramètres, nous nous sommes inspirés de valeurs utilisées dans la littérature. Cependant, les valeurs de paramètres utilisées ici ne sont pas forcément optimales. 5.6 Ouvertures Les voies intéressantes pour des recherches futures seraient : Utilisation d'autres écarts de variations pour les variables indépendantes : Ce mémoire visait, entre autres, à vérifier le pouvoir prédictif de variables trimestrielles sur un horizon court d'un an. Cependant, il serait intéressant d'ajouter des variations retardées semestrielles ou annuelles dans les modèles en utilisant les variables financières et économiques de base sélectionnées dans ce mémoire. Cela, afin de mesurer leur effet sur la qualité des prévisions et de comparer l'importance des horizons de variations sur la prévision. Cela serait intéressant, entre autres, pour vérifier si les variables économiques prennent davantage d'importance avec l'allongement de l'écart de variation; Utilisation d'horizons prévisionnels plus longs séparant la variable cible et les variables indépendantes : Cela permettrait de vérifier s'il y a augmentation du pouvoir prévisionnel des variables sur un plus long horizon, particulièrement les variables économiques. Dans l'affirmative pour les variables économiques, cela permettrait de valider cette constatation observée chez Lemieux (2004) et Fridson, Garman et Wu (1997); Utilisations de variables explicatives additionnelles : Plusieurs autres variables prédictives non utilisées dans cette recherche, autant quantitatives que qualitatives, auraient été intéressantes à utiliser dans un contexte de prévision des BPA. Du coté quantitatif, un exemple serait la variation passée à court et moyen terme des parts de marché des entreprises. Également, l'utilisation des prévisions des analystes eux-mêmes avec d'autres variables quantitatives dans les modèles prédictifs serait prometteuse. Ainsi, par exemple, Guerard (1989) obtient une erreur moyenne de prévision moindre en utilisant un modèle de régression linéaire combinant une prévision consensuelle d'analystes 107 avec une prévision produite par un modèle de série temporelle, en comparaison avec des modèles utilisant l'une ou l'autre des prévisions uniquement; Du côté qualitatif, tel que proposé par Belhouari (2005), le style de gestion de la haute direction serait intéressant à intégrer; Utilisation directe des valeurs des variables : Dans la plupart des recherches, la valeur directe des variables est utilisée. Dans ce travail, nous nous sommes concentrés sur les variations de valeur en pourcentage afin de vérifier leur valeur prédictive. Il serait néanmoins informatif d'utiliser une combinaison des deux dans un modèle prédictif afin de comparer la contribution des deux groupes dans les modèles, notamment en utilisant la fonction importance utilisée dans ce travail pour la sélection du sous-ensemble de variables. En particulier, l'utilisation de la valeur directe des BPA trimestriels de la dernière année parmi les variables indépendantes aurait possiblement pu améliorer la performance de prévision de nos modèles; Combinaison des résultats de plusieurs méthodes ensemblistes : Suivant la théorie des méthodes ensemblistes, la combinaison des prévisions de plusieurs modèles ensemblistes pourrait probablement améliorer les prévisions produites; Paramètres des méthodes à base d'arbres : Il est fort probable que l'expérimentation avec d'autres valeurs de paramètres (ex.: fonctions de perte et taux d'apprentissage pour le Boosting, profondeur maximale des arbres des ensembles) permettrait de déterminer des combinaisons plus optimales. Aussi, il serait intéressant de déterminer si certaines valeurs de paramètres sont plus appropriées à des industries particulières; Recherches additionnelles sur les résultats de ce mémoire : Deux des résultats observés dans ce travail mériteraient particulièrement une recherche plus approfondie. Ainsi, il serait important d'expliquer pourquoi les BPA de certaines industries sont régulièrement mieux (ou moins bien) prévus par les méthodes ensemblistes comparés à d'autres. Aussi, la recherche des facteurs expliquant le lien qui semble exister entre les industries d'une part, et l'amplitude des écarts entre les prévisions des méthodes ensemblistes et celles des analystes pour chacune d'elles d'autre part, pourrait ouvrir la voie à des 108 améliorations méthodologiques dans l'utilisation des méthodes ensemblistes pour la prévision des bénéfices. 109 ANNEXES A. Statistiques descriptives des variables indépendantes Tableau 28 : Statistiques descriptives des variables indépendantes Ce tableau présente les statistiques descriptives des 41 variables indépendantes sélectionnées pour la construction des modèles. La période de temps s'étend sur 51 trimestres de 1993-T2 à 2005-T4 et comprend 100 422 enregistrements. Les statistiques ont été calculées sur les données des variables sans remplacement des données manquantes. 1er 3e a Variable Min. quartile Médiane Moyenne quartile Max. Écart-type -1.74 0.27 1.01 0.86 1.40 2.86 0.96 ejlead_vq1l -15.67 -0.33 2.71 2.25 6.93 16.70 6.99 eu0m1_vq1l -1 428 167.74 -27.07 4.29 -32.07 40.50 663 700.00 6 616.33 fben_vq1l -1 428 167.74 -26.86 4.41 -31.21 41.55 340 264.29 5 637.27 fben_vq2l -1 428 167.74 -27.03 4.36 -32.86 41.54 340 264.29 5 601.29 fben_vq3l -1 428 167.74 -26.71 4.62 -30.55 42.51 342 700.00 5 728.22 fben_vq4l -102 710.00 -1.39 0.00 1.54 1.89 20 308.16 387.48 fcapb_vq1l -102 710.00 -1.38 0.00 4.96 1.98 39 916.67 452.35 fcapb_vq2l -102 710.00 -1.39 0.01 8.75 2.05 166 400.00 714.05 fcapb_vq3l -102 710.00 -1.35 0.01 8.90 2.12 166 400.00 721.32 fcapb_vq4l -200.00 -8.24 -0.18 38.58 2.34 318 100.00 1 758.57 fcapx_vq1l -200.00 -9.13 -0.18 50.20 2.20 318 100.00 2 042.74 fcapx_vq4l -95.49 -10.36 2.20 18.31 15.22 786 566.67 2 691.79 fcote_vq1l -97.89 -10.12 2.40 20.79 15.49 786 566.67 2 779.74 fcote_vq2l -100.00 -2.31 -0.02 2.71 2.96 13 454.55 56.69 fdett_vq1l -100.00 -2.43 -0.03 2.52 2.91 15 584.62 74.34 fdett_vq2l -100.00 -2.51 -0.04 2.51 2.85 15 584.62 81.79 fdett_vq3l -100.00 -2.53 -0.05 2.69 2.83 15 584.62 84.81 fdett_vq4l -48 300.00 -17.03 3.96 9.50 27.50 13 846.15 377.57 feps_vq1l -48 300.00 -16.67 4.00 11.60 27.81 48 700.00 404.59 feps_vq2l -48 300.00 -16.98 3.85 11.37 27.27 48 700.00 411.28 feps_vq3l -48 300.00 -16.47 4.09 12.19 28.00 48 700.00 432.83 feps_vq4l -17.54 -2.45 2.03 2.03 8.00 21.74 8.53 ficos_vq1l -109 550.00 -7.15 2.74 12.04 13.30 289 780.00 1 093.98 fmb_vq1l -109 550.00 -7.24 2.80 14.54 13.58 289 780.00 1 139.04 fmb_vq2l -109 550.00 -7.34 2.75 14.66 13.70 289 780.00 1 178.17 fmb_vq3l -109 550.00 -7.02 2.92 16.65 14.02 289 780.00 1 172.22 fmb_vq4l -58 300.00 -4.82 1.85 0.56 9.02 93 000.00 576.47 fprocu_vq1l -58 300.00 -4.84 1.89 2.14 9.32 93 000.00 567.91 fprocu_vq2l -43 300.00 -4.80 1.93 2.32 9.48 93 000.00 554.59 fprocu_vq3l -238 600.00 -4.67 2.00 -1.21 9.64 93 000.00 1 005.57 fprocu_vq4l -5 907.37 -1.86 0.75 2.51 3.62 31 272.00 126.55 fprod_vq1l -5 907.37 -1.84 0.80 2.76 3.79 31 272.00 124.73 fprod_vq2l -136.48 -6.18 2.20 21.99 11.40 292 825.00 1 373.13 frec_vq3l -547 400.00 -27.61 0.68 -12.91 34.05 85 800.00 2 584.04 froa_vq1l -124 500.00 -27.25 0.92 -6.03 35.04 57 900.00 1 585.96 froa_vq4l -878.21 -6.26 0.43 7.96 7.60 42 350.00 262.71 frota_vq1l -878.21 -6.45 0.40 7.96 7.74 42 350.00 262.75 frota_vq2l -878.21 -6.48 0.38 8.37 7.81 42 350.00 253.43 frota_vq4l 0.00 0.01 0.03 0.06 0.06 29.57 0.24 fstar -1.01 4.92 6.32 6.40 7.70 14.25 1.99 ftaille_q1l a ejlead : Indicateur composite avancé; eu0m1 : Indice S&P 500; fben : Bénéfice; fcapb : Capitalisation boursière; fcapx : Ratio de dépenses d'équipement; fcote : Cours du titre de l'entreprise; fdett : Ratio d'endettement; feps : Bénéfice par action; ficos : Indice S&P 500 Secteur : Consommation courante; fmb : Ratio de marge brute; fprocu : Profitabilité cumulative; fprod : Ratio de productivité; frec : Ratio de comptes recevables; froa : Rendement de l'actif; frota : Ratio de rotation de l'actif; fstar : Stabilité des rendements; ftaille : Taille de l'entreprise. 110 B. Algorithme : Imputation multivariée par équations chainées En résumé, l'algorithme fonctionne de la manière suivante : 1) Pour chaque valeur manquante des variables incomplètes, une valeur est sélectionnée aléatoirement parmi les valeurs observées de cette variable; 2) Dans l'ensemble de données, pour chaque variable comportant des valeurs manquantes, de gauche à droite : 2.1) Un sous-ensemble est constitué des valeurs des variables autres que la variable , et est purgé des variables linéairement dépendantes si il y en a 2.2) Un vecteur est constitué des valeurs de la variable 2.3) Des paramètres bêta-étoile ( ) et des coefficients sont estimés de la façon suivante (voir Rubin (1987, p.168, équations a et b)) : où : = = = = = valeurs générées aléatoirement à partir d'une distribution gamma, avec paramètre de forme et paramètre d'échelle égal à un nombre d'enregistrements de l'ensemble de données sans valeur manquante pour la variable nombre de variables autres que la variable factorisation de Choleski d'une matrice symétrique positive définitive ( ) valeurs générées aléatoirement à partir d'une distribution normale À cette étape, les valeurs déterminées aléatoirement à l'étape 1 sont utilisées temporairement pour remplacer les valeurs manquantes afin de pouvoir effectuer l'estimation; 2.4) Les valeurs prédites de la variable pour les enregistrements sans valeurs manquantes (vecteur ), et avec valeurs manquantes (vecteur ) sont calculées de la façon suivante : 111 où : = = enregistrements du sous-ensemble manquante pour la variable enregistrements du sous-ensemble manquante pour la variable sans valeur avec valeur 2.5) Pour chaque valeur manquante dans le vecteur , la valeur observée correspondante à la valeur prédite du vecteur la plus près de est sélectionnée pour le remplacement. La distance est calculée en prenant la valeur absolue de la différence : . C. Logiciels utilisés Base de données : MySQL Version 5.1 pour Windows Vista; Composantes serveur : Serveur : MySQL Version 5.1.39-community via TCP/IP; Composantes client : Client Version : MySQL Client Version 5.1.11; Outil d'administration : MySQL Administrator Version 1.2.17; Régression linéaire, arbre de régression simple et méthodes ensemblistes : R Version 2.11. 112 BIBLIOGRAPHIE ABARBANELL, J.S. et B.J. BUSHEE (1998). « Abnormal returns to a fundamental analysis strategy », The Accounting Review, vol. 73, no. 1, p. 19-45. AKERS, Michael D., Jodi L. BELLOVARY et Don E. GIACOMINO (2007). « A review of bankruptcy prediction studies: 1930 to present », Journal of Financial Education, vol. 33, p. 1-42. ALEXANDER, John C. (1995). « Refining the degree of earnings surprise: A comparison of statistical and analysts' forecasts », The Financial Review, vol. 30, no. 3, p. 469-506. ALTMAN, Edward I. (1968). « Financial ratios, discriminant analysis and predicting of corporate bankruptcy », The Journal of Finance, vol. 23, no. 4, p. 589-609. ALTMAN, Edward I., Robert G. HALDEMAN et P. NARAYANAN (1977). « ZETA analysis: A new model to identify bankruptcy risk of corporations », Journal of Banking and Finance, vol. 1, p. 29-54. ANDREESCU, Andrea (2004). Forecasting corporate earnings: A data mining approach, mémoire de maîtrise, Vaasa, The Swedish School of Economics and Business Administration, 151 p. ARMSTRONG, J. Scott (2001). Principles of forecasting: A handbook for researchers and practitioners, Boston, Kluwer Academic Publishers, 849 p. ATKINSON, Beth, Terry M. THERNEAU et Brian RIPLEY (2010). rpart: Recursive partitioning, R package version 3.1.46. BAUER, Eric et Ron KOHAVI (1999). « An empirical comparison of voting classification algorithms: Bagging, boosting, and variants », Machine Learning, vol. 36, p. 105-139. BEAVER, W. (1966). « Financial ratios as predictors of failure ». Journal of Accounting Research, vol. 5, p. 71-111. BELHOUARI, Adil (2005). Techniques du data mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit, mémoire de maîtrise, Montréal, HEC Montréal, 115 p. BEN ISHAK, Anis et Badih GHATTAS (2008). « Sélection de variables pour la classification binaire en grande dimension : Comparaisons et application aux données de biopuces », Journal de la Société Française de Statistiques, tome 149, no. 3, p. 4366. BENEISH, M.D., C.M.C. LEE et R.L. TARPLEY (2001). « Contextual fundamental analysis through the prediction of extreme returns », Review of Accounting Studies, vol. 6, nos. 2, 3, p. 165-189. BERNHARDT, Dan et Edward KUTSOATI (1999). Can relative performance compensation explain analysts' forecasts of earnings?, Discussion Paper 99-09, Department of Economics, Tufts University, 35 p. 113 BIAU, G., L. DEVROYE et G. LUGOSI (2008). « Consistency of random forests and their averaging classifiers », Journal of Machine Learning Research, vol. 9, p. 2015-2033. BRADSHAW, Mark T. et Richard G. SLOAN (2002). « GAAP versus The Street: An empirical assessment of two alternative definitions of earnings », Journal of Accounting Research, vol. 40, no. 1, p. 41-66. BREIMAN, Leo, J. FRIEDMAN, R. OLSHEN et C. STONE (1984). Classification and regression trees, Belmont, Wadsworth International Group, 358 p. BREIMAN, Leo (1996). « Bagging predictors », Machine Learning, vol. 24, p. 123-140. BREIMAN, Leo (1998). « Arcing classifiers », Annals of Statistics, vol. 26, no. 2, p. 801849. BREIMAN, Leo (2001). « Random forests », Machine Learning, vol. 45, p. 5-32. BREIMAN, Leo, Adele CUTLER, Andy LIAW et Matthew WIENER (2010). randomForest: Breiman and Cutler's random forests for classification and regression, R package version 4.5-36. BROWN, Lawrence D. et Michael S. ROZEFF (1979). « Univariate time series models of quarterly accounting earnings per share: A proposed model », Journal of Accounting Research, vol. 17, p. 179-189. BROWN, Lawrence D., Robert L. HAGERMAN, Paul A. GRIFFIN et Mark E. ZMIJEWSKI (1987). « Security analyst superiority relative to univariate time-series models in forecasting quarterly earnings », Journal of Accounting and Economics, vol. 9, no. 1, p. 61-87. BROWN, Lawrence D. (2001). « How important is past analyst forecast accuracy? », Financial Analysts Journal, vol. 57, no. 6, p. 44-49. BROWN, Lawrence D. et Emad MOHAMMAD (2003). « The predictive value of analyst characteristics », Journal of Accounting, Auditing and Finance, vol. 18, no. 4, p. 625-647. BRYLL, Robert, Ricardo GUTIERREZ-OSUNA et Francis QUEK (2003). « Attribute bagging: Improving accuracy of classifier ensembles by using random feature subsets », Pattern Recognition, vol. 36, no. 6, p. 1291-1302. CALLEN, J.L., C.C.Y. KWAN et P.C.Y. YIP (1994). « Non-linearity testing of quarterly accounting earnings », Working paper, Vincent C. Ross Institute, New York University. CALLEN, J.L., C.C.Y. KWAN, P.C.Y. YIP et Y. YUFEI (1996). « Neural network forecasting of quarterly accounting earnings », International Journal of Forecasting, vol. 12, p. 475-482. CAO Q., M. SCHNIEDERJANS et W. ZHANG (2004). « Neural network earnings per share forecasting models: A comparative analysis of alternative methods », Decision Sciences, vol. 35, no. 2, p. 205-237. 114 CAO Q. et Mark E. PARRY (2009). « Neural network earnings per share forecasting models: A comparison of backward propagation and the genetic algorithm », Decision Support Systems, vol. 47, no. 1, p. 32-41. CREAMER, Germàn et Sal STOLFO (2009). « A link mining algorithm for earnings forecast », Data Mining and Knowledge Discovery, vol. 18, no. 3, p. 419-445. CUTLER, Richard D., Thomas C. EDWARDS Jr., Karen H. BEARD, Adele CUTLER, Kyle T. HESS, Jacob GIBSON et Joshua J. LAWLER (2007). « Random forests for classification in ecology », Ecology, vol. 88, no. 11, p. 2783-2792. DAMODARAN, Aswath (2006). Finance d'entreprise : Théorie et pratique, 2e éd. (version française de Corporate finance. Theory and practice, 2001, 2e éd. américaine, trad. sous la direction de Gérard Hirigoyen), Bruxelles, Éditions De Boeck Université, 1352 p. DHAR, Vasant et Dashin CHOU (2001). « A comparison of nonlinear methods for predicting earnings surprises and returns », IEEE Transactions On Neural Networks, vol. 12, no. 4, p. 907-921. DIAZ-URIARTE, Ramon et Sara ALVAREZ DE ANDRES (2006). « Gene selection and classification of microarray data using random forest », BMC Bioinformatics, vol. 7, no. 3. <http://www.biomedcentral.com/1471-2105/7/3>. DIETTERICH, T.G. (2000). « Ensemble methods in machine learning », Lecture Notes in Computer Science, vol. 1857, p. 1-15. DUNHAM, Margaret H. (2003). Data mining introductory and advanced topics, Upper Saddle River (New Jersey), Pearson Education Inc., 315 p. EASTERWOOD, John C. et Stacey R. NUTT (1999). « Inefficiency in analysts' earnings forecasts: Systematic misreaction or systematic optimism? », Journal of Finance, vol. 54, no. 5 (octobre), p. 1777-1797. Équipe de développement R et divers contributeurs (2010). stats: The R stats package, R package version 2.11. FAIRFIELD, Patricia M., Sundaresh RAMNATH et Teri L. YOHN (2009). « Do industrylevel analyses improve forecasts of financial performance? », Journal of Accounting Research, vol. 47, no. 1, p.147-178. FAMA, Eugene F. et Kenneth R. FRENCH (2000). « Forecasting profitability and earnings », The Journal of Business, vol. 73, no. 2, p. 161-175. FOSTER, George (1977). « Quarterly accounting data: Time series properties and predictive ability results », The Accounting Review, vol. 52, p. 1-21. FOSTER, George (1986). Financial statement analysis, 2e éd., Englewood Cliffs, Prentice Hall, 625 p. 115 FREUND,Y. et R.E. SCHAPIRE (1996). « Experiments with a new boosting algorithm ». Machine Learning: Proceedings of the Thirteenth International Conference, Morgan Kauffman, San Francisco, p. 148-156. FREUND,Y. et R.E. SCHAPIRE (1997). « A decision-theoretic generalization of online learning and an application to boosting », Journal of Computer and System Sciences, vol. 55, no. 1, p. 119-139. FRIDSON, Martin S., M. Christopher GARMAN et Sheng WU (1997). « Real interest rates and the default rate on high-yield bonds », The Journal of Fixed Income, vol. 7, no. 2, p. 29-34. FRIEDMAN, J.H., T. HASTIE et R. TIBSHIRANI (2000). « Additive logistic regression: A statistical view of boosting », Annals of Statistics, vol. 28, no. 2, p. 337-374. FRIEDMAN, J.H. (2001). « Greedy function approximation: A gradient boosting machine », Annals of Statistics, vol. 29, no. 5, p. 1189-1232. FRIEDMAN, J.H. (2002). « Stochastic gradient boosting », Computational Statistics and Data Analysis, vol. 38, no. 4, p. 367-378. FRIEDMAN, J.H. et Bodgan E. POPESCU (2003). Importance sampled learning ensembles, Technical Report, Dept. Statistics, Stanford University. FRIEDMAN, J.H. et Bodgan E. POPESCU (2004). Gradient directed regularization for linear regression and classification, Technical Report, Dept. Statistics, Stanford University. FRIEDMAN, J.H. et Bodgan E. POPESCU (2005). Predictive learning via rule ensembles, Technical Report, Dept. Statistics, Stanford University. GENUER, Robin, Jean-Michel POGGI et Christine TULEAU-MALOT (2010). « Variable selection using random forests », Pattern Recognition Letters, vol. 31, no 14, p. 22252236. GIOT, Pierre (2002). « Implied volatility indices as leading indicators of stock index returns ? », CORE Discussion Paper, no. 2002/50, p. 5-32. GRIFFIN, Paul A. (1977). « The time-series behavior of quarterly earnings: Preliminary evidence », Journal of Accounting Research ,vol. 15, no. 1, pp. 71-83. GUERARD, John B. (1989). « Combining time-series model forecasts and analysts' forecasts for superior forecasts of annual earnings », Financial Analysts Journal, vol. 45, no. 1 (Jan. - Feb., 1989), p. 69-71. HAMZA, Mounir et Denis LAROCQUE (2005). « An empirical comparison of ensemble methods based on classification trees », Journal of Statistical Computation and Simulation, vol. 75, p. 629-643. HAN, Jiawei et Micheline KAMBER (2006). Data mining concepts and techniques, 2e éd., San Francisco, Morgan Kaufman Publishers Inc., 770 p. 116 HANSEN, Lars Kai et Peter SALAMON (1990). « Neural network ensembles », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 12, p. 993-1001. HILL, T., L. MARQUEZ, M. O'CONNER et W. REMUS (1994), « Artificial neural network models for forecasting and decision making », International Journal of Forecasting, vol. 10, p. 5-15. HOTHORN, Torsten et Andrea PETERS (2009). ipred: Improved predictors, R package version 0.8-8. HUNT, Earl. B., Janet MARIN et Philip J. STONE (1966). Experiments in induction, Academic Press, New York, 247 p. KASS, G.V. (1980). « An exploratory technique for investigating large quantities of categorical data », Applied Statistics, vol. 29, no. 2, p. 119-127. KROSS, William, Byung RO et Douglas SCHROEDER (1990). « Earnings expectations: The analysts’ information advantage », The Accounting Review, vol. 65, no. 2, p. 461476. LABARRE, Mélanie (2003). Comparaison de méthodes ensemblistes, mémoire de maîtrise, Montréal, HEC Montréal, 69 p. LAWRENCE, Michael, Paul GOODWIN, Marcus O’CONNOR et Dilek ONKAL (2006). « Judgmental forecasting: A review of progress over the last 25 years », International Journal of Forecasting, vol. 22, p. 493-518. LEMIEUX, Pierre (2004). Caractère cyclique du risque de crédit dans un contexte canadien : Prévision du taux de faillite commerciale au moyen de variables macroéconomiques, mémoire de maîtrise, Montréal, HEC Montréal, 84 p. LITTLE, R.J.A. (1988). « Missing data adjustments in large surveys », Journal of Business & Economic Statistics, vol. 6, no. 3, p. 287-301. LOBO, G.J. et R.D. NAIR (1990). « Combining judgmental and statistical forecasts: an application to earnings forecasts », Decision Sciences, vol. 21, no. 2, p. 446-460. LOBO, G. J. (1992). « Analysis and comparison of financial analysts’, times series, and combined forecasts of annual earnings », Journal of Business Research, vol. 24, no. 3, p. 269-280. MELVILLE, Prem et Raymond J. MOONEY (2003). « Constructing diverse classifier ensembles using artificial training examples », Proceedings of the IJCAI 2003, p. 505512. MORGAN, J.N. et J.A. SONQUIST (1963). « Problems in the analysis of survey data, and a proposal », Journal of the American Statistical Association, vol. 58, no. 302, p. 415-434. 117 PAGASH, Donald P., Barbara A. CHANEY et Bruce C. BRANSON (2003). « A note on earnings forecast source superiority », The Journal of Applied Business Research, vol. 19, no. 3, p. 75-87. PAYNE, Jeff L., et Wayne B. THOMAS (2003). « The implications of using stock-split adjusted I/B/E/S data in empirical research », The Accounting Review, vol. 78, no. 4 (Oct., 2003), p. 1049-1067. QUINLAN, John Ross (1986). « Induction of decision trees », Machine Learning, no. 1, p. 81-106. QUINLAN, John Ross (1993). C4.5: Programs for machine learning, San Francisco, Morgan Kaufman Publishers Inc., 302 p. QUINLAN, John Ross (1996). « Bagging, boosting, and C4.5 », Proceedings of the Thirteenth National Conference on Artificial Intelligence, AAAI Press and the MIT Press, p. 725-730. R (2010). version 2.11.0 (2010-04-22) [logiciel], The R Foundation For Statistical Computing. RIDGEWAY, Greg (2010). gbm: Generalized Boosted Regression Models, R package version 1.6-3.1. ROKASH, Lior et Oded MAIMON (2008). Data mining with decision trees: Theory and applications, Singapore, World Scientific Publishing Co. Pte. Ltd., 244 p. ROKASH, Lior (2009). « Taxonomy for characterizing ensemble methods in classification tasks: A review and annotated bibliography », Computational Statistics and Data Analysis, vol. 53, no. 12, p. 4046-4072. ROSS, Stephen A., Randolph W. WESTERFIELD, Bradford D. JORDAN et Gordon S. ROBERTS (2007). Fundamentals of corporate finance, 6e éd. canadienne, New-York, McGraw-Hill, 834 p. RUBIN, Donald B. (1987). Multiple imputation for nonresponse in surveys, New York, Wiley, 291 p. RUBIN, Donald B. (1996). « Multiple imputation after 18+ Years », Journal of the American Statistical Association, vol. 91, no. 434, p. 473-489. SANDERS, N. R. et K. B. MANRODT (2003). « The efficacy of using judgmental versus quantitative forecasting methods in practice », Omega, vol. 31, p. 511-522. SENI, Giovanni et John ELDER (2010). Ensemble methods in data mining: Improving accuracy through combining predictions, Chicago, Morgan & Claypool Publishers, Synthesis Lectures On Data Mining And Knowledge Discovery, 108 p. SIROKY, David S. (2009). « Navigating random forests and related advances in algorithmic modeling », Statistics Surveys, vol. 3, p. 147-163. 118 SOSVILLA-RIVERO, Simon et Pedro RODRIGUEZ (2010). « Linkages in international stock markets: Evidence from a classification procedure », Applied Economics, vol. 42, no. 16, p. 2081-2089. STROBL, C., A. BOULESTEIX, A. ZEILEIS et T. HOTHORN (2007). « Bias in random forest variable importance measures: Illustrations, sources and a solution », BMC Bioinformatics, vol. 8, no. 25. <http://www.biomedcentral.com/1471-2105/8/25/abstract>. VAN BUUREN S. et K. GROOTHUIS-OUDSHOORN (2009). « MICE: Multivariate imputation by chained equations in R », Journal of Statistical Software, vol. 10, no. 2, p. 1-68. WATTS, R. (1975). « The time series behavior of quarterly earnings », Working paper, University of Newcastle, UK.