Untitled - HEC Montréal

Transcription

Untitled - HEC Montréal
HEC MONTRÉAL
La prévision des bénéfices : Comparaison des résultats des méthodes
ensemblistes avec les prévisions des analystes financiers
par
Stéphane Messier
Sciences de la gestion
(Finance)
Mémoire présenté en vue de l’obtention
du grade de maîtrise ès sciences
(M. Sc.)
Septembre 2012
© Stéphane Messier, 2012
{{ËC HONTREAL
afflliée à I'Unlverslté de Montréal
DÉcLARATIoN
DEL,ÉTUDIANT
DEL,ÉTUDIANTH,
ÉrnnuEENREcHERcHE
DEsÊrnrs HuMAtNs
AUpRÈs
Recherchesans collectedirected'informations
Cette recherchen'impliquaitpas une collectedirected'informations
auprèsde
personnes(exemples: entrevues,questionnaires,
groupes
appelstéléphoniques,
de discussion,tests, observationsparticipantes,communicationsécrites ou
électroniques,
etc.)
Cette recherchen'impliquaitpas une consultation
de documents,de dossiersou
de banquesde donnéesexistantsqui ne font pas partiedu domainepublicet qui
contiennent
des informations
sur des personnes.
Titrede la
recherche:
LAPRÉVISION
DESBÉNÉFICES:COMPARAISON
DESRÉSULTATS
DES
MÉTHODES
ENSEMBLISTES
AVEcLEsPRÉVISIoNs
DEsANALYSTES
FINANCIERS
Nornde l'étudiant: STÉpHANE
MEsstER
Signature:
Date:
tr / tr / €ûo{
- Fév.2A07- Formulaire
Dlrectlon
admlnlstratlve
décleration
del'étudlant-sans.doc
ii
SOMMAIRE
La prévision des bénéfices est un exercice demandant la prise en compte de plusieurs
données, autant financières qu'économiques. La quantité et la complexité de ces
informations sont toujours croissantes. Le domaine de la prévision des bénéfices
pourrait potentiellement tirer profit des avantages des méthodologies de l'exploitation de
données (« Data Mining ») pour le traitement de larges volumes de données. Plus
précisément, l'utilisation d'arbres de régression et des méthodologies ensemblistes
utilisant ceux-ci pourrait contribuer à supporter les analystes financiers dans leur
production de prévisions de bénéfices. Ainsi, ce mémoire a comme premier objectif la
production de prévisions de bénéfice par action (BPA) trimestriel. Ces prévisions sont
produites avec les méthodes quantitatives suivantes : la régression linéaire, l'arbre de
régression simple et les méthodologies ensemblistes du Boosting, du Bagging et des
forêts aléatoires. Cela, pour les entreprises de onze industries différentes. Un deuxième
objectif est la comparaison de la précision de ces prévisions avec celles produites par
les analystes et publiées dans la base de données IBES. Les résultats montrent une
prédominance de la méthode des forêts aléatoires sur les autres méthodes
quantitatives. La comparaison avec la précision des prévisions des analystes montre
que ceux-ci détiennent toujours un avantage sur les méthodes ensemblistes. En effet,
pour toutes les industries, l'erreur absolue moyenne de prévision en pourcentage
(EAMP) des analystes est systématiquement inférieure à celle de la meilleure méthode
ensembliste pour la totalité des données des trimestres de l'ensemble de test.
Cependant, les résultats obtenus montrent l'utilité des méthodes ensemblistes pour
déterminer les variables les plus prédictives pour la prévision des BPA trimestriels.
Également, une certaine similarité est observée dans les performances par industrie
entre les analystes et les méthodes quantitatives.
Mots clés : bénéfice trimestriel, analyste financier, exploitation de données, méthode
ensembliste, arbre de régression.
iii
TABLE DES MATIÈRES
SOMMAIRE ..................................................................................................................... ii
LISTE DES TABLEAUX .................................................................................................. v
LISTE DES FIGURES .................................................................................................... vi
REMERCIEMENTS ....................................................................................................... vii
CHAPITRE 1 - Introduction............................................................................................. 1
1.1 Mise en contexte ................................................................................................... 1
1.2 Structure du mémoire............................................................................................ 3
CHAPITRE 2 - Revue de littérature ................................................................................ 5
2.1 Utilisation des méthodes quantitatives pour la prévision des bénéfices ................ 5
2.2 Comparaison : Méthodes quantitatives vs analystes ............................................13
2.3 Exploitation de données .......................................................................................19
2.3.1 Arbres de régression .....................................................................................19
2.3.2 Méthodes ensemblistes .................................................................................25
2.3.3 Comparaisons des méthodes ensemblistes entre elles et avec d'autres
méthodes ...............................................................................................................36
CHAPITRE 3 - Méthodologie .........................................................................................39
3.1 Introduction ..........................................................................................................39
3.2 Objectifs de recherche .........................................................................................39
3.3 Description de la variable cible .............................................................................40
3.4 Choix et description des variables explicatives.....................................................42
3.4.1 Variables économiques .................................................................................43
3.4.2 Variables financières .....................................................................................44
3.4.3 Variables boursières ......................................................................................47
3.4.4 Variables de contrôle .....................................................................................48
3.5 Description des variables liées aux prévisions des analystes dans IBES .............49
3.6 Modèle temporel ..................................................................................................50
3.7 Données ..............................................................................................................51
3.7.1 Sources .........................................................................................................51
3.7.2 Étendue .........................................................................................................55
3.7.3 Traitement et nettoyage .................................................................................55
3.8 Distribution des données après traitement et nettoyage .......................................60
3.9 Méthodes quantitatives ........................................................................................61
3.9.1 Méthodes et paramètres utilisés ....................................................................61
iv
3.9.2 Critère d'évaluation des analystes et des modèles ........................................74
3.9.3 Ensembles d'entraînement et de test des modèles ........................................74
3.9.4 Présélection d'un sous-ensemble de variables explicatives ...........................76
CHAPITRE 4 - Présentation et analyse des résultats ....................................................79
4.1 Analyse des variables indépendantes utilisées ....................................................79
4.1.1 Pouvoir prédictif .............................................................................................79
4.1.2 Statistiques descriptives des variables ..........................................................82
4.2 Performance des méthodes quantitatives ............................................................82
4.3 Comparaison avec la performance des analystes ................................................91
CHAPITRE 5 - Conclusion et discussion .....................................................................101
5.1 Rappel des objectifs de recherche .....................................................................101
5.2 Rappel de la méthodologie.................................................................................101
5.3 Rappels des résultats principaux........................................................................102
5.4 Apports de l'étude ..............................................................................................104
5.5 Limites de l'étude ...............................................................................................105
5.6 Ouvertures .........................................................................................................106
ANNEXES ...................................................................................................................109
A. Statistiques descriptives des variables indépendantes ........................................109
B. Algorithme : Imputation multivariée par équations chainées ................................110
C. Logiciels utilisés ..................................................................................................111
BIBLIOGRAPHIE .........................................................................................................112
v
LISTE DES TABLEAUX
Tableau 1 : Classification des méthodes de prévision..................................................... 5
Tableau 2 : Sommaire des études examinant la précision relative des
prévisions des analystes et des méthodes statistiques (Alexander 1995)...................... 14
Tableau 3 : Caractéristiques des bénéfices « GAAP » vs « Street ».............................. 41
Tableau 4 : Variables explicatives.................................................................................. 42
Tableau 5 : Industries des indices S&P 500................................................................... 47
Tableau 6 : Industries IBES............................................................................................ 49
Tableau 7 : Exemple d'ajustement de BPA.................................................................... 53
Tableau 8 : Répartition par mois de fin d'année fiscale.................................................. 56
Tableau 9 : Pourcentage de BPA trimestriel réalisé de 0$ par industrie........................ 56
Tableau 10 : Impact du traitement et du nettoyage des données.................................. 57
Tableau 11 : Distribution des données par industrie...................................................... 60
Tableau 12 : Distribution des données (nb enregistrements) par trimestre................... 61
Tableau 13 : Taille des ensembles d'entraînement et de test........................................ 75
Tableau 14 : Diminution de l’erreur moyenne de prévision au carré (MSE) par
variable........................................................................................................................... 79
Tableau 15 : Performance globale des méthodes quantitatives..................................... 82
Tableau 16 : EAMP trimestrielle 2003 : Analystes et méthodes quantitatives............... 84
Tableau 17 : EAMP trimestrielle 2004 : Analystes et méthodes quantitatives............... 85
Tableau 18 : EAMP trimestrielle 2005 : Analystes et méthodes quantitatives................ 86
Tableau 19 : Méthodes quantitatives : Performance par industrie................................. 89
Tableau 20 : Méthodes de remplacement des valeurs manquantes : Nombre
d’industries-trimestres avec EAMP minimum par méthode quantitative........................ 91
Tableau 21 : EAMP annuelle 2003 : Analystes et méthodes quantitatives.................... 93
Tableau 22 : Classement par rang 2003........................................................................ 93
Tableau 23 : EAMP annuelle 2004 : Analystes et méthodes quantitatives.................... 94
Tableau 24 : Classement par rang 2004........................................................................ 94
Tableau 25 : EAMP annuelle 2005 : Analystes et méthodes quantitatives.................... 95
Tableau 26 : Classement par rang 2005........................................................................ 95
Tableau 27 : Moyenne annuelle des écarts d'EAP : Analyste vs
meilleure méthode quantitative....................................................................................... 99
Tableau 28 : Statistiques descriptives des variables indépendantes........................... 109
vi
LISTE DES FIGURES
Figure 1 : Modèle temporel............................................................................................. 50
Figure 2 : Exemple : Variable cible avec régions non rectangulaires............................. 65
Figure 3 : Exemple : Arbre de régression....................................................................... 68
Figure 4 : EAMP annuelle 2003 : Analystes et méthodes quantitatives......................... 93
Figure 5 : EAMP annuelle 2004 : Analystes et méthodes quantitatives......................... 94
Figure 6 : EAMP annuelle 2005 : Analystes et méthodes quantitatives......................... 95
Figure 7 : Moyenne annuelle des écarts d'EAP : Analyste vs meilleure
méthode quantitative...................................................................................................... 99
vii
REMERCIEMENTS
Je tiens tout d’abord à remercier mes co-directeurs de recherche : M. Denis Larocque et
M. Tolga Cenesizoglu. Leur encadrement, leur expertise et leurs encouragements m’ont
permis de mener à terme avec succès ce projet de recherche. Je leur suis
particulièrement reconnaissant pour leur patience tout au long de ce projet.
Je remercie les membres du jury qui ont bien voulu évaluer ce mémoire.
Je suis reconnaissant envers mes parents qui m’ont toujours soutenu dans mes projets
d’études. Un remerciement particulier s’adresse à ma mère Lucie. Elle m’a traîné très tôt
dans ma vie à la bibliothèque. À cet endroit s’est développé un goût d’apprendre et de
comprendre qui s’est manifesté à travers ce mémoire, et qui ne me quittera jamais.
Le soutien, les encouragements et l’optimisme constant de Jenny, mon amour, m’ont
aidé à ne pas lâcher prise tout au long de la réalisation de ce mémoire, alors que mon
moral fluctuait comme les cours de la bourse... Je lui en suis reconnaissant.
Ma collecte de données n'aurait pu se réaliser sans l'aide de M. Mohamed Jabir, du
Laboratoire de Calcul en Finance et Assurance (LACFAS). Son aide à divers moments
et ses suggestions ont contribué au succès de ce mémoire.
Mes remerciements vont également à mon comité de relecture, composé de ma
conjointe Jenny et de mon oncle Jean-Pierre. Ils ont tous deux connu les joies et peines
des études supérieures et m’ont aidé à relever la qualité de ce mémoire.
Je suis reconnaissant au Conseil de recherches en sciences humaines du Canada
(CRSH), ainsi qu’au Fonds de recherche du Québec - Société et culture (FRQSC) pour
leur support financier.
Je remercie finalement le professeur M. Jean-Guy Simonato, ainsi que mes collègues
de l'atelier de recherche. Leurs remarques et suggestions ont contribué à l'amélioration
de ce mémoire. M. Simonato nous a également donné un enseignement qui m’a
encouragé tout au long de ce travail : « Un bon mémoire est un mémoire ... terminé ! ».
1
CHAPITRE 1 - Introduction
1.1 Mise en contexte
Beaucoup d'efforts sont déployés par les analystes financiers (subséquemment appelés
simplement analystes) afin de tenter de prévoir les bénéfices futurs des entreprises
cotées en bourse. Ces prévisions de bénéfices sont produites par les analystes et
trouveront leur utilité pour plusieurs types d'utilisateurs.
On peut parler tout d'abord des analystes eux-mêmes, notamment ceux travaillant dans
le domaine des valeurs mobilières. Ceux-ci utiliseront souvent leurs prédictions de
bénéfices comme intrants selon les méthodes d'évaluation des actifs qu'ils utilisent. En
effet, plusieurs méthodes d'évaluation de valeur des actions ordinaires nécessitent la
prévision des flux monétaires futurs (incluant les bénéfices) afin d'actualiser ceux-ci pour
déterminer cette valeur. On peut mentionner la méthode des Flux Monétaires
Disponibles aux Actionnaires Ordinaires (FMDAO) ou les méthodes d'actualisation des
dividendes par exemple. Ainsi, dans la méthode du FMDAO, les bénéfices futurs sont
utilisés comme intrants pour le calcul de ces flux monétaires anticipés selon l'équation
suivante (Damodaran, 2006) :
=
résultat net - (dépenses d'investissement - dotations aux amortissements
et provisions) - variation du
- paiements liés à la dette + nouvelles
émissions de dettes
où :
=
besoin en fonds de roulement
Ces flux monétaires sont ensuite actualisés avec le coût des fonds propres pour
déterminer la valeur de l'entreprise, de laquelle on peut obtenir la valeur des fonds
propres en soustrayant la valeur du passif. Ensuite, une comparaison peut être faite
entre la valeur actuelle réelle d'une action et sa valeur actuelle théorique selon ses flux
monétaires futurs anticipés. Cette différence, positive ou négative, pourra alors mener à
des transactions appropriées sur le marché des valeurs mobilières afin de bénéficier de
la situation. Plus les prévisions des bénéfices seront précises, meilleures seront les
prévisions de prix d'actions et les recommandations d'investissement produites à partir
de ces intrants.
Dans l'industrie des services financiers, d'autres professionnels profiteront des
prévisions de bénéfices. On peut mentionner les gestionnaires de portefeuille qui
pourraient s'en servir pour sélectionner des entreprises à inclure dans leur portefeuille. Il
2
y a aussi les institutions bancaires qui incluront possiblement ces prévisions dans leurs
critères d'évaluation de la solvabilité de leurs clients corporatifs avant la signature d'un
prêt.
Au niveau de la finance corporative, les gestionnaires d'entreprises voudront
certainement tenir compte de ces prévisions dans l'élaboration de leurs stratégies à
court, moyen et long terme.
Finalement, on doit aussi souligner l'aspect salarial. La rémunération des analystes
dépend bien-sûr de leur performance quant à la précision de leurs prévisions.
La capacité des entreprises à générer des bénéfices dans le futur (leur profitabilité
anticipée) dépend de plusieurs facteurs, autant intrinsèques qu'extrinsèques à
l'entreprise. Les analystes utilisent différents types de méthodes pour prévoir ces
bénéfices. Certaines méthodes utilisées par les analystes pour prévoir ces bénéfices
sont de nature quantitative et tiennent compte de l'évolution de l'historique des données
financières apparaissant aux états financiers, ainsi que des différents indicateurs
économiques. D'autres méthodes sont plus subjectives et font appel à l'intuition et
l'expérience des analystes.
Les analystes possèdent certains avantages comparés aux méthodes quantitatives. Par
exemple, ils peuvent incorporer dans leur analyse des informations difficilement
décelables dans les sources de données, comme la qualité des équipes de direction par
exemple. Cependant, les analystes sont désavantagés à d'autres niveaux. Ainsi,
diverses études ont décelé des biais psychologiques dans les prévisions financières des
analystes. Notamment, Easterwood et Nutt (1999) montrent que les analystes ont
tendance à sous-réagir à des informations négatives et à réagir de façon excessive à
des informations positives à propos des bénéfices dans leurs prédictions de bénéfices.
En comparaison avec les analystes, les techniques quantitatives de l'exploitation de
données (« Data Mining ») sont désavantagées à certains points de vue. Elles ne
peuvent tenir compte d'informations de dernière minute non enregistrées dans les bases
de données financières ou économiques. Elles ne peuvent non plus déceler de façon
intuitive des signes négatifs perçus lors de visite d'entreprise ou de rencontre avec les
cadres. Cependant, nous croyons que certains avantages de ces techniques, en
particulier les méthodes ensemblistes à base d'arbres de régression, peuvent leur
permettre de produire des prévisions de bénéfices valables. Notamment :

Les données financières sont fondamentalement non linéaires et les méthodes
ensemblistes sont appropriées pour ce type de données. Notamment, la non-
3
linéarité des bénéfices par action est supportée par l'étude de Callen, Kwan et
Yip (1994);

Les méthodes ensemblistes n'ont pas de limites quant au nombre de variables
explicatives utilisées. Les modèles produits par les algorithmes détermineront
automatiquement les variables les plus significatives parmi toutes les variables
disponibles pour obtenir la prédiction. Les analystes, par contre, ont des
limitations de temps et de capacité de traitement, et vont devoir baser leur
analyse sur un nombre réduit de données sélectionnées selon leur jugement et
leur expérience;

Les méthodes ensemblistes, étant des méthodes quantitatives, ne sont pas
affectées par des biais psychologiques comme le sont parfois les analystes.
La combinaison de l'utilisation des habiletés cognitives des analystes et des avantages
quantitatifs des méthodes empiriques peut permettre de compenser les limites humaines
et quantitatives afin de produire des prévisions optimales. Dans la littérature, Lobo et
Nair (1990) montrent notamment que la combinaison des prévisions de bénéfices
annuels et trimestriels produites par des analystes avec celles produites par des
modèles de séries temporelles, permet de produire dans plusieurs cas des prévisions
plus précises que les meilleures prévisions des analystes.
Ce mémoire visera à produire des prévisions de bénéfices par action (BPA) trimestriels
en utilisant des méthodes ensemblistes de l'exploitation de données. Selon notre revue
de littérature, il ne semble pas que ces méthodes aient déjà été utilisées dans ce but
dans le passé. L'exercice pourrait donc être une première dans ce mémoire. Les
résultats obtenus avec les différentes méthodes ensemblistes, et avec deux autres
méthodes utilisées comme standards et comme base de comparaison (la régression
linéaire et l'arbre de régression simple) seront comparés.
Dans un deuxième temps, nous voudrons comparer la précision des résultats des
méthodes ensemblistes avec celle des analystes afin de déterminer l'écart de
performance de précision.
1.2 Structure du mémoire
Ce mémoire sera structuré comme suit :
Le chapitre 2 présente une revue de littérature. Il y a d'abord une revue des principaux
travaux ayant trait à la prévision des bénéfices par l'utilisation de méthodes
4
quantitatives. Ensuite, il y a présentation des études s'étant intéressées à la précision
des prévisions de bénéfices des analystes et à la comparaison de ces prévisions à
celles produites par des méthodes quantitatives. Finalement, à propos des techniques
de l'exploitation de données, la revue couvre les articles fondamentaux concernant les
méthodologies ensemblistes et les arbres de régression, qui sont les composantes des
méthodes ensemblistes qui seront utilisées dans ce mémoire.
Le chapitre 3 décrit la méthodologie utilisée pour la production des prévisions de
bénéfices, ainsi que pour la comparaison des prévisions avec celles des analystes se
retrouvant dans la base de données IBES. La variable cible et les variables explicatives
sont décrites. L'étendue temporelle des données est précisée. Les étapes de
construction de la base de données et de la préparation des données pour le traitement
sont spécifiées. Il y a ensuite description des paramètres utilisés pour la construction
des arbres de régression. Les paramètres spécifiques aux méthodes ensemblistes sont
explicités et nous illustrons finalement la distribution des données qui serviront à
l'analyse.
Le chapitre 4 contient une présentation des résultats obtenus et une analyse de ceux-ci.
Le chapitre 5 conclut la recherche avec un rappel de la méthodologie et des principaux
résultats en relation avec les objectifs de recherche. Les apports et limites de l'étude
sont présentés et discutés. Finalement, il y a proposition d'ouvertures potentielles pour
de futurs travaux.
5
CHAPITRE 2 - Revue de littérature
2.1 Utilisation des méthodes quantitatives pour la prévision des bénéfices
Jusqu'à maintenant, plusieurs types de méthodes ont été utilisés pour la prévision des
bénéfices. Il serait intéressant premièrement de déterminer quelles sont les méthodes
qui ont été utilisées pour cette fin et de les situer parmi l'ensemble des méthodes
utilisées par les analystes. Les informations sur ces méthodes et leurs utilisations sont
évidemment difficiles à obtenir de la part des analystes, ceux-ci étant réticents à
divulguer ce genre d'information, qui représente pour eux un avantage compétitif.
La théorie propose plusieurs façons de classifier les différentes méthodes de prévision
(de façon générale, sans se limiter à la prévision de bénéfices). Une classification
simple1 est présentée par Foster (1986, traduction libre), avec des exemples pour
chaque type de méthode :
Tableau 1 : Classification des méthodes de prévision
Méthode
Mécanique
Univariée
 Modèles de moyenne mobile
 Modèles Box-Jenkins
univariés
Non mécanique
 Extrapolation visuelle d'une
courbe
Multivariée
 Régression linéaire
 Modèles Box-Jenkins à
fonction de transfert
 Analystes en valeurs
mobilières (utilisation de
sources de données
disparates)
Foster (1986) donne les définitions suivantes pour ses attributs (traduction libre) :

Méthode mécanique : « [...] les intrants sont toujours les mêmes et combinés de
telle sorte que, utilisant la même base de données et le même modèle, la même
prévision sera obtenue. »;

Méthode non mécanique : Différents intrants peuvent être utilisés d'une analyse
à l'autre pour produire la prévision;

Méthode univariée : Une seule variable explicative est utilisée pour la prévision;

Méthode multivariée : Plusieurs variables explicatives sont utilisées pour la
prévision.
Les méthodes quantitatives se classent donc parmi les méthodes mécaniques
univariées et multivariées dans la classification de Foster (1986).
1
Le lecteur intéressé trouvera une classification plus élaborée dans Armstrong (2001).
6
Parmi les méthodes quantitatives, l'utilisation de méthodes non linéaires s'est révélée
utile pour la prévision financière dans plusieurs études relativement récentes. L'une des
hypothèses pour expliquer cela est la nature généralement non linéaire des données
financières. Plusieurs chercheurs ont observé une non-linéarité pour plusieurs variables
financières. Quant à elles, les variables qui se sont révélées utiles pour la prévision des
bénéfices, ou la prévision d'événements liés aux bénéfices, comme les faillites entre
autres, sont multiples dans la littérature et sont de natures diverses (surtout
quantitatives, mais aussi qualitatives).
Étant donné l'importance de la prévision des bénéfices dans le monde de la finance,
beaucoup de recherches ont été conduites sur ce sujet et beaucoup d'articles ont été
publiés sur l'utilisation de méthodes quantitatives pour cette fin. Il nous est évidement
impossible ici de tous les présenter, et une sélection des plus intéressants sera
effectuée.
Un des premiers articles importants portant sur la prédiction de faillites par l'utilisation de
ratios financiers est Beaver (1966). L'auteur a analysé 30 ratios regroupés en six
catégories. Ces ratios ont été sélectionnés selon le respect d'au moins un des trois
critères suivants : popularité selon l'utilisation dans la littérature, succès antérieur dans
la prédiction de faillite et, finalement, ratio étant relatif aux cash-flows. Les données
couvrent un total de 178 entreprises, comprenant 79 firmes ayant fait faillite, et 79
entreprises n'ayant pas fait faillite jumelées avec les 79 premières sur les critères de
l'industrie et de la taille des actifs. Les années de l'échantillon vont de 1949 à 1964.
Les ratios ont été analysés avec trois méthodes univariées :
1) Comparaisons de moyennes : Les entreprises ayant fait faillite sont jumelées
avec une entreprise similaire n'ayant pas fait faillite. L'évolution des moyennes
des ratios sur les cinq années précédant la faillite est ensuite comparée;
2) Test de classification dichotomique : Les ratios sont calculés pour toutes les
entreprises pour toutes les années disponibles. Les entreprises sont séparées
aléatoirement en deux échantillons. Une valeur de seuil permettant de
déterminer les entreprises devant faire faillite dans
ans ( variant de un à cinq
ans) est évaluée visuellement pour chaque ratio dans le premier échantillon. Ces
seuils sont ensuite utilisés pour prévoir les faillites dans le second échantillon.
Des taux d'erreur de prédiction sont finalement calculés;
7
3) Comparaison de distribution : La distribution des données pour chaque ratio est
comparée pour les entreprises pairées (faillite, non-faillite) pour chacune des
cinq années précédant la faillite. Cela, via l'utilisation d'histogrammes qui sont
ensuite visuellement analysés. Beaver souligne la non-normalité de la plupart
des distributions.
Deux des ratios s'étant montrés les plus utiles pour la prédiction de faillite sont : Cashflow / Passif total et Bénéfice net / Actif total.
En continuité avec Altman (1968), Altman, Haldeman et Narayanan (1977) ont élaboré
un modèle de prévision de faillite, le modèle ZETATM. C'est un modèle multivarié basé
sur l'analyse discriminante. Ce modèle produit un score Z qui, s'il est supérieur à un
certain seuil, devrait prédire la faillite dans un horizon rapproché pouvant aller jusqu'à
cinq ans :
avec :
= Rendement de l'actif : Bénéfice net avant intérêts et impôts / Actif total
= Stabilité des rendements : Écart-type(Bénéfice net annuel avant intérêts et
impôts / Actif total annuel) des cinq dernières années
= Service de la dette : Bénéfice net avant intérêts et impôts / Intérêts payés
= Profitabilité cumulative : Réserves / Actif total
= Liquidité : Ratio de liquidité : Actif à court terme / Passif à court terme
= Capitalisation boursière : Total de la capitalisation boursière / Capitaux
permanents
= Taille de l'entreprise : log (Actif total)
N.B.: Ici, comme le modèle ZETATM est une propriété privée, les valeurs des paramètres
et du seuil
permettant de prédire la faillite ne sont pas disponibles.
Les différents ratios sont annuels. Altman, Haldeman et Narayanan mentionnent que
des
expérimentations
avec
des
modèles
alternatifs
incluant
des
variables
supplémentaires ou comprenant moins de variables n'ont pu produire des résultats
significativement supérieurs. Un total de 111 entreprises ayant ou non fait faillite sont
inclues dans l'échantillon de données (faillites : 53, non-faillite : 58). Les années
couvertes par l'échantillon vont de 1969 à 1975.
Le modèle a permis d'atteindre un taux de prédiction de faillite allant de 96% (un an
avant la faillite) à 70% (cinq ans avant la faillite).
8
Un article important portant sur la nature des bénéfices est Griffin (1977). L'auteur
cherchait à déterminer si les bénéfices trimestriels suivent une marche aléatoire.
L'auteur a étudié les données de 94 grandes entreprises enregistrées au New-York
Stock Exchange sur une période s'étalant de 1958 à 1971. Il a utilisé l'approche de BoxJenkins permettant d'identifier des modèles ARIMA de séries temporelles et quatre
différents modèles ont été testés.
Les résultats montrent que les bénéfices trimestriels sont sujets à un effet de
saisonnalité retardé de quatre périodes, et que les bénéfices trimestriels adjacents ne
sont pas indépendants.
Fama et French (2000) s'intéressent à l'hypothèse du retour à la moyenne des profits
des entreprises plusieurs fois mentionnée dans la littérature passée. Cette hypothèse, si
elle était vérifiée, supposerait que les profits pourraient être en partie prévisibles via des
modèles quantitatifs. Les auteurs ont proposé une méthode de régression en coupes
transversales, année par année, qui permet l'autocorrélation résiduelle et l'utilisation de
composantes non linéaires dans les variables indépendantes. Cela, pour pallier à des
problèmes observés dans les études antérieures, liés notamment à des biais de
survivance et à l'absence d'ajustement d'erreurs standards pour tenir compte de
l'autocorrélation. Deux modèles sont estimés avec les deux variables dépendantes
suivantes :
1) la variation dans la profitabilité (VP), calculée comme la variation annuelle :
2) la variation dans les bénéfices (VB), calculée comme la variation annuelle :
Les variables indépendantes comprennent la variable dépendante retardée d'un an,
ainsi que d'autres variables permettant d'intégrer les déviations des variables
dépendantes avec leur valeur estimée à
, des variables binaires dont la valeur
dépend du signe des déviations et des variables dépendantes à
carré des variables dépendantes à
, et les valeurs au
(selon leur signe). L'échantillon comprend une
moyenne de 2 343 entreprises et couvre les années de 1964 à 1996.
Les résultats montrent que la profitabilité et les bénéfices sont en partie prévisibles et
sont sujets à un phénomène de retour à la moyenne. Une non linéarité est observée
dans ce retour à la moyenne car les écarts extrêmes, ainsi que les écarts négatifs,
tendent à retourner plus rapidement à la moyenne qu'autrement.
9
En continuité avec Fama et French (2000), Fairfield, Ramnath et Yohn (2009)
s'intéressent également au phénomène de retour à la moyenne dans la prévision de la
profitabilité et de la croissance annuelle des entreprises. Leur hypothèse principale est
que, en comparaison avec un modèle global, un modèle estimé industrie par industrie
pourrait donner de meilleurs résultats en raison de caractéristiques affectant
différemment la performance des entreprises selon leur industrie. Cela a été suggéré
dans plusieurs recherches antérieures qui mentionnent également que la vitesse de
retour à la moyenne pourrait différer d'une industrie à l'autre. D'autres études, par
contre, prétendent que le taux de retour à la moyenne serait indépendant des industries.
Les auteurs utilisent deux groupes de variables dépendantes : un groupe de trois
variables liées à la croissance (croissance de la valeur aux livres, croissance des actifs
opérationnels et croissance des ventes) et un autre groupe de deux variables liées à la
profitabilité (rendement sur fonds propres (ROE) et rendement sur actifs opérationnels).
Les modèles suivant ont été utilisés :
Pour les variables liées à la croissance :
Pour les variables liées à la profitabilité :
où :
= variable dépendante de l'entreprise à l'année
= variable binaire égale à un si la profitabilité de l'entreprise est en-dessous de
la médiane des firmes de son industrie à l'année
= prévision de la croissance des ventes obtenue avec le modèle des
variables liées à la croissance de l'entreprise
à l'année
(pour tenir compte des
effets potentiels de la croissance des ventes sur la profitabilité de l'entreprise)
= terme d'erreur
Des modèles distincts ont été évalués pour chaque industrie, et un modèle global
incluant les entreprises de toutes les industries a également été évalué pour fins de
comparaison. La mesure d'erreur utilisée était l'erreur de prévision absolue (EPA). Les
erreurs de prévision obtenues avec des modèles industriels ont été comparées avec
celles du modèle global en utilisant des tests pairés des mesures de tendance centrale
(t-test pour les moyennes et test de rang de Wilcoxon pour les médianes). L'échantillon
de données comprenait 5 232 entreprises de 48 industries différentes, excluant les
10
entreprises du secteur financier et celles répondant à certains critères (ex.: croissance
de la valeur aux livres supérieure pour réduire les effets des acquisitions potentielles sur
les prévisions). La période couverte va de 1979 à 2003. Les données de la période de
1989 à 2003 ont servi d'ensemble de test. Un système de fenêtres roulantes est utilisé
où les prévisions de l'année
(à partir de 1989) sont produites avec un modèle estimé
avec les dix années précédentes.
Les résultats montrent en général que les modèles spécifiques aux industries permettent
d'améliorer de façon significative les prévisions de croissance des ventes en
comparaison au modèle global, mais pas celles des deux autres variables de croissance
(valeur aux livres et actifs opérationnels) où les modèles industriels performent moins
bien. Quant aux variables de profitabilité, les modèles industriels performent moins bien
également. Des tests supplémentaires où les prévisions ont été produites sur un horizon
plus long (cinq ans) montrent une supériorité des modèles industriels pour les trois
variables de croissance, significatives la plupart du temps (excepté pour la médiane de
la croissance de la valeur aux livres). Pour les variables de profitabilité, les modèles
industriels performent mieux uniquement pour le rendement sur actifs opérationnels,
mais de façon non significative. Les auteurs suggèrent que l'ajout de variables
indépendantes
additionnelles
provenant
des
états
financiers
(ex.:
dépenses
administratives, marge brute) pourrait permettre de mieux capter les effets industriels et
améliorer la performance de prévision des modèles industriels.
Un article intéressant sur l'utilisation de méthodes non linéaires et non paramétriques
pour la prédiction de bénéfices est celui de Callen et al. (1996). Ici, les auteurs ont
cherché à valider une observation ressortie de Hill et al. (1994) sur les réseaux de
neurones. Hill et al. ont effectué une revue de littérature des articles comparant les
réseaux de neurones avec des méthodes statistiques traditionnelles. Ils mentionnent
que les réseaux de neurones ne sont pas forcément meilleurs que des méthodes
statistiques plus traditionnelles, et que leur performance est variable selon le domaine et
les caractéristiques des données. Cependant, il ressort de leur analyse que les réseaux
de neurones ont tendance à être plus performants que les méthodes statistiques
habituelles lorsque les données sont : 1) de nature financière, 2) sujettes à un effet
saisonnier et 3) non linéaires. Afin de vérifier cette observation, Callen et al. ont utilisé
un réseau de neurones pour prévoir les BPA trimestriels qui rencontrent ces trois
critères. Leur échantillon consiste en 296 entreprises dont la fin d'année financière est le
11
31 décembre. L'échantillon couvre les années de 1962 à 1985 et la méthode nécessitait
que chaque entreprise ait des données de façon ininterrompue entre ces deux années.
Les auteurs mentionnent donc qu'un biais de survivance est possible dans leur étude.
Un système de fenêtres roulantes d'une taille de 40 trimestres chacune a été élaboré, et
un réseau de neurones distinct a été entrainé en utilisant chacune de ces fenêtres de
données afin de produire des prévisions allant de un à quatre trimestres dans le futur.
Chacune des fenêtres roulantes a été subdivisée en groupes de cinq BPA trimestriels
consécutifs où les quatre premiers constituaient les variables indépendantes et le
cinquième (situé à un, deux, trois ou quatre trimestres dans le futur selon la prévision),
la variable cible.
Les résultats en termes d'erreur absolue moyenne de prévision en pourcentage (EAMP)
ont été comparés avec ceux obtenus avec les trois modèles linéaires de série
temporelle de Brown-Rozeff (voir Brown et Rozeff (1979)), Griffin-Watts (voir Griffin
(1977) et Watts (1975)) et Foster (voir Foster (1977)). Les EAMP les plus faibles sur les
quatre horizons de prévision sont obtenues par les modèles linéaires de Brown-Rozeff
et de Griffin-Watts. Le réseau de neurones se classe en troisième position et le modèle
de Foster, dernier. Ainsi, pour la prévision sur un horizon d'un trimestre, la méthode de
Brown-Rozeff obtient une EAMP de 44%, comparé à 51% pour le réseau de neurones.
Cette étude ne s'inscrit donc pas dans la tendance observée dans Hill et al. (1994) à
propos de la supériorité des réseaux de neurones en tant que méthode non linéaire
lorsque les trois conditions listées plus haut sont réunies.
Dans Dhar et Chou (2001), les auteurs évaluent la performance de méthodes
d'exploitation de données non linéaires pour prévoir (entre autres) les « Earnings
surprises » d'entreprises et comparent les résultats avec ceux de la régression linéaire
standard. Les variables indépendantes utilisées étaient de trois types : variables liées
aux prédictions des analystes, ratios financiers et données économiques, et variables de
tendance industrielles. Les quatre méthodes utilisées sont les algorithmes génétiques,
les réseaux de neurones, les arbres de classification et l'algorithme de classification
Naive Bayes.
Ici, les méthodes non linéaires donnent de meilleurs résultats que la régression linéaire
et les algorithmes génétiques donnent les meilleurs résultats parmi les méthodes non
linéaires.
12
Dans Belhouari (2005), cinq méthodes d'exploitation de données sont utilisées pour
produire des prédictions de faillites. L'auteur compare les résultats obtenus avec deux
méthodes paramétriques (Analyse discriminante et Régression logistique) et trois
méthodes non paramétriques comprenant les arbres de classification, le Bagging et le
Boosting. Trois horizons de temps différents ont été évalués. Les variables
indépendantes étaient sept ratios financiers, et la variable dépendante était une variable
binaire prenant la valeur 0 si l'entreprise survivait au bout de x années et 1 sinon.
Les cinq méthodes ont donné des taux de bonne classification intéressants (> 90%), et
les méthodes ensemblistes ont été les plus précises pour la classification des
entreprises en faillite.
Creamer et Stolfo (2009) produisent des prédictions de « Earnings surprises » et de
rendement cumulatif anormal (CAR) en comparant les résultats obtenus avec la
régression logistique et trois méthodes ensemblistes (forêts aléatoires et deux
algorithmes de Boosting).
Les variables indépendantes utilisées sont de plusieurs types : variables liées aux
prédictions des analystes, ratios financiers et variables de rendement boursier.
Un aspect intéressant ici est que l'auteur utilise aussi des variables indépendantes
concernant la solidité des réseaux sociaux liant les membres des CA et les analystes
financiers, car il suppose que cela peut contribuer à augmenter la précision des
prévisions.
Les méthodes ensemblistes montrent ici des erreurs moyennes de prédiction plus
faibles, dans l'ensemble, que la régression logistique.
Cao et Parry (2009) évaluent plusieurs modèles de prévision de BPA trimestriels en
utilisant deux méthodes quantitatives :
1) régression linéaire;
2) réseaux de neurones (RN) (avec poids estimés par rétropropagation et par
algorithmes génétiques).
Plusieurs modèles univariés et multivariés ont été estimés en utilisant des variables
indépendantes trimestrielles retardées de un à quatre trimestres. Ces variables
comprenaient le BPA lui-même ainsi que sept ratios financiers s'étant révélés utiles pour
l'évaluation financière et la prévision des bénéfices dans deux autres recherches :
Abarbanell et Bushee (1998), et Beneish, Lee et Tarpley (2001). Les données
13
couvraient 283 firmes sur une fenêtre de 45 trimestres s'étalant de 1992 à 2002. Un
système de fenêtres roulantes est utilisé où les données de 30 trimestres passés
servent à entraîner les modèles et effectuer une prévision pour le 31e trimestre. Ici, les
auteurs ont réutilisé des modèles proposés par Cao, Schniederjans et Zhang (2004)
dans un objectif de comparabilité. Comme principal apport, ils ont ajouté deux autres
modèles de RN avec poids modifiés par algorithmes génétiques (UAG et MAG).
Parmi les résultats, deux sont particulièrement intéressants pour notre étude et vont
dans le même sens que ceux obtenus par Cao, Schniederjans et Zhang (2004) : 1) les
modèles univariés non paramétriques de RN dominent les modèles linéaires univariés,
et 2) les modèles multivariés incluant des variables financières sont plus performants
que les modèles incluant uniquement des variables retardées de BPA. Les auteurs
suggéraient comme prochaine étape la comparaison de la performance de prévision de
leur meilleur modèle (MGA) avec celle des analystes.
2.2 Comparaison : Méthodes quantitatives vs analystes
Alexander (1995) présente un sommaire sous forme de tableau de la littérature (tableau
2) ayant couvert la comparaison de performance de prévision entre méthodes
quantitatives et analystes (traduction libre) :
14
Tableau 2 : Sommaire des études examinant la précision relative des prévisions
des analystes et des méthodes statistiques (Alexander 1995)2
a
Article
Cragg et
Malkiel [21]
Horizon de
données
Nb
b
entreprises
Périodicité
des bénéfices
Source de
données des
prévisions des
c
analystes
1962-65
185
Annuelle
N/D
1961-65
178
Annuelle
N/D
1967-72
100
Annuelle
S&P EF
Malkiel et
Cragg [34]
Méthode(s)
d
statistique(s)
Taux de
AF >
e
MS
Meilleure
méthode
statistique
croissance
Non
N/A
croissance
Oui
N/A
MA
Oui
N/A
Oui
N/A
Taux de
Barefield et
Comiskey [3]
Richards,
Benjamin et
Strawser [37]
Taux de
1972-76
92
Annuelle
S&P EF
Brown et
Rozeff [14]
croissance
MA, BJ, MA
1972-75
60
Annuelle
VL, S&P EF
avec dérive
Oui
BJ
1970-74
50
Annuelle
VL
F, GW, BR, BJ
Non
BR
Oui
N/A
Collins et
Hopwood
[17]
Fried et
MA avec
Givoly [27]
dérive, « Index
1969-79
424
Annuelle
S&P EF
Model »
Imhoff et
Pare [31]
aucune
1971-74
46
Annuelle
S&P EF
F, GW, BR, BJ
Non
différence
1970-79
161
Trimestrielle
VL
BR, GW
N/A
N/A
1981-83
85
Annuelle
IBES
OLS
Oui
N/A
1975-80
233
Trimestrielle
VL
BR, F, GW
Oui
BR
1975-80
233
Trimestrielle
VL
MA, BR, F, GW
Oui
N/A
MA
Oui
N/A
Collins,
Hopwood et
McKeown
[18]
Vander,
Weide et
Carleton [38]
Brown et al.
[11 ]
Brown et al.
[12 ]
Brown,
Richardson
et Schwager
1977-79,
[13]
1977-82
168, 702
Trimestrielle,
Annuelle
VL, IBES
1976-83
600
Annuelle
IBES
temporelles
Oui
N/A
1978-84
73
Annuelle
VL
BR, GW, OLS
Oui
BR
Conroy et
Harris [20]
MA, séries
Newbold,
Zumwait et
Karran [35]
2
Le lecteur est invité à se référer à Alexander (1995) pour la bibliographie des articles de ce tableau.
15
O'Brien [36]
RW avec
1975-81
184
Annuelle
IBES
Sisneros [16]
1971-81
120
Annuelle
VL
Guerard [29]
1980-82
261
Annuelle
1976-89
5 834
Annuelle
dérive, F
Oui
N/A
croissance
Oui
N/A
S&P EF
MA avec dérive
N/A
N/A
IBES
« price-based »
Chatfield,
Moyer et
Taux de
Elgers et
Parta
Murray [23]
a
b
c
d
e
gé
N/A
Cette liste ne représente pas une revue de littérature exhaustive.
Ce nombre ne comprend pas les entreprises de l'échantillon d'entraînement.
S&P EF : Standards & Poors Earnings Forecaster; IBES : Institutional Brokers Estimate System de Lynch, Jones et
Ryan; VL : Value Line Investment Survey.
MA : marche aléatoire; OLS : « Ordinary Least Squares Model »; BJ : série temporelle univariée de Box-Jenkins; GW :
modèle ARIMA suggéré par Griffin [28] et Watson [39]; F : modèle ARIMA saisonnier suggéré par Foster [26]; BR :
modèle ARIMA saisonnier suggéré par Brown et Rozeff [15].
AF > MS indique si les prévisions des analystes (AF) ont surpassé celles des méthodes statistiques (MS).
De ces résultats, on peut constater que les analystes ont démontré, en général, une
meilleure capacité prédictive que les méthodes statistiques, dans 14 études sur 19.
Kross, Ro et Schroeder (1990) ont cherché à déterminer si la supériorité des prévisions
de BPA trimestriels des analystes sur celles du modèle de série temporelle univarié
ARIMA de Brown-Rozeff (1979) était liée à des caractéristiques spécifiques des
entreprises. Leur échantillon de données comprend 279 entreprises couvertes par des
analystes dans la base de données Value Line Investment Survey des années 1973 à
1981. La comparaison entre les analystes et le modèle de Brown-Rozeff s’est effectuée
sur les huit derniers trimestres de la période. Les autres trimestres ont été utilisés pour
l’estimation des paramètres du modèle. Pour conduire leur analyse, les auteurs ont
conçu le modèle de régression en coupes transversales suivant :
où :
= différence, positive ou négative, entre les valeurs absolues de l’erreur de
prévision du modèle de série temporelle et celle de l’analyste
= variabilité des BPA exprimée par l’erreur standard résiduelle du modèle de
série temporelle
= couverture de l’entreprise dans le Wall Street Journal Index, représentée par
la longueur en pouces des articles couvrant l’entreprise de l’année du trimestre
= taille de l’entreprise représentée par la valeur au marché des actions
ordinaires
16
= nombre de lignes d’affaires où l’entreprise opère
= avantage temporel de l’analyste mesuré par le nombre de jours entre la fin
du trimestre
et la publication de la prévision dans Value Line au trimestre
= 1 si l’entreprise est dans l’industrie et 0 autrement
= terme d’erreur
Les auteurs s’attendaient à des valeurs positives pour tous les coefficients (sauf ceux
des industries). Ils ont apporté des ajustements lors de l’évaluation des coefficients afin
de corriger pour les problèmes d’hétéroscédasticité et d’autocorrélation.
Les résultats montrent que les coefficients de
,
et
sont tous positifs et
significatifs, avec respectivement des coefficients de 0.1564, 0.0346 et 0.0398. Un test
de corrélation bootstrap univarié a montré que la variable
plus grand pouvoir explicatif sur la variable dépendante
démontre également le
en terme de
. Quant à lui,
le coefficient de la taille de l’entreprise n’est pas significatif et est négatif, contrairement
à Brown et al. (1987) qui avaient précédemment trouvé le contraire. La différence de
performance de prévision des analystes avec celui d’un modèle quantitatif semble donc
être liée à certaines caractéristiques des entreprises.
En continuité avec Kross, Ro et Schroeder (1990), Pagash, Chaney et Branson (2003)
ont comparé la performance de prévision des analystes avec celle du modèle ARIMA de
Brown-Rozeff (1979), qui s’est révélé être un des meilleurs modèles linéaires pour la
prévision des BPA trimestriels dans la littérature passée. Les prévisions des analystes
provenaient de la base de données Value Line. Un échantillon de 110 firmes ayant une
fin d’année fiscale au 31 décembre a été sélectionné et les données couvrent les
années 1989 et 1990. Les auteurs ont décidé de sélectionner des entreprises de petite
taille car ce sont elles qui obtiennent les prévisions les moins précises des analystes et,
en conséquence, qui pourraient bénéficier d’améliorations dans les connaissances pour
la prévision des BPA. Des prévisions ont été produites sur des horizons de un, deux et
trois trimestres.
Les résultats montrent que pour 35 à 41% des entreprises, le modèle de Brown-Rozeff
produit des prévisions plus précises que celles des analystes. Les auteurs ont alors
analysé les différences caractérisant ce groupe d’entreprises à l’aide de tests non
paramétriques. L’analyse indique que les différences, significatives à un niveau de 10%,
des entreprises dont les meilleures prévisions de BPA trimestriels sont produites par le
modèle de Brown-Rozeff, sont de taille plus petite et moins diversifiées selon leurs
17
lignes d’affaires, entre autres. Rappelons que Kross, Ro, et Schroeder (1990) n’avaient
pas trouvé de liens entre la taille des entreprises et la performance de prévision des
analystes. Bien que leur échantillon et leur horizon de données soient de tailles réduites,
l’étude de Pagash, Chaney et Branson (2003) va dans le même sens que Kross, Ro, et
Schroeder (1990), et montre que la performance de prévision d’un modèle quantitatif
relative à celle des analystes est liée à certaines caractéristiques des entreprises, et que
ce modèle pourrait se montrer utile aux analystes pour certains groupes d’entreprises
particuliers.
Plus de 200 articles des dernières 25 années sont mentionnés dans la revue de
littérature de Lawrence et al. (2006) à propos des avantages et inconvénients du
jugement humain dans plusieurs domaines de prévision, incluant la finance et
l'économie. Les auteurs mentionnent des erreurs commises à la fois par des humains et
par des méthodes quantitatives dans diverses prévisions. Notamment, ils présentent
une série d'études portant sur les prévisions en macroéconomie qui relatent l'importance
de l'intervention du jugement humain dans la validation des prévisions quantitatives. En
réalité, un sondage mené par Sanders et Manrodt (2003) indique que, sur les 11% des
240 entreprises américaines qui utilisent des outils de prévision, 60% ajustent
régulièrement ces prévisions avec le jugement humain. Les auteurs indiquent également
les pistes de recherche prometteuses identifiées dans les articles de leur revue.
Plusieurs études montrent également que la combinaison des prévisions des analystes
et des méthodes quantitatives permet d'améliorer la précision des prévisions.
Tel que mentionné dans l'introduction, Lobo et Nair (1990) montrent qu'une telle
combinaison de prévisions de bénéfices annuels et trimestriels améliore dans plusieurs
cas la précision. Ils ont étudié les prévisions de bénéfices de 96 entreprises, de 1976 à
1983. Ces entreprises devaient être couvertes par des analystes dans la base de
données Value Line de 1976 à 1983 (prévisions de BPA trimestriels) et dans la BD IBES
pour la même période (prévisions de BPA annuels). Elles devaient également avoir une
fin d’année fiscale au 31 décembre et avoir des données de BPA réalisés trimestriels et
annuels présentes dans la BD « Moody’s Industrial Manual » de 1961 à 1983. Les
méthodes de prévision comprenaient deux méthodes « humaines » d'analystes et deux
méthodes quantitatives de séries temporelles. Les résultats combinés ont été produits
18
en utilisant : a) des poids équipondérés et b) des poids non équipondérés estimés par
régression. L'ajustement des poids non équipondérés par régression a pour effet de
minimiser les erreurs les plus importantes.
L'erreur absolue moyenne de prévision en pourcentage (EAMP) calculée pour la
combinaison de prévision de BPA trimestriels (méthode humaine + méthode
quantitative) diminuait en moyenne de 15.45% (avec poids non équipondérés) en
comparaison avec l'EAMP des méthodes appliquées individuellement. Quant aux
prévisions de BPA annuels, la diminution moyenne a été de 12.69%. À titre indicatif,
l’EAMP des prévisions humaines et quantitatives de BPA trimestriels étaient
respectivement de 54.71% et 64.74%. Quant aux EAMP des prévisions de BPA
annuelles, elles étaient respectivement de 55.64% et 64.13%. Notons que les prévisions
combinées produites avec poids équipondérés montraient des EAMP qui n'étaient pas
toujours meilleures que celles des prévisions individuelles.
Un peu plus tard, Lobo (1992) utilise un échantillon couvrant 205 entreprises sur huit
ans, de 1978 à 1985. Il compare la précision de la prévision de bénéfice annuel agrégée
de cinq analystes avec celles de trois modèles de séries temporelles. Cela, pour quatre
horizons de prévision différents. Il prépare également trois modèles combinant la
prévision humaine avec celle de chacun des trois modèles quantitatifs. Dans cette
étude, les résultats combinés ont été produits en utilisant des poids équipondérés
uniquement.
Les résultats montrent que la précision des trois modèles combinés est toujours
supérieure à n'importe laquelle des prévisions prise individuellement, que ce soit la
prévision agrégée des analystes ou celles des modèles quantitatifs. Pour ces modèles
combinés, l'EAMP diminue en moyenne de 3.4% comparativement aux EAMP des
modèles pris individuellement. Fait intéressant, il observe que :
1) La précision des modèles combinés est inversement proportionnelle à la
dispersion des prévisions des cinq analystes;
2) L'amélioration de la précision des modèles combinés est directement
proportionnelle à la dispersion des prévisions des analystes, et est plus
importante sur des horizons plus grands.
Le lecteur intéressé trouvera une large revue des articles traitant des combinaisons de
prévisions dans Armstrong (2001, p. 417-439). Des combinaisons de prévisions
19
produites par des experts et/ou des méthodes quantitatives sont étudiées dans plusieurs
domaines de recherche.
2.3 Exploitation de données
2.3.1 Arbres de régression
Les arbres de régression sont les composantes de base des méthodes ensemblistes qui
seront utilisées dans ce mémoire. Un arbre, de façon générale, est une méthode
d'apprentissage dite de type supervisé, car on tente de découvrir les liens entre une
variable cible prédéterminée et un ensemble de variables indépendantes dans un
ensemble de données. Les méthodes de type non supervisé tentent plutôt de découvrir
des relations entre plusieurs attributs dans un ensemble de données sans
nécessairement diriger l'effort d'apprentissage vers une variable en particulier.
À la base, les arbres sont donc des structures visant à attribuer une valeur à une
variable cible en utilisant un ensemble d'autres variables appelées variables
indépendantes ou explicatives. À partir d'un ensemble de données composé
d'enregistrements comprenant l'ensemble des variables indépendantes et la variable
cible, on tente de subdiviser successivement l'ensemble de données en sous-ensembles
jusqu'à ce qu'on obtienne des ensembles terminaux les plus homogènes possible en
terme des valeurs de la variable cible, ou jusqu'à ce qu'un critère d'arrêt soit atteint (ex.:
profondeur maximale, nombre minimum d'enregistrements dans un noeud, etc.). Le
point de départ de la structure est un noeud-racine représentant une question à propos
d'une des variables indépendantes (ex.: valeur égale à
?, valeur >=
?, etc.). Selon la
réponse à la question, l'ensemble de données initial est divisé en sous-ensembles et le
processus recommence avec la création d'un nouveau noeud pour chacun des sousensembles, jusqu'à ce qu'un certain degré d'homogénéité soit atteint, ou jusqu'à ce
qu'une condition d'arrêt soit atteinte. Une feuille est créée lorsque la croissance s'arrête.
La valeur à laquelle sera associée la feuille est, en général, celle se retrouvant en plus
grand nombre dans les enregistrements composant la feuille dans le cas d'une variable
cible qualitative ou catégorielle (nominale ou ordinale), ou une moyenne équipondérée
des valeurs de la variable cible dans le cas d'une variable cible continue. Dans le cas
d'une variable cible qualitative, on parlera d'arbre de classification. Dans le cas d'une
variable cible continue, on parlera d'arbre de régression. La sélection de la variable
indépendante pour chaque noeud dépend d'un indice d'impureté (ou critère de
20
séparation) qui indiquera le degré de dispersion des enregistrements selon la valeur de
la variable cible dans les sous-ensembles. Plus l'indice d'impureté est élevé, plus la
distribution des enregistrements dans les sous-ensembles selon les valeurs de la
variable cible est élevé. La variable sélectionnée sera celle qui entraînera la plus grande
baisse de l'indice d'impureté dans le but d'atteindre un certain degré d'homogénéité
dans les feuilles. L'arbre créé et « entraîné » avec cet ensemble d'entraînement
comprenant des données observées pourra ensuite être utilisé pour fins de classification
ou de prévision sur des ensembles de données où les valeurs de la variable cible sont
inconnues. Les modèles d'arbres font donc partie des méthodes dites inductives.
Des méthodes d'élagage des arbres peuvent réduire le risque de sur-spécialisation des
arbres en réduisant leur taille. En effet, un arbre créé en utilisant un ensemble
d'entraînement où il y a présence de bruit ou de données extrêmes peut être surajusté
par rapport à cet ensemble. Cela le rendra moins performant lorsqu'il sera utilisé sur
d'autres ensembles de données. Cet élagage peut se faire pendant la création de l'arbre
(pré-élagage), ou suite à la création d'un arbre (post-élagage).
Plusieurs algorithmes de création d'arbres de classification et de régression ont été
élaborés au fil du temps.
L'un des premiers algorithmes a été présenté par Morgan et Sonquist (1963). Leur
algorithme, appelé AID « Automatic Interaction Detection », permet de créer des arbres
de régression binaires. La variable cible doit être continue, et les variables
indépendantes peuvent être catégorielles ou continues. En utilisant les principes de
l'analyse de la variance, à chaque noeud, la variable sélectionnée sera celle dont la
séparation des enregistrements en deux branches permettra de maximiser la somme
des carrés des écarts (SCE) intra-groupe calculée ainsi :
où
est la valeur de la variable cible dans la branche
contenant
est la moyenne de la variable cible dans la branche
enregistrements et
. La croissance de l'arbre
s'arrête lorsque la SCE intra-groupe est inférieure à 2% de la SCE totale du noeud.
Peu de temps après, Hunt, Marin et Stone (1966) présentent l'algorithme CLS. Cet
algorithme, le « Concept Learning System », permet de créer un arbre de classification
21
où la variable cible peut prendre les valeurs : oui/non (arbre de décision). Les variables
indépendantes doivent être de type catégoriel, ou recodées en catégories ou classes si
ce n'est pas le cas. Partant d'un arbre vide, l'algorithme crée un noeud-racine
. Tant
que les enregistrements d'un noeud n'ont pas tous la même valeur de variable cible, des
branches sont créées en sélectionnant une variable indépendante pour la création des
noeuds du prochain niveau. L'ensemble de départ sera subdivisé pour chaque branche
selon la valeur de variable indépendante de chaque enregistrement. Il y aura ainsi deux
ou plusieurs branches partant d'un noeud donné. Une variable indépendante ne peut
être sélectionnée plus d'une fois pour la création d'un niveau. Aucun critère particulier
n'est utilisé dans cet algorithme pour la sélection des variables indépendantes, ce qui a
comme désavantage la création d'arbres non optimaux en termes de taille si les
variables les moins discriminantes sont sélectionnées en premier.
Kass (1980) modifie l'algorithme AID de Morgan et Sonquist (1963) et propose
l'algorithme CHAID (« Chi Squared Automatic Interaction Detection »). Ici, la variable
cible et les variables indépendantes doivent être catégorielles, ou être recodées en
classes si elles sont continues. La sélection des variables pour la création des
embranchements se fait via l'utilisation de la p-value du test de khi-carré ajusté par la
méthode de Bonferroni. L'algorithme fonctionne comme suit :
Pour chaque noeud de l'arbre :
1) Pour chacune des variables indépendantes :
1.1) trouver la paire de valeurs qui sont les moins significativement différentes
d'après la distribution de la variable cible selon le test de khi-carré;
1.2) regrouper ces deux valeurs en une seule si la p-value du test est
supérieure à une valeur critique;
1.3) reprendre les étapes 1.1) et 1.2) jusqu'à ce qu'aucune paire de valeur ne
puissent être regroupées;
2) Pour chaque variable (avec valeurs regroupées), une p-value finale est calculée.
La variable étant la plus liée avec la variable cible (donc avec la p-value la plus
petite) est utilisée pour la création de l'embranchement. Il y aura une branche par
valeur en utilisant les regroupements de valeurs créés à l'étape 1).
La croissance de chaque branche s'arrête lorsque le test de chi-carré entre la variable
cible et la meilleure des variables indépendantes n'est plus significatif. Contrairement à
22
AID, cet algorithme permet le traitement de variables indépendantes avec valeurs
manquantes. L'absence de valeur est alors traitée comme une catégorie comme telle.
L'un des algorithmes les plus utilisés pour la création d'arbres de classification et de
régression est CART (« Classification And Regression Trees »), créé par Breiman et al.
(1984). Cet algorithme polyvalent permet la création d'arbres binaires et l'utilisation de
variables cibles et indépendantes de type catégoriel ou continu. Dans le cas d'une
variable cible catégorielle, il y a deux critères de séparation qui sont proposés : Gini et «
Twoing ».
Le critère de Gini mesure la baisse d'impureté associée à l'utilisation d'une variable
indépendante pour la création de l'embranchement. Le critère de Gini (CG) fonctionne
de la façon suivante :
Soit un noeud
et une variable indépendante
:
est l'index de Gini du noeud qui détermine la dispersion des enregistrements du
noeud selon les valeurs de variable cible. L'index de Gini
où
est calculé ainsi :
est la proportion du nombre d'enregistrements du noeud ayant la valeur
de la
variable cible. Plus les enregistrements présents dans le noeud sont homogènes quant
à la valeur de variable cible qui leur est associée, moins l'index sera élevé.
est l'impureté résiduelle qui sera nécessaire pour classifier les enregistrements
suite à la création de l'embranchement binaire si on utilise la variable
l'embranchement.
où
pour créer
est calculé avec la formule qui suit :
est la proportion du nombre d'enregistrements de la branche
et
est l'index
de Gini de la branche . Pour une variable indépendante catégorielle, le critère de Gini
sera calculé pour toutes les façons possibles de séparer les enregistrements en deux
groupes en utilisant les sous-groupes de valeurs de la variable indépendante. Pour une
variable indépendante continue,
Supposons une variable
avec
est calculé comme suit :
valeurs. Après avoir ordonné les valeurs de la
variable, on calcule pour chaque valeur
les enregistrements en deux branches :
( = 1, ...,
<=
et
>
) une valeur
.
en divisant
est ensuite calculé en
23
utilisant
= 1, 2. La valeur
pour laquelle on obtient la valeur minimale est utilisée
pour calculer le critère de Gini de la variable. La variable pour laquelle on obtiendra le
critère de Gini maximal sera sélectionnée pour la création de l'embranchement.
Le critère du « Twoing » a été proposé pour compenser la tendance du critère de Gini à
produire des embranchements débalancés à certains endroits lorsque la variable cible
présente un grand nombre de valeurs. Le critère du « Twoing » est calculé ainsi :
où
et
et
et
sont les proportions du nombre d'enregistrements des branches
sont les proportions du nombre d'enregistrements des branches
qui ont la valeur
et
,
et
de la variable cible. Cependant, Breiman et al. (1984) mentionnent
qu'après expérimentation sur plusieurs ensembles de données, le critère de Gini
présente des résultats légèrement supérieurs et que son utilisation est préférable dans
la plupart des cas.
Dans le cas d'une variable cible continue, les critères de séparation de Gini et du «
Twoing » ne peuvent être utilisés. L'algorithme sélectionnera dans ce cas la variable qui
minimisera
l'erreur
de
prévision
au
carré
dans
les
deux
sous-noeuds
de
l'embranchement.
Différents critères d'arrêt peuvent être utilisés : profondeur maximale atteinte,
homogénéité totale d'une classe dans un noeud, nombre minimal d'enregistrements
atteint dans un noeud, etc.
Les valeurs manquantes sont tolérées dans l'algorithme CART. Breiman et al. proposent
d'utiliser une méthode de variable de remplacement (« surrogate variable »). Cette
méthode permet d'utiliser les valeurs d'une variable indépendante sans valeurs
manquantes afin de déterminer l'embranchement d'un enregistrement avec une valeur
manquante. La variable de remplacement utilisée sera celle permettant de créer un
embranchement spécifique le plus similaire (« surrogate split ») à celui créé avec la
variable avec valeurs manquantes.
Un aspect important de l'algorithme CART est la méthode de post-élagage proposée : le
« cost complexity pruning ». Dans cette méthode, le « coût de complexité » d'un arbre
est fonction du nombre de feuilles et du taux d'erreur. Partant d'un arbre développé
complètement, le coût de complexité de chaque sous-arbre pouvant être créé à partir de
l'arbre original (en remplaçant un noeud intermédiaire par une feuille) est calculé. Le
24
sous-arbre présentant le coût de complexité minimal parmi tous ceux ayant un coût de
complexité inférieur à celui de l'arbre original remplacera celui-ci comme arbre terminal.
Construisant sur l'algorithme CLS, Quinlan (1986) crée l'algorithme ID3 (« Iterative
Dichotomizer (version) 3 »). Ici, les variables peuvent être catégorielles ou continues. À
la différence de CLS, ID3 utilise une mesure de gain informationnel basée sur l'entropie
pour la sélection des variables des noeuds. La variable sélectionnée à chaque noeud
sera celle qui apportera le plus grand gain informationnel. Ce gain informationnel
fonctionne de façon similaire à l'indice de Gini et est calculé de la façon suivante :
Soit un noeud N et une variable indépendante var. Le gain informationnel
est l'entropie du noeud
sera :
qui mesure son degré d'impureté. Ce degré d'impureté
est relatif à la dispersion des enregistrements du noeud selon les valeurs de la variable
cible. Plus les enregistrements présents dans le noeud sont homogènes quant à la
valeur de variable cible qui leur est associée, moins l'entropie sera élevée. L'entropie
est calculée ainsi :
où
est la proportion du nombre d'enregistrements du noeud ayant la valeur
de la
variable cible.
est l'impureté résiduelle qui sera nécessaire pour classifier les enregistrements
suite à la création de l'embranchement si on utilise la variable
l'embranchement.
où
est calculée avec la formule qui suit :
est la proportion du nombre d'enregistrements de la branche
l'entropie de la branche
pour créer
et
. Pour une variable indépendante continue,
est
est
calculée de façon similaire au critère de Gini.
Donc la variable ayant le plus grand gain informationnel
sera celle qui permettra de
réduire le plus possible la charge de travail restante suite à la création de
l'embranchement avec cette variable pour terminer la classification des enregistrements.
Suite à la sélection d'une variable, une branche sera crée pour chacune des valeurs de
la variable. Il est à noter que cet algorithme ne peut traiter les valeurs manquantes.
25
Afin de pallier aux limitations de l'algorithme ID3, Quinlan (1993) présente l'algorithme
C4.5. En effet, la mesure de gain informationnel utilisée par ID3 peut mener à la
sélection d'une variable ayant un très grand nombre de valeurs distinctes, mais dont la
valeur utilitaire pour produire une règle de classification est faible (ex.: variable de
numéro d'identification). Une telle variable peut causer la création d'un très grand
nombre de branches avec une cardinalité minime d'enregistrements dans chacune
d'entres elles, entrainant ainsi un sur-ajustement. Pour pallier à cette faiblesse,
l'algorithme C4.5 utilise une mesure d'impureté basée sur le ratio de gain. Cette mesure
tient compte du nombre d'enregistrements se retrouvant dans chacune des branches
par rapport au nombre total d'enregistrements du noeud. Cette mesure de ratio de gain
(RG) est calculée ainsi :
où
est la proportion du nombre d'enregistrements de la branche .
Ainsi, le gain informationnel d'une variable se retrouve ajusté au dénominateur par une
mesure tenant compte de la cardinalité de ses embranchements.
Dunham (2003) présente d'autres avantages de C4.5 par rapport à ID3 :

Les données manquantes sont tolérées par l'algorithme qui les ignore lors de la
construction de l'arbre;

Il y a deux méthodes d'élagage proposées par l'algorithme :
o
Remplacement d'un noeud par une de ses feuilles si le taux d'erreur est
minimalement affecté par le remplacement;
o
Remplacement d'un noeud par un de ses sous-noeuds si le taux d'erreur est
minimalement affecté par le remplacement.
Le lecteur intéressé trouvera dans Rokash et Maimon (2008) une revue de l'historique
des arbres de décision (surtout des arbres de classification), des critères de séparation,
des méthodes d'élagages ainsi que des algorithmes de construction d'arbres les plus
récents. Cet ouvrage est entièrement consacré aux arbres et aux méthodes
ensemblistes à base d'arbres.
2.3.2 Méthodes ensemblistes
Suivant l'invention des arbres de décisions, des chercheurs ont développé des
méthodologies utilisant des ensembles d'arbres. Ces méthodes, appelées méthodes
26
ensemblistes, consistent à créer un modèle constitué d'un certain nombre d'arbres. La
détermination de la valeur prédite par la combinaison des prédictions des arbres de
l'ensemble dépendra du type de variable cible. Dans le cas d'une variable catégorielle,
généralement, la valeur la plus souvent prédite par les arbres de l'ensemble sera la
prévision du modèle. Si la variable cible est de type continu, la moyenne, équipondérée
ou non selon la méthode, des prévisions fournies par chacun des modèles sera
retournée comme valeur prédite par le modèle ensembliste.
Les méthodes ensemblistes ont été créées afin de réduire les inconvénients liés à
l'utilisation d'un seul arbre pour produire des prévisions, notamment l'instabilité. Les
arbres de décision sont des méthodes instables car de petites variations dans les
données d'apprentissage peuvent entraîner de grandes variations dans les modèles
produits. Les méthodes ensemblistes se basent sur le principe que la moyenne de
plusieurs prévisions donne souvent une prévision plus précise qu'une prévision obtenue
par un seul modèle. Cela se produira selon Hansen et Salamon (1990) si deux
conditions sont rencontrées :
1) Les classificateurs sont précis : le taux d'erreur obtenu par chacun des
classificateurs est inférieur à celui obtenu en devinant au hasard;
2) Les classificateurs sont diversifiés : deux classificateurs distincts ont des taux
d'erreur distincts sur des prévisions produites sur de nouveaux enregistrements.
Conséquemment, les méthodes ensemblistes utiliseront diverses méthodes pour créer
de la diversité dans les modèles produits.
Dietterich (2000) présente cinq façons de créer des ensembles diversifiés :
1) Le vote Bayésien : Supposons l'hypothèse
probabilité conditionnelle
cible
d'un nouvel enregistrement
qui définit la distribution de
. La prédiction d'une variable
en utilisant un ensemble d'entraînement
peut être exprimée comme le problème de déterminer
. Nous
retrouvons ici une méthode d'ensemble où la valeur prédite sera la somme
pondérée des hypothèses dans l'ensemble d'hypothèses H :
;
2) Perturbation de la sélection de l'ensemble d'entraînement : Un ensemble de
modèles est généré en sélectionnant, pour chaque modèle, un échantillon
aléatoire d'enregistrements parmi l'ensemble d'enregistrements disponibles;
27
3) Perturbation de la sélection des variables indépendantes : Un ensemble de
modèles est généré en sélectionnant, pour chaque modèle, un échantillon
aléatoire de variables indépendantes parmi l'ensemble de variables disponibles;
4) Perturbation de la variable cible : Un ensemble de modèles est généré en
modifiant les valeurs de variable cible de la façon suivante pour chaque modèle :
Les valeurs de la variable cible sont regroupées aléatoirement en deux groupes
et sont modifiées pour prendre une valeur binaire (ex.: 0,1) selon le groupe. Le
modèle est entrainé avec cet ensemble d'entraînement modifié. L'ensemble
attribuera un vote à chaque valeur originale de variable cible dont le groupe aura
été prédit par un modèle, et la valeur de prédiction retournée par l'ensemble sera
la valeur ayant reçu le plus de votes;
5) Injection d'aléatoire : Chaque modèle de l'ensemble est construit en variant de
façon aléatoire un ou plusieurs paramètres de construction du modèle (ex.:
profondeur de l'arbre, nombre minimal d'enregistrements dans un noeud, etc.).
Dietterich explique également pourquoi les modèles ensemblistes agrégeant les
prévisions de plusieurs modèles donnent souvent des résultats plus précis qu'avec
l'utilisation d'un seul modèle. Il donne trois raisons à cela, qui sont de nature statistique,
computationnelle et représentationnelle :
1) Statistique : Chaque modèle représente une hypothèse
de la fonction
expliquant la variable cible. Cette hypothèse est située à un endroit différent de
la fonction
dans l'espace
regroupant toutes les hypothèses possibles. Un
modèle ensembliste combinant plusieurs modèles, donc plusieurs hypothèses,
représentera une hypothèse
qui sera probablement plus près de la fonction
que la plupart des hypothèses représentées par chacun des modèles;
2) Computationnelle : Un modèle seul partant d'un point de recherche peut se
retrouver bloqué dans un optimum local, ce qui l'empêchera d'approximer
correctement la fonction . Un modèle ensembliste combinant plusieurs modèles
aura plus de chances de s'approcher de l'optimum global;
3) Représentationnel : Un modèle seul ne peut espérer représenter la « vraie »
fonction
expliquant la variable cible. Un modèle ensembliste utilisant une
moyenne pondérée de plusieurs modèles comprenant l'utilisation d'une multitude
d'informations peut davantage espérer couvrir convenablement (même si la
couverture est incomplète) l'espace des modèles possibles pour approximer la
fonction .
28
Le gain de précision apporté par les méthodes ensemblistes est principalement dû à la
réduction de la composante de la variance dans l'erreur de prédiction. On peut
décomposer l'erreur de prédiction en trois sous-composantes : l'erreur minimale de
prédiction, le biais et la variance (voir Breiman (1998)).
Seni et Elder (2010) présentent la décomposition de l'erreur de prédiction de la façon
suivante :
Soit l'équation :
représentant la fonction cible
de
donné, additionné d'un terme d'erreur
qu'on tente de découvrir avec un modèle
supposé i.i.d..
n'est pas connue et le
terme d'erreur représente du bruit dans les données, des erreurs de mesure, etc.
Maintenant, soit un estimateur agrégé :
où
avec
est la moyenne de plusieurs modèles
ensembles de données d'entraînement :
construits avec le même algorithme
.
L'erreur moyenne au carré (MSE) sera, pour un modèle et ensemble de données précis
, avec = (1, ..., ) :
Un arbre utilisé seul présentera un biais assez bas mais une grande variance, étant
donné qu'une petite variation dans les données de l'ensemble d'entraînement peut
entraîner une grande variation dans l'arbre créé. Les méthodes ensemblistes améliorent
la performance de prévision en permettant de réduire, soit la variance, soit le biais, ou
en permettant d'atteindre un équilibre entre les deux. La composante d'erreur (
l'erreur totale, elle, ne peut être réduite.
) de
29
Bagging
Breiman (1996) conçoit la méthode du Bagging (« Bootstrap aggregating ») qui consiste
à créer
arbres en sélectionnant aléatoirement pour chaque arbre un échantillon dans
l'ensemble d'apprentissage. D'un arbre à l'autre, il y a remise des tuples de l'échantillon
dans l'ensemble d'apprentissage. À la fin du processus de création, pour chaque tuple
de l'ensemble de test :

Si la variable cible est de type nominal ou ordinal, la valeur de la variable cible
ayant été sélectionnée le plus souvent par les
arbres sera sélectionnée de
façon équipondérée;

Si la variable cible est de type continu, une moyenne équipondérée des
valeurs obtenues pour chacun des arbres sera retournée comme prévision du
modèle.
Boosting
Freund et Schapire (1996) présentent la méthode ensembliste du Boosting. Cette même
méthode a ensuite été généralisée par Breiman (1998) sous le terme de « Arcing » pour
« Adaptively Resample and Combine ». Cette méthode consiste, comme le Bagging, à
créer successivement
arbres en sélectionnant à chaque fois un échantillon de taille
dans l'ensemble d'apprentissage. Au départ, tous les enregistrements ont la même
probabilité (poids) d'être sélectionnés égale à
. Cependant, lors du processus de
création des arbres, les échantillons sélectionnés pour la création d'un arbre et mal
classifiés par celui-ci seront retournés dans l'ensemble d'apprentissage avec une
probabilité plus élevée d'être sélectionnés lors de la création d'un arbre subséquent. Les
échantillons bien classifiés, quant à eux, verront leur poids décroître suivant la même
logique. Ainsi, l'algorithme, appelé Adaboost (acronyme de « Adaptive Boosting ») «
encourage » la sélection des tuples les plus difficiles à classifier au fur et à mesure du
déroulement du processus de création. Chaque arbre créé recevra un poids qui sera
utilisé à la fin du processus de création pour classifier les enregistrements de l'ensemble
de test. Ce poids sera calculé en tenant compte du nombre de tuples mal classifiés dans
l'échantillon ayant servi à la création de l'arbre. Le modèle ainsi produit attribuera
comme valeur de prévision à un nouvel enregistrement une valeur de la variable cible
par un vote pondéré en tenant compte des poids de chaque arbre.
30
Friedman (2001, 2002) adapte l'algorithme AdaBoost pour les problèmes de régression
où la variable cible est continue. Friedman démontre que l'algorithme Adaboost utilise en
fait une fonction de perte exponentielle. Il propose alors la méthode du « Gradient
Boosting » qui généralise l'algorithme AdaBoost pour l'utilisation de n'importe quelle
fonction de perte différentielle. Notons que le « Gradient Boosting » est applicable autant
pour des problèmes de classification que de régression, en utilisant des fonctions de
perte appropriées.
Dans cette méthode, on tente de déterminer une fonction prédictive
l'espérance d'une fonction de perte
où
est la variable cible et
qui minimisera
:
la fonction qu'on cherche à estimer. Cette fonction de
perte doit être différentiable par rapport à la fonction prédictive. Cette minimisation de la
fonction de perte devrait en théorie entraîner la minimisation du taux d'erreurs de
prévision.
La fonction prédictive est d'abord initialisée avec la valeur d'une constante qui constitue
une prédiction initiale non optimale. Ensuite, cette fonction sera mise à jour avec les
prédictions successives d'une série de
arbres de régression qui constitueront
l'ensemble. Nous avons ainsi une fonction de type additive qui met à jour la valeur de la
fonction prédictive avec le résultat retourné par chaque itération. La variable cible
prédite par ces arbres sera, non pas la variable cible originale, mais une variable cible «
artificielle », le gradient négatif, calculé par la négative de la dérivée de la fonction de
perte par rapport à la fonction prédictive pour chaque enregistrement servant à
l'entraînement de l'arbre. Ce gradient négatif indique la pente la plus abrupte (« steepest
descent ») en direction de la fonction optimale. On parle ici de gradient stochastique
(Friedman (2002)) car une proportion
d'enregistrements de l'ensemble entraînement
est sélectionnée de façon aléatoire sans remise. La prédiction optimale de chaque
noeud terminal de l'arbre sera le paramètre estimé
où
est l'ensemble des enregistrements
qui minimise la fonction de perte :
du noeud .
La fonction est mise à jour après chaque itération suivant un pas
d'apprentissage :
le long de la pente
31
où
est le nœud terminal où l’enregistrement
se retrouvera. À la fin du processus,
est retournée comme étant la fonction prédictive.
Le calibrage de l'algorithme, notamment la sélection des paramètres du taux
d'apprentissage, de la profondeur des arbres et du nombre d'arbres utilisés, demande
un certain effort. Freidman suggère d'utiliser un ensemble de test hors échantillon pour
ce faire.
Selon Friedman, cet algorithme permet de produire des modèles robustes qui
démontrent une bonne résistance au bruit dans les données.
Cependant, un problème affectant le « Gradient Boosting », et les méthodes
ensemblistes de façon générale, est l'interprétation. Ici, Friedman propose une méthode
permettant de déterminer une mesure d'influence relative pour chaque variable
indépendante. Cette mesure est la suivante :
où
est le nombre d'arbres de l'ensemble et
suite à l'utilisation de la variable
est la réduction de l'erreur au carré
lors de la création des embranchements dans l'arbre
. Cette mesure de réduction de l'erreur est la mesure d'impureté utilisée dans Breiman
et al. (1984) dans le cas d'une variable cible continue.
Forêts aléatoires
Breiman (2001) créé une méthode dérivée du Bagging qu'il appelle : Forêts aléatoires («
Random Forests »). Ainsi, une modification est apportée au Bagging en « injectant » un
facteur aléatoire lors de la création des noeuds des arbres composant l'ensemble. À
chaque noeud, un sous-ensemble des variables explicatives est sélectionné et
l'algorithme doit sélectionner dans ce sous-ensemble la variable qui déterminera
l'embranchement optimal. Le nombre proposé de variables à sélectionner à chaque
noeud est
où
est le nombre de variables indépendantes.
Cependant, Breiman observe d'après ses expérimentations que la performance de la
méthode est peu affectée par la taille
du sous-ensemble de variables sélectionnées.
Les arbres sont créés par l'utilisation de l'algorithme CART sans élagage. Cette
méthode favorise la création d'arbres plus variés et est applicable autant aux arbres de
classification qu'aux arbres de régression. Selon Breiman, les modèles de forêts
aléatoires présentent les caractéristiques suivantes (traduction libre) :
1) leur précision est équivalente à l'algorithme Adaboost et parfois meilleure;
32
2) ils sont robustes et résistants au bruit dans les données;
3) ils sont plus rapides que les modèles du Bagging et du Boosting en raison du
moins grand nombre de variables à évaluer à chaque noeud;
4) ce sont des modèles simples et qui peuvent être implémentés en utilisant la
parallélisation.
Breiman propose également une méthode d'évaluation de l'importance des variables
indépendantes utilisées par les modèles de forêts aléatoires visant à faciliter leur
interprétation. Un modèle de forêt aléatoire est construit avec un ensemble
d'entraînement. Une erreur de classification ou de prédiction est calculée avec un
ensemble de test hors échantillon pour chaque arbre du modèle de forêt aléatoire.
Ensuite, pour chaque variable indépendante
, ses valeurs dans l'ensemble hors
échantillon sont tour à tour permutées de façon aléatoire parmi les enregistrements et
une erreur est calculée pour chacune d'elles pour chaque arbre du modèle de forêt
aléatoire. Pour chaque variable, la différence entre les erreurs avant et après
permutation est calculée pour chaque arbre et la moyenne de cette mesure de variation
d'erreur est finalement calculée sur l'ensemble des arbres. Pour chaque variable, on
obtient donc une mesure qui détermine l'importance de chaque variable indépendante
selon la grandeur de la moyenne d'accroissement de l'erreur.
Une hypothèse pour expliquer l'utilité des forêts aléatoires en tant que méthode non
linéaire est avancée par Cutler et al. (2007). Cette méthode devrait, selon cet article,
performer mieux que les méthodes linéaires s'il y a de fortes interactions entre les
variables indépendantes.
La mesure d'importance des variables indépendante présentée par Breiman (2001) a
été par la suite utilisée par certains chercheurs dans des méthodologies pour
sélectionner un sous-ensemble de variables pour la création de modèles ensemblistes.
Cela, dans le but par exemple de réduire le nombre de variables redondantes et/ou de
produire des modèles plus facilement interprétables.
On peut mentionner tout d'abord Díaz-Uriarte et Alvarez de Andrés (2006). Dans un
problème de classification où des gènes sont utilisés comme variables indépendantes
pour produire (classifier) un diagnostic, ils tentent de sélectionner un sous-ensemble de
gènes le plus petit possible qui permettra d'obtenir une performance de classification
33
similaire à celle obtenue sans réduire le nombre de variables. Les dix ensembles de
données présentent un très grand nombre de variables indépendantes
milliers) en comparaison avec le nombre d'enregistrements
(quelques
(un maximum de 102 pour
le plus grand des ensembles). Ils procèdent en créant initialement un modèle de forêt
aléatoire avec l'ensemble des variables indépendantes, avec lequel des mesures
d'importance et une erreur de classification hors échantillon sont calculées. Ensuite, de
façon incrémentale, les 20% des variables de l'ensemble précédent présentant
l'importance la plus faible sont retirées de l'ensemble d'entraînement et un nouveau
modèle de forêt aléatoire est produit avec son erreur de classification hors échantillon.
Cela, pour un nombre maximal d'itérations. Les mesures d'importance utilisées sont
celles calculées avec la forêt aléatoire initiale et ne sont pas recalculées à chaque
itération, cela risquant d'entraîner des problèmes de surentraînement. À la fin du
processus, l'ensemble de gènes ayant la taille la plus petite et se trouvant à moins d'un
écart-type de l'erreur de classification minimale observée pour l'ensemble des forêts
créées est conservé.
Les résultats montrent que les ensembles réduits de variables indépendantes
permettent d'obtenir des taux d'erreur de classification similaires à ceux obtenus en
utilisant la totalité des variables. La réduction du nombre de variables est considérable,
passant de quelques milliers (modèles complets) à 230 et moins dans les modèles
réduits.
Ben Ishak et Ghattas (2008) procèdent de façon inverse en ajoutant successivement
des variables dans un modèle en commençant par celles ayant la plus forte importance,
et en conservant le modèle produisant la plus faible erreur hors échantillon. Les
méthodes utilisées pour calculer les mesures d'importance comprenaient les machines à
vecteurs supports et les forêts aléatoires. Les ensembles de données utilisés sont au
nombre de quatre, sélectionnés parmi les dix utilisés dans Díaz-Uriarte et Alvarez de
Andrés (2006).
Les conclusions sont similaires à celles de Díaz-Uriarte et Alvarez de Andrés (2006).
Enfin, Genuer, Poggi et Tuleau-Malot (2010), proposent une méthode en quatre étapes
pour la réduction du nombre de variables. Cela, pour atteindre deux objectifs spécifiques
:
34
1) interprétation : déterminer les variables les plus étroitement liées à la variable
cible;
2) prédiction : déterminer un nombre minimal de variables permettant d'obtenir une
erreur de prédiction comparable à celle obtenue avec l'ensemble des variables
indépendantes disponibles.
Méthode :
1)
Les variables sont classées en ordre décroissant selon leur importance
moyenne (calculée sur 50 itérations);
2)
Une première élimination a lieu en mettant de côté les variables dont la mesure
d'importance montre un écart-type en deçà d'un seuil minimal estimé par arbre
CART;
3)
Pour l'objectif d'interprétation : Des modèles de forêt aléatoire sont créés en
ajoutant successivement des variables, en débutant par celles ayant la plus
grande importance. Le modèle ayant le plus petit nombre de variables et se
trouvant à moins d'un écart-type de l'erreur de classification minimale moyenne
(calculé sur 50 itérations) observée pour l'ensemble des forêts créées est
conservé;
4)
Pour l'objectif de prédiction : Utilisant les variables du modèle choisi à l'étape 3),
des modèles sont produits en ajoutant successivement les variables une par
une par ordre décroissant d'importance. La production de modèles s'arrête si
l'ajout d'une variable supplémentaire mène à une décroissance de l'erreur en
deçà d'un certain seuil.
Pour quatre ensembles de données utilisés dans Díaz-Uriarte et Alvarez de Andrés
(2006), le nombre de variables dans les modèles réduits est considérablement inférieur
au nombre de départ (variation passant de quelques milliers à moins de cent variables),
et les résultats en terme d'erreur de classification obtenu par validation croisée sont de
même ordre que ceux obtenus avec les modèles complets.
Rokash (2009) offre une revue des différentes méthodes ensemblistes de classification
disponibles aux chercheurs et professionnels. Cette revue inclut les plus récentes
méthodes et certaines méthodes prometteuses habituellement non mentionnées dans
d'autres revues, comme l'algorithme DECORATE (Melville et Mooney (2003)) et le «
Attribute Bagging » (Bryll, Gutierrez-Osuna et Quek (2003)) par exemple. Il propose
également une nouvelle méthodologie unifiée afin de caractériser et comparer ces
35
méthodes entre elles. Cette méthode classifie les différentes méthodes selon cinq
aspects : la méthode d'agrégation des résultats des classificateurs de l'ensemble,
l'indépendance ou non des classificateurs entre eux, la façon d'introduire de la diversité
dans les classificateurs, la méthode de détermination de la taille de l'ensemble, et
l'indépendance ou non du type de classificateurs avec la méthode ensembliste.
Finalement, l'auteur propose une liste de critères de sélection à considérer pour la
sélection de la méthode appropriée selon la problématique (ex.: temps de calcul,
interprétation des résultats, flexibilité, etc.)
Dans Siroky (2009), une revue de l'historique des forêts aléatoires est présentée, qui
comprend la revue des méthodes ensemblistes précurseurs du Bagging et du Boosting.
L'auteur discute ensuite des méthodes de visualisation des données connexes aux
modèles de forêts aléatoires, méthodes qui permettent de pallier à l'interprétation plus
ardue de ces modèles en comparaison avec un arbre simple. Ces données
comprennent notamment les résultats, les relations entre les variables indépendantes et
la variable cible, et les taux d'erreurs hors échantillon. Les situations où les forêts se
révèlent utiles sont énumérées, notamment la sélection de variables et le remplacement
de données manquantes, ainsi que les logiciels permettant de les implémenter.
Finalement, Siroky mentionne des recherches récentes qui se sont intéressées aux
propriétés et limitations des forêts, notamment leur consistance (ex.: Biau, Devroye et
Lugosi (2008)) et le biais des mesures d'importance produites par les forêts aléatoires
(ex.: Strobl et al. (2007)). Une bibliographie exhaustive accompagne cet article.
Seni et Elder (2010) offrent une revue des algorithmes des méthodes ensemblistes et
fournissent des exemples de code du logiciel R afin d'implémenter ces méthodes.
Ils montrent également comment le modèle « Importance Sampling Learning Ensemble
(ISLE) » présenté dans Friedman et Popescu (2003) permet de représenter les quatre
méthodes ensemblistes du Bagging, d'AdaBoost, du « Gradient Boosting » et des forêts
aléatoires comme des cas spécifiques d'un même algorithme.
Finalement, ils présentent une méthode de construction de modèles d'ensembles de
règles visant à améliorer l'interprétation des modèles ensemblistes, avec des exemples
utilisant des données artificielles et réelles. Cette méthode a été créée par Friedman et
Popescu (2005). Dans cette méthode, les règles
sont extraites d'arbres ayant servi
36
à construire un modèle ensembliste. Ensuite, un modèle linéaire
est construit en
utilisant ces règles non linéaires :
Les coefficients
sont estimés suivant Friedman et Popescu (2004). Ainsi, cette
méthode permet une analyse plus détaillée des règles extraites via l'interprétation des
coefficients associés à chaque règle. L'importance des variables indépendantes peut
également être évaluée selon leur utilisation par les règles ayant les coefficients les plus
significatifs.
2.3.3 Comparaisons des méthodes ensemblistes entre elles et avec d'autres méthodes
Plusieurs chercheurs ont comparé empiriquement les méthodes ensemblistes entres
elles, et avec d'autres méthodes de classification et de prédiction.
Bauer et Kohavi (1999) ont mené une étude comparative de méthodes ayant comme
base le Bagging et le Boosting (Adaboost et Arc-x4) pour des problèmes de
classification. Le but de l'étude était d'obtenir une meilleure compréhension des raisons
expliquant les performances des deux types de méthodes, et des situations où elles
fonctionnent mieux. Pour cela, une décomposition biais/variance des erreurs de
classification obtenues a été effectuée. Il y avait deux types de classificateurs utilisés
dans les ensembles : les arbres de décision (trois variantes) et l'algorithme Naive-Bayes.
Quatorze ensembles de données ont été utilisés.
De façon générale, en ce qui concerne les ensembles construits avec les arbres de
décisions, les méthodes basées sur le Boosting ont donné les meilleurs résultats. Cela
rejoint les observations de plusieurs études antérieures, notamment Breiman (1998) et
Quinlan (1996). La réduction de l'erreur de classification apportée par le Bagging est
principalement due à la réduction de la variance. Les méthodes de Boosting, quant à
elles, ont permis une réduction à la fois de la variance et du biais. Le Bagging présente
une variance moins élevée que les méthodes du Boosting, qui elles, présentent toutefois
un biais plus faible. Les auteurs ont constaté que l'utilisation de l'élagage augmentait
parfois l'erreur pour le Bagging, alors que l'inverse a été observé pour le Boosting.
Finalement, malgré sa supériorité face au Bagging, la méthode Adaboost s'est révélée
sensible au bruit dans les données. Sa performance se dégradait significativement au
fur et à mesure que les auteurs augmentaient le niveau de bruit dans les données.
37
Après expérimentation sur 19 ensembles de données, Breiman (2001) montre une
performance de prévision des forêts aléatoires similaire, et souvent supérieure, comparé
au Boosting (Adaboost). Des tests supplémentaires effectués en ajoutant 5% de bruit
dans les données montrent une plus grande résistance des forêts aléatoires face au
bruit selon l'accroissement du taux d'erreur de classification.
Dans Labarre (2003), l'auteure a comparé les capacités prédictives de diverses
méthodes quantitatives en ce qui a trait à l'identification d'acheteurs potentiels. Les
méthodes comparées consistaient en : la régression logistique, une méthode maison
utilisée dans une entreprise et quatre méthodes ensemblistes. Les quatre méthodes
ensemblistes étaient : le Bagging, le Boosting, la Randomisation et les forêts aléatoires.
La variable cible était de type binaire : achat = oui/non. Les variables explicatives étaient
de deux types : binaire et continu.
Les résultats obtenus, en utilisant un échantillon de test constitué de données prises
plus tard dans le temps comparé à l'échantillon d'entraînement, montrent que les
méthodes ensemblistes ont donné des résultats similaires à la méthode de l'entreprise
et supérieurs à la régression logistique. Parmi les méthodes ensembliste, la méthode
des forêts aléatoires est la seule ayant pu surpasser la méthode de l'entreprise lors
d'une validation.
Dans l'article de Hamza et Larocque (2005), on compare la performance de prédiction
d'un arbre de classification simple et de trois méthodes ensemblistes : le Bagging, le
Boosting et les forêts aléatoires. Ces méthodes sont utilisées avec différents choix de
paramètres (nombre d'arbres dans les méthodes d'ensembles, indice d'impureté pour la
sélection des embranchements).
L'algorithme de construction des arbres de
classification utilisé est CART. Il y a utilisation de 14 ensembles de données accessibles
publiquement et provenant de divers domaines d'application. La performance est
déterminée par le pourcentage d'erreur de classification en utilisant la méthodologie de
validation croisée à dix groupes.
Les résultats obtenus montrent que, en général, la méthode des forêts aléatoires donne
les meilleurs résultats (dans neuf ensembles de données sur quatorze) et que cette
méthode est la plus robuste en présence de bruit dans les données. Les méthodes
utilisant l'algorithme du Boosting obtiennent ensuite les meilleurs résultats, suivies des
méthodes utilisant le Bagging.
38
Cutler et al. (2007) ont comparé les performances de classification des forêts aléatoires
avec quatre autres méthodes : l'analyse discriminante linéaire, la régression logistique,
la régression logistique additive et l'arbre de classification simple. La classification
s'effectuait sur trois ensembles de données dans le domaine de l'écologie et portait sur
deux espèces de plantes et une variété d'oiseaux nicheurs. Les données écologiques
présentent des similarités avec les données financières car les interactions entre ces
données sont complexes et non linéaires selon Cutler et al., et il y a régulièrement des
valeurs manquantes parmi elles.
Sur les trois ensembles de données, la méthode des forêts aléatoires a présenté les
meilleurs résultats selon le critère de performance du pourcentage de bonnes
classifications évalué par validation croisée à dix groupes. Également, pour l'un des
deux ensembles d'espèces de plantes, les variables identifiées comme étant les plus
prédictives selon une mesure d'importance similaire à celle utilisée dans ce mémoire
(voir section 3.9.4) concordaient avec les variables prédites comme étant les plus utiles
pour la classification de cette espèce dans la littérature.
Ce mémoire va se situer dans la continuité de ces recherches en utilisant des méthodes
ensemblistes pour produire des prévisions de BPA trimestriels. Cela, en utilisant des
variables indépendantes de types économiques et financières.
Il y aura :

Comparaison de la performance des méthodes ensemblistes entre elles et avec
une méthode standard, la régression linéaire, et une méthode servant de base
de comparaison, l'arbre de régression simple;

Comparaison de la précision des résultats des méthodes ensemblistes avec
celle des analystes.
39
CHAPITRE 3 - Méthodologie
3.1 Introduction
La revue de littérature a permis, dans un premier temps, de revoir les différentes
méthodes quantitatives qui ont été utilisées dans le passé pour la prévision financière.
La performance de ces méthodes pour la prévision des bénéfices ou d'autres données
financières est variable selon le type de méthode. La comparaison des méthodes
quantitatives utilisées en prévision financière a pu faire ressortir une certaine dominance
des méthodes non paramétriques sur les méthodes paramétriques. Cela, fort
probablement en raison de la nature non linéaire des données financières.
Parmi les méthodes quantitatives, les méthodes ensemblistes à base d'arbres se sont
révélées intéressantes pour la prévision financière, notamment dans la prédiction du
risque de faillite et des rendements anormaux.
Quant à la prévision des bénéfices, les recherches montrent que les analystes financiers
arrivent à prévoir les bénéfices avec un degré de précision appréciable par l'industrie
financière. Ces derniers disposent toujours d'une longueur d'avance sur les méthodes
quantitatives, de par leur capacité à traiter des informations non disponibles pour
l'analyse quantitative, et parce qu'ils disposent d'un avantage temporel, entre autres.
3.2 Objectifs de recherche
À partir des constatations apportées par la revue de littérature, les deux objectifs de
recherche suivants ont été déterminés pour cette recherche :
1) Mesurer et comparer les performances en termes de précision des prévisions de
BPA trimestriel obtenues avec les trois méthodes ensemblistes suivantes : le
Boosting, le Bagging et les forêts aléatoires. Il y aura également utilisation d'un
arbre de régression simple comme base de comparaison afin de confirmer la
supériorité prédite des méthodes ensemblistes sur celui-ci, et confirmer ou
infirmer les résultats d'autres recherches.
La première hypothèse pour cet objectif est que la méthodologie des forêts
aléatoires dominera les deux autres méthodes ensemblistes et l'arbre simple. Ce
résultat a été observé dans plusieurs recherches passées, notamment Labarre
(2003), Hamza et Larocque (2005) et Cutler et al. (2007).
La régression linéaire sera également utilisée comme standard en tant que
méthode paramétrique. Cela, en raison du fait qu'elle est toujours grandement
utilisée dans les travaux de recherche en finance, et également pour fins de
40
comparaison avec les arbres de régression et les méthodes ensemblistes, qui
sont des méthodes non paramétriques. Comme la nature des données
financières est généralement non linéaire, comme deuxième hypothèse pour cet
objectif, nous nous attendons à ce que les méthodes non paramétriques
démontrent une meilleure performance que les méthodes paramétriques, comme
cela a été observé dans Cutler et al. (2007), entre autres;
2) Comparer l'erreur absolue moyenne de prévision en pourcentage (EAMP) des
méthodes ensemblistes avec celle des analystes. Cela, pour fins de
comparaison avec les écarts observés dans d'autres recherches où une
comparaison de performance de prédiction entre les méthodes quantitatives et
les analystes a été effectuée. Advenant qu'un écart réduit soit trouvé, que nous
proposons de 15% ou moins, nous croyons que les méthodes ensemblistes
pourraient être utilisées par les analystes pour valider leurs propres prévisions.
Elles pourraient également servir à identifier les variables prédictives qui ont été
sélectionnées dans les arbres constituant les modèles produits par ces
méthodes, ainsi que les règles de décisions liées à ces variables dans les
embranchements des arbres.
Également, de façon secondaire, il sera intéressant de comparer les industriestrimestres où les méthodes ensemblistes ont montré les meilleurs (moins bons)
résultats avec ceux où les analystes performent le mieux (le moins).
3.3 Description de la variable cible
La variable cible utilisée sera le bénéfice par action (BPA) trimestriel.
Cette donnée est pratique en recherche, en raison de la disponibilité dans diverses
bases de données d'une masse appréciable d'historiques de prévisions de BPA
trimestriels par les analystes financiers, et de BPA trimestriels réalisés.
Le bénéfice utilisé pour le BPA dans ce mémoire est un bénéfice de type « Street ».
Dans la littérature s'intéressant aux bénéfices, on mentionne généralement deux types
de bénéfices : « GAAP » vs « Street », dont voici les caractéristiques :
41
Tableau 3 : Caractéristiques des bénéfices « GAAP » vs « Street » 3
Type de bénéfice
Bénéfices « GAAP »
Caractéristiques
 Bénéfices apparaissant dans les rapports financiers publiés par les
entreprises
 Bénéfices produits selon les principes comptables généralement
reconnus (PCGR) (en anglais : GAAP : « Generally Accepted
Accounting Principles »)
Bénéfices « Street »
 Bénéfices annoncés dans les communiqués de presse des
entreprises
 Bénéfices rapportés par plusieurs fournisseurs de données
relatives aux prévisions de bénéfices comme IBES, Zacks et
FirstCall
 Égal à : bénéfices « GAAP » moins certaines charges considérées
extraordinaires et choisies de façon arbitraire. Ex.: charges de
restructuration, poste hors-caisse, frais liées aux fusionsacquisitions.
Une autre caractéristique du BPA que nous utiliserons est qu'il est de base plutôt que
dilué. L'IAS (« International Accounting Standards »)4 donne une définition de ces deux
types de BPA :

BPA de base : Le résultat de base par action doit être calculé en divisant le
résultat attribuable aux porteurs d’actions ordinaires de l’entité mère (le
numérateur) par le nombre moyen pondéré d’actions ordinaires en circulation (le
dénominateur) au cours de la période;

BPA dilué : Pour le calcul du résultat dilué par action, une entité doit ajuster le
résultat attribuable aux actionnaires ordinaires de l’entité mère, ainsi que le
nombre moyen pondéré d’actions en circulation des effets de toutes les actions
ordinaires potentielles dilutives.
Nous avons choisi dans ce mémoire d'utiliser le BPA de base. Les données disponibles
auraient permis l'utilisation de l'un ou l'autre des deux types de BPA.
3
4
Bradshaw et Sloan (2002, traduction libre).
http://eifrs.iasb.org/eifrs/bnstandards/fr/ias33.pdf (accès réservé).
42
3.4 Choix et description des variables explicatives
Différentes variables explicatives ont été sélectionnées pour leur potentiel prédictif sur
les bénéfices. Ces variables sont au nombre de 44 et ont été regroupées en quatre
groupes :
1) Variables économiques;
2) Variables financières;
3) Variables boursières;
4) Variables de contrôle.
Tableau 4 : Variables explicativesa
Variables économiques
(13)
Heures travaillées. secteur
manufact. (ehpmf)
Demandes initiales d'ass.chômage (eclai)
Nouvelles comm. de biens
de conso. et de matériaux,
secteur manufact. (ex213)
Indice d'anticipation des
consommateurs (eu0m8)
Indice S&P 500 (eu0m1)
Commandes de biens de
capital
secteur manufact. (eomca)
Nouveaux permis de bâtir
(ehuat)
Délais inhabituels de
livraisons (eu0m3)
Masse monétaire M2
(emny2)
Écart taux d'intérêt T-Bonds
10 ans <> fonds fédéraux
(erm10)
Variables financières (17)
Bénéfice par action (feps)
Bénéfice (fben)
a
Variables de contrôle (2)
Code d'industrie (ecosec)
Taille de l'entreprise (ftaille)
Indice S&P 500 Secteur :
Services financiers (fifin)
Rendement de l'actif (froa)
Stabilité des rendements
(fstar)
Service de la dette (fdets)
Profitabilité cumulative
(fprocu)
Liquidité (flqdt)
Capitalisation boursière
(fcapb)
Ratio de rotation de l'actif
(frota)
Ratio d'endettement (fdett)
Indicateur composite
avancé (ejlead)
Indicateur composite
coïncident (ejcoin)
Indicateur composite
retardé (ejlag)
Variables boursières (12)
Cours du titre de l'entreprise
(fcote)
Indice S&P 500 Secteur :
Santé (fihea)
Indice S&P 500 Secteur :
Consommation
discrétionnaire (ficod)
Indice S&P 500 Secteur :
Consommation courante
(ficos)
Indice S&P 500 Secteur :
Énergie (fienr)
Indice S&P 500 Secteur :
Technologie (fiint)
Indice S&P 500 Secteur :
Matériaux de base (fimat)
Indice S&P 500 Secteur :
Produits industriels (fiind)
Indice S&P 500 Secteur :
Télécommunications (fitel)
Indice S&P 500 Secteur :
Services publics (fiuti)
Ratio d'inventaire (finv)
Ratio de comptes
Indice S&P 500 VIX (fvix)
recevables (frec)
Ratio de dépenses
d'équipement (fcapx)
Ratio de marge brute (fmb)
Ratio de frais
d'administration (fadm)
Taux d'imposition (fimp)
Ratio de productivité (fprod)
Entre parenthèses est indiqué le code de la variable utilisé dans les tableaux subséquents.
Il est important de prendre note que, à l'exception des deux variables de contrôle et de
la variable financière de la stabilité des rendements (fstar), ces variables ne seront pas
directement
utilisées
comme
variables
explicatives.
Plutôt,
quatre
variations
43
trimestrielles seront calculées à partir de chacune d'elles et seront utilisées comme
variables explicatives (voir 3.6 Modèle temporel).
Ainsi, nous utiliserons au total 167 variables explicatives (indépendantes) : 41 * 4 = 164
variations trimestrielles + trois variables.
3.4.1 Variables économiques
Selon le « Conference Board », organisme privé américain à but non lucratif, dix
indicateurs ont tendance à anticiper les cycles économiques et sont donc considérés
comme des indicateurs avancés de l'économie. Selon le guide des indicateurs des
cycles économiques5 du « Conference Board » ces indicateurs doivent respecter
quelques critères (traduction libre) :

Être précurseurs des cycles économiques;

Être liés de façon économiquement logique aux cycles économiques;

Être calculés de façon statistiquement fiable;

Ne pas être sujets à une variance trop élevée;

Être disponibles dans un délai raisonnable.
Ces dix indicateurs sont :
1) Le nombre moyen hebdomadaire d'heures travaillées du secteur manufacturier;
2) Le nombre moyen hebdomadaire de demandes initiales d'assurance-chômage;
3) Les nouvelles commandes de biens de consommation et de matériaux du
secteur manufacturier;
4) L'indice d'anticipation des consommateurs;
5) L'indice S&P 500;
6) Les commandes de biens de capital du secteur manufacturier;
7) Les nouveaux permis de bâtir;
8) Les délais inhabituels de livraisons;
9) La masse monétaire M2;
10) L'écart entre les taux d'intérêt des obligations fédérales dix ans et les fonds
fédéraux.
Comme on peut supposer que la plupart des entreprises présentent des bénéfices plus
ou moins corrélés avec les cycles économiques, ces indicateurs seront utilisés comme
variables explicatives.
5
http://www.conference-board.org/pdf_free/economics/bci/BCI-Handbook.pdf, p. 14.
44
À ces indicateurs individuels, nous avons ajouté les trois indicateurs composites :
avancé, coïncident et retardé. Ces indicateurs composites sont constitués à partir des
indicateurs individuels de chacun des trois groupes selon la méthodologie présentée
dans la section IV (« Components and Construction of Composite Indexes ») du guide
des indicateurs des cycles économiques6 du « Conference Board ». Un indicateur
composite présente des avantages comparé aux indicateurs individuels : « Il offre un
signal plus régulier et plus précis sur les pics et les creux du cycle économique que
chacun des indicateurs précurseurs pris individuellement et permet de diminuer les
risques de faux signaux que ces derniers peuvent occasionner.7 »
Malgré l'objectif de prévision des bénéfices dans cette recherche, nous avons
néanmoins choisi d'inclure les indicateurs coïncidents et retardés. Cela, dans
l'hypothèse qu'ils aient un pouvoir prédictif pour certaines industries dont les bénéfices
réagiraient moins rapidement aux changements de cycles.
Les données mensuelles de tous ces indicateurs ont été utilisées. Ces données
mensuelles représentent, soit la valeur au dernier jour du mois, soit la moyenne des
données du mois, selon la source de données. La donnée correspondant à un trimestre
donné dans cette recherche sera celle du dernier mois du trimestre.
3.4.2 Variables financières
Tout d'abord, les valeurs passées de la variable dépendante, le BPA trimestriel, seront
utilisées comme variables indépendantes, en supposant que les bénéfices trimestriels
passés puissent prévoir les bénéfices futurs.
Le bénéfice en dollar sera lui aussi utilisé pour la même raison. Cette variable permet de
calculer une mesure additionnelle de variation trimestrielle de bénéfice ne dépendant
pas des variations du nombre d'actions en circulation. Il s'agit ici du bénéfice trimestriel
net avant intérêts et impôts.
L'analyse des états financiers des entreprises est nécessaire pour évaluer leur santé
financière, et, en conséquence, leur capacité à survivre et à générer des profits dans le
futur. Nous posons donc l'hypothèse que les variables financières s'étant montrées
6
7
http://www.conference-board.org/pdf_free/economics/bci/BCI-Handbook.pdf, p. 47.
Guide des indicateurs économiques des principaux pays industrialisés, Desjardins Études Économiques,
p. 52.
45
significatives pour prévoir la faillite des entreprises dans les recherches passées
devraient l'être également pour prévoir les bénéfices. La faillite d'entreprise peut en effet
être associée à une succession de pertes financières (bénéfices négatifs). Dans un
article important publié en 1977 par Altman, Haldeman et Narayanan, un modèle de
prévision de faillite, le modèle ZETATM, a été élaboré. Ce modèle utilise comme
variables prédictives sept différentes mesures qui, suite à un processus itératif, ont été
identifiées comme ayant un pouvoir prédictif sur la détresse financière. Il permet
d'attribuer un « score » à une entreprise qui, s'il est inférieur à un certain niveau, indique
un risque élevé de faillite dans un avenir rapproché. Dans ce mémoire, les sept
variables financières utilisées dans Altman, Haldeman et Narayanan (1977) seront
utilisées. Ces variables sont les suivantes :
1) Rendement de l'actif : Bénéfice net avant intérêts et impôts / Actif total;
2) Stabilité des rendements : Écart-type (Bénéfice net annuel avant intérêts et
impôts / Actif total annuel) des cinq dernières années;
3) Service de la dette : Bénéfice net avant intérêts et impôts / Intérêts payés;
4) Profitabilité cumulative : Réserves / Actif total;
5) Liquidité : Ratio de liquidité : Actif à court terme / Passif à court terme;
6) Capitalisation boursière : Total de la capitalisation boursière / Capitaux
permanents;
7) Taille de l'entreprise : log (Actif total).
Ces ratios se retrouvent dans les catégories de ratios financiers : 'Liquidité' et
'Rentabilité', qui sont deux des cinq catégories de ratios financiers généralement
utilisées selon Ross et al. (2007, Section 3.3, traduction libre) :
1) Liquidité;
2) Structure financière;
3) Exploitation;
4) Rentabilité;
5) Valeur au marché.
Afin de couvrir les catégories '2) Structure financière' et '3) Exploitation', deux autres
ratios, parmi les plus utilisés en recherche dans ces catégories selon Akers, Bellovary et
Giacomino (2007), seront ajoutés :
46

Structure financière : Pour tenir compte de l'endettement total : Passif total / Actif
total;

Ratio de rotation de l'actif : Ventes / Actif total moyen.
N.B.: La catégorie '5) Valeur au marché' sera couverte par les variables boursières
décrites dans la section 3.4.3.
Un autre groupe de sept variables financières sera également utilisé comme variables
indépendantes dans ce travail. Ce sont sept ratios qui ont été identifiés comme
particulièrement utiles pour la prédiction de BPA via l'utilisation de réseaux de neurones
dans un travail récent, Cao et Parry (2009), qui eux-mêmes s'inspiraient des variables
utilisées dans deux autres travaux récents : Abarbanell et Bushee (1998), et Beneish,
Lee et Tarpley (2001). Ces sept ratios sont les suivants :
1) Ratio d'inventaire : Inventaire ($) / Nombre d'actions ordinaires utilisé pour le
calcul de BPA de base;
2) Ratio de comptes recevables : Recevables ($) / Nombre d'actions ordinaires
utilisé pour le calcul de BPA de base;
3) Ratio de dépenses d'équipement : Dépenses d'équipement (cédule V) ($) /
Nombre d'actions ordinaires utilisé pour le calcul de BPA de base;
4) Ratio de marge brute : (Ventes - Coût des marchandises vendues) / Nombre
d'actions ordinaires utilisé pour le calcul de BPA de base;
5) Ratio de frais d'administration : Frais d'administration et de ventes/ Nombre
d'actions ordinaires utilisé pour le calcul de BPA de base;
6) Taux d'imposition : Impôts / Bénéfice avant impôts;
7) Ratio de productivité : log (Ventes/ Nombre d'employés).
Dans le calcul des ratios 3) et 7), les éléments : 'Dépenses d'équipements (cédule V)' et
'Nombre d'employés' sont rapportés uniquement dans les états financiers annuels dans
nos sources de données. Nous diviserons donc par quatre le montant annuel de
'Dépenses d'équipements' afin d'approximer le montant trimestriel, et nous utiliserons la
donnée annuelle du nombre d'employés comme donnée trimestrielle, en supposant que
ce nombre demeure stable pour l'année en question. Cela, pour la dernière donnée
annuelle connue au moment du trimestre. Nous nous appuyons ainsi sur Cao,
Schniederjans et Zhang (2004). Ils ont utilisé ce procédé pour ces variables dans leur
modèle, et n'ont pas observé de différences significatives sur leurs résultats en les
47
comparant avec des résultats obtenus : 1) avec l'utilisation d'une variable trimestrielle
alternative de dépenses d'équipements, et 2) en écartant la variable du ratio de
productivité.
Sauf pour les exceptions mentionnées, toutes les variables du groupe 'Variables
financières' seront calculées avec les données des états financiers trimestriels.
3.4.3 Variables boursières
Différentes nouvelles financières sont couramment publiées sur les entreprises. Ces
nouvelles peuvent être classifiées comme positives, neutres ou négatives et auront
souvent un effet avancé sur les bénéfices futurs des entreprises. Maintenant, il serait
très fastidieux de considérer toutes ces nouvelles une par une afin d'évaluer leur effet
potentiel sur les bénéfices. Une alternative est de considérer l'évolution du cours du titre
d'une entreprise comme variable de remplacement pour l'effet global de ces nouvelles.
On peut poser l'hypothèse que l'évolution à la hausse ou à la baisse du titre, et l'ampleur
du mouvement, permettraient de capter l'anticipation des investisseurs sur les bénéfices
futurs. Les cours sont ajustés pour tenir compte des fractionnements/consolidations
d'actions en les divisant par un facteur d'ajustement cumulatif fourni par le fournisseur
de données.
De la même manière, les mouvements récents des différents indices industriels
disponibles du S&P 500 devraient également être de bons indicateurs avancés des
attentes des investisseurs pour chaque industrie. Les industries de ces indices sont :
Tableau 5 : Industries des indices S&P 500
Industrie - S&P 500
Services financiers
Santé
Consommation discrétionnaire
Consommation courante
Énergie
Technologies de l'information
Matériaux de base
Produits industriels
Télécommunications
Services publics
La correspondance entre les industries des indices disponibles du S&P 500 et les
industries des entreprises faisant partie de notre étude (industries obtenues de IBES)
48
n'est pas parfaite (ex.: Consommation courante, discrétionnaire (S&P 500) vs
Consommation de biens durables, non durables (IBES)). Nous avons tout de même
décidé d'inclure cette variable, faute de mieux.
Une autre variable sera utilisée : la volatilité de l'indice S&P 500. Nous supposons que
cette variable pourrait également être considérée comme un indicateur avancé, car elle
pourrait avoir un effet prédictif sur les mouvements futurs de l'indice S&P 500, lui même
un indicateur avancé. Dans la littérature, nous retrouvons certains articles qui appuient
cette hypothèse. Par exemple, Giot (2002) observe que des niveaux élevés de l'indice
de volatilité implicite VIX lié à l'indice S&P 100 sont liés à des rendements positifs sur
certaines périodes de temps à court terme (un, cinq et vingt jours). Cependant, pour
d'autres niveaux de volatilité et d'autres périodes de temps, les résultats ne sont pas
aussi évidents dans son étude, qui porte sur une période de 16 ans, de 1986 à 2002.
Ici, pour chaque trimestre, nous avons calculé une valeur de VIX correspondant à la
moyenne de la valeur VIX de fermeture des journées du trimestre.
3.4.4 Variables de contrôle
Selon l'industrie, certaines variables économiques ou financières pourraient avoir une
influence plus élevée sur les bénéfices futurs. L'industrie de l'entreprise sera donc
utilisée comme variable explicative. L'industrie des entreprises de notre étude est
déterminée par les données descriptives fournies par IBES. IBES utilise un système de
classification qui lui est propre et qui est similaire à celui utilisé par le S&P 500 (pour les
entreprises américaines). L'industrie sera identifiée par les deux premiers chiffres du
code SIG (« Sector/Industry/Group ») qui est composé de six chiffres, où les deux
premiers chiffres identifient le secteur, les deux suivants l'industrie et les deux derniers
le groupe. Donc ici, ce que nous appelons 'Industrie' dans notre recherche correspond
au 'Secteur' dans le code SIG d'IBES.
49
Tableau 6 : Industries IBES
Code SIG
01
02
03
04
05
06
07
08
09
10
11
99
99
Industrie
Services financiers
Santé
Consommation (non durables)
Consommation (services)
Consommation (durables)
Énergie
Transports
Technologie
Extraction/Transformation
Construction/Manufacturier
Services publics
Divers
Autres
Code d'industrie utilisé
subséquemment dans les
tableaux
FINANCE
HEALTH
CONSND
CONSSVC
CONSDUR
ENERGY
TRANSP
TECHNOL
BASIC
CAPITAL
UTILITY
MISCELL
UNDESIG
Finalement, la taille de l'entreprise, la septième variable utilisée par Altman, Haldeman
et Narayanan (1977), sera l'autre variable de contrôle.
3.5 Description des variables liées aux prévisions des analystes dans IBES

Mesure : Donnée prévue par les analystes;

Périodicité : Fréquence de la mesure (annuelle, semi-annuelle, trimestrielle);

Indicateurs de périodicité : Indicateur alphanumérique qui indique le nombre de
périodes fiscales séparant la période de la prévision de la dernière période où les
états financiers ont été rendus publics, selon la périodicité (ex.: si la période de
prévision est le quatrième trimestre de l'année 2003 et que les derniers résultats
trimestriels publicisés sont ceux de deuxième trimestre 2003, l'indicateur de
périodicité indiquera deux);

Date d'activation (« Activate Date ») : Date où la prévision a été enregistrée dans
IBES;

Date d'annonce (« Announce Date ») : Date où l'analyste a produit la prévision;

Date de révision (« Review Date ») : Date où l'analyste a révisé sa prévision;

Date de fin de la période de prévision (« Forecast Period End Date ») : Date de
fin en format AAMM identifiant le mois de fin de la période de prévision;

BPA prévu : prévision de BPA par l'analyste;

BPA actuel : BPA réalisé reporté dans les états financiers de la firme;
N.B.: Dans IBES, il s'agit des BPA réalisés (« Historical ») provenant des états
financiers publiés initialement. Il arrive que les entreprises publient des états
50
financiers corrigés suite à la publication initiale de leurs états financiers. Cela, à
la suite d'événements comme des fusions-acquisitions, des changements dans
la méthode de comptabilisation, ou pour corriger des erreurs ou des omissions
dans la publication initiale notamment. Ces BPA corrigés (« Restated ») sont
également disponibles dans IBES, mais nous avons choisi d'utiliser les BPA
réalisés (« Historical ») pour fins de comparabilité avec les prévisions des
analystes. Cela, car il nous aurait été impossible d'ajuster les prévisions des
analystes adéquatement pour refléter les corrections dans les BPA réalisés. En
effet, ces changements sont la plupart du temps effectués pour tenir compte
d'informations qui n'étaient pas disponibles aux analystes lorsqu'ils ont produit
leurs prévisions.
3.6 Modèle temporel
Pour toutes les variables explicatives où il est possible de le faire (toutes les variables
listées ci-haut, sauf trois : Stabilité des rendements, Code d'industrie, Taille de
l'entreprise8), quatre variables seront créées en calculant les variations trimestrielles des
quatre trimestres antérieurs à :
Figure 1 : Modèle temporel
La terminologie utilisée sera la suivante : pour chaque variable où des variations
trimestrielles seront calculées, un suffixe '_vqxl' sera ajouté au code de la variable
indiqué dans le tableau 4, où
indique le nombre de trimestres retardés séparant la
variation trimestrielle du trimestre de prévision
.
Ex.: Variation trimestrielle retardée de deux trimestres du bénéfice par action (feps) :
feps_vq2l.
8
La taille du trimestre
sera utilisée.
51
Elles permettront de vérifier si les variations trimestrielles récentes de ces variables ont
un pouvoir prévisionnel sur la variable cible. Nous avons choisi de nous intéresser au
passé récent (un an ou moins) car nous croyons que ce sont les variations trimestrielles
récentes des données économiques et financières qui pourront le mieux aider à prévoir
le prochain BPA trimestriel.
Nous constituons ainsi un système de fenêtres roulantes où chaque fenêtre s'étale sur
cinq trimestres, et où les données des quatre premiers trimestres (constituées
principalement de variations en pourcentage) serviront à prévoir le BPA du cinquième
trimestre. C'est une méthode inspirée de celles utilisées récemment dans la recherche,
notamment Cao et Parry (2009) présentée dans la revue de littérature.
Nous posons l'hypothèse que deux trimestres passés en particulier devraient être
sélectionnés par les arbres de régression. L'un est évidemment le trimestre passé le
plus récent :
. La variation trimestrielle la plus récente d'un facteur économique
et/ou d'un ratio financier pourrait avoir un effet plus important sur le bénéfice du trimestre
suivant. L'autre serait le trimestre le plus éloigné,
plus tôt que celui du trimestre de prévision
, qui est le même trimestre un an
. Celui-ci pourrait contenir un effet
saisonnier pour certaines variables financières, comme le bénéfice lui-même entre
autres. Ainsi, certaines entreprises ont tendance à connaître des accroissements ou des
diminutions saisonnières de bénéfices, comme c'est le cas pour les entreprises de
l'industrie du commerce de détail par exemple, qui connaissent généralement des
bénéfices supérieurs lors de la période des Fêtes.
3.7 Données
3.7.1 Sources
La source de données des prévisions de BPA trimestriels par les analystes financiers
sera la BD IBES du fournisseur Thomson Reuters9. L'accès à cette BD a été fait par
l'intermédiaire du « Wharton Research Data Services (WRDS) » de la Warthon School
de la University of Pennsylvania, qui permet un accès à diverses BD de données
financières, économiques et de marketing.
9
THOMSON REUTERS. I/B/E/S Detail History User Guide, 54 p. <https://customers.reuters.com/Home/>
(accès réservé).
52
Cette BD a été abondamment utilisée dans les recherches s'intéressant aux prévisions
des analystes. Elle renferme des prévisions de données annuelles datant de 1976, et
trimestrielles datant de 1984, jusqu'à aujourd'hui. La BD IBES renferme également les
BPA réalisés par les entreprises et sera utilisée comme source de données pour les
BPA réels pour fins de comparabilité. En effet, bien que les BPA réels soient disponibles
dans d'autres sources de données, comme Compustat par exemple, ils ne sont parfois
pas de même nature et calculés différemment.
La BD utilisée couvre des entreprises américaines uniquement.
Dans IBES, il y a deux types de données avec deux possibilités pour chacun des deux
types :
1) « Sommaires » vs « Détaillées »;
2) « Ajustées » vs « Non ajustées ».
Pour le premier type, les données « Sommaires » représentent le consensus de
prévision de tous les analystes pour une entreprise et un trimestre donné. Ce consensus
est présenté sous forme de moyenne et de médiane des prévisions. Dans ce travail,
nous avons choisi d'utiliser les données « Détaillées » afin d'avoir une plus grande
marge de manoeuvre dans le traitement des prévisions des analystes. Par exemple, les
données détaillées nous permettent d'utiliser les prévisions les plus récentes des
analystes pour le calcul de la médiane. Aussi, ce mode de données est moins affecté
par un problème de perte d'informations analysé par Payne et Thomas (2003). Ce
problème est causé par l'ajustement pour fractionnement dans les données IBES. Dans
les données de type « Sommaires », comme la précision est de deux décimales, les
divisions des BPA par le facteur d'ajustement peuvent entraîner une perte d'information
qui peut fausser les calculs d'erreur de prévision. Dans ce mémoire, comme nous
utilisons des données détaillées qui sont fournies par IBES avec une précision de quatre
décimales, la sévérité de ce problème est moins élevée selon Payne et Thomas (2003) :
« The data provided on the Detail files are rounded to four decimals, indicating that the
rounding issues discussed in this paper are less severe if the Detail files are used. »
(Payne et Thomas, 2003 : p. 1050).
À propos du deuxième type, le seul format de données disponible pour notre étude était
le format « Ajustées ». L'ajustement signifie que les historiques de BPA, autant les
prévisions de BPA que les BPA réalisés, sont ajustés rétroactivement selon les
fractionnements ou regroupement d'actions pouvant survenir pour une entreprise au
cours des années. Voici un exemple :
53
Tableau 7 : Exemple d'ajustement de BPA
Type de BPA
BPA prévu
BPA réel
Trimestre 1
0.8
Après deux fractionnements '2 pour 1'
survenus entre le trimestre 1 et le
trimestre N
Trimestre 1 (Ajusté par une division par
quatre)
0.2
0.90
0.225
Dans un ensemble de données IBES, les BPA prévus et réalisés sont ajustés par le
même facteur d'ajustement pour un trimestre donné. Cela permet donc la comparabilité
directe entre la prévision de BPA et le BPA réel. Cela permet également de comparer
les BPA d'un trimestre à l'autre, peu importe l'écart de temps entre ces deux trimestres,
afin de calculer, par exemple, la variation du BPA entre ces deux trimestres sur une
même base. Cela, même si un ou plusieurs fractionnements sont survenus entre ces
deux trimestres.
Par ailleurs, dans IBES, les données historiques des entreprises ayant fait faillite ou
ayant cessé leurs opérations sont conservées, évitant ainsi l'introduction d'un biais lié à
l'utilisation de données d'entreprises survivantes seulement.
La source de données pour les indicateurs économique est Global Insight. Cette BD
contient des données mensuelles où la donnée pour un mois en particulier est, soit la
donnée du dernier jour du mois, soit la moyenne pour le mois.
Les données des états financiers utilisées pour calculer les différents ratios financiers,
ainsi que les cours des titres des entreprises, proviennent de « Compustat (North
America) ». La BD Compustat est elle aussi accessible via WRDS. Pour récupérer les
données dans Compustat, nous avons utilisé une liste de CUSIP créée à partir de IBES.
Un CUSIP (« Committee on Uniform Security Identification Procedures ») est un code
servant à identifier une entreprise nord-américaine. Le système des CUSIP est géré par
Standards and Poors et est propriété de l'organisation American Bankers Association.
La liste des CUSIP a été créée en sélectionnant ceux des entreprises pour lesquelles :
1) les analystes ont produit des prévisions de BPA trimestriels qui sont enregistrés dans
IBES, et 2) les BPA réalisés sont également disponibles dans IBES. Cela, pour la
période de 1990 à 2005.
54
N.B.: Dans Compustat, certaines données trimestrielles ont une valeur nulle. Chaque
item de donnée a un item de code de donnée correspondant qui contient parfois un
code numérique afin d'expliquer l'absence de donnée. Ces codes ont la signification
suivante pour les données trimestrielles10 :

1 : Donnée non disponible;

2 : Donnée semestrielle : Dans le cas des données des premier et troisième
trimestres : signifie que la valeur apparaissant au deuxième/quatrième trimestre
respectivement représente une valeur semestrielle. Dans le cas de données de
l'état des résultats, nous avons divisé la donnée du deuxième/quatrième
trimestre par deux pour obtenir une approximation de la donnée trimestrielle;

3 : Dans le cas des données des premier, deuxième, troisième et quatrième
trimestres : signifie que la valeur apparaissant au quatrième trimestre représente
une valeur annuelle. Dans le cas de données de l'état des résultats, nous avons
divisé la donnée du quatrième trimestre par quatre pour obtenir une
approximation de la donnée trimestrielle;

4 : Donnée combinée : Donnée incluse dans une autre donnée;

8 : Donnée insignifiante.
N.B.: Un tel code existe également pour les données annuelles, mais ce champ est
toujours vide dans nos données.
Dans la BD « Compustat (North America) », les données trimestrielles sont présentées
uniquement sous une forme « Restated »11. C'est-à-dire que, lorsqu'une entreprise
republie dans le futur des états financiers modifiés touchant des trimestres antérieurs,
les données modifiées sont intégrées dans la BD pour fins de comparaison avec les
années ultérieures. Cela arrive la plupart du temps lors de fusion-acquisitions,
d'opérations discontinuées ou de modifications à la méthode de comptabilisation.
L'historique des valeurs de l'indice VIX de volatilité implicite de l'indice S&P 500 provient
des données de Yahoo!Finance (http://finance.yahoo.com/q?s=^VIX).
10
http://faculty.business.utsa.edu/jboone/xpress%20guide/dataguide/datacdcd.html
Standards & Poors Compustat ® User's Guide, The McGraw-Hill Companies, Inc.
<http://www.batd.eu/debodt/downloads/compustat_user_all.pdf>.
11
55
3.7.2 Étendue
La période choisie pour les données de ce mémoire s'étend de 1990 à 2005.
3.7.3 Traitement et nettoyage
A. Étapes de traitement et nettoyage des données
1) Les BPA réalisés ayant la valeur '-99999999' sont enlevés. Ces valeurs indiquent
une donnée non disponible;
2) Les prévisions de BPA sont filtrées en enlevant les prévisions présentes dans le
fichier « Excluded Estimates ». Ce sont des prévisions où des anomalies
comptables ou méthodologiques ont été relevées par Thomson Reuters, et où un
arrangement n'a pu être conclu avec l'analyste pour corriger la situation;
3) Les prévisions de BPA sont filtrées en enlevant les prévisions présentes dans le
fichier « Stop Estimates ». Ce sont des prévisions qui ne sont plus actives suite à
un événement particulier (ex.: conflit d'intérêt apparaissant entre une banque
d'investissement et une entreprise couverte par un analyste de cette banque en
cas de service d'émission d'actions);
4) La plus récente prévision d'un analyste est déterminée et conservée pour une
entreprise et un trimestre donné. Nous utiliserons ainsi les prévisions sensées
être les plus précises des analystes, advenant qu'ils aient révisé leur prévision
antérieure pour une raison quelconque (ex.: erreur, utilisation de nouvelles
informations). Cette façon de faire est également utilisée couramment dans la
littérature (voir Bernhardt et Kutsoati (1999), Brown (2001) et Brown et
Mohammad (2003));
5) Uniquement les données des entreprises couvertes par au moins un analyste
dans IBES seront utilisées pour produire les prévisions de bénéfices par les
méthodes quantitatives;
6) Les entreprises sélectionnées pour l'étude sont celles dont l'année fiscale se
termine en décembre. Cela, afin de permettre une comparaison des résultats par
trimestre plus significative. Ainsi, par exemple, le 1er trimestre d'une année
donnée représentera le premier trimestre de l'année fiscale pour toutes les
entreprises. Le tableau suivant donne la répartition des données trimestrielles
obtenues de Compustat selon le mois de fin d'année fiscale :
56
Tableau 8 : Répartition par mois de fin d'année fiscale
Mois de fin
d'année fiscale
janvier
Février
Mars
Avril
Mai
Juin
Juillet
Août
Septembre
Octobre
Novembre
Décembre
Total :
Entreprises
(nb)
342
117
518
135
134
730
148
133
624
181
95
6 445
9 602
Répartition des
entreprises (%)
3.56
1.22
5.39
1.41
1.40
7.60
1.54
1.39
6.50
1.89
0.99
67.12
100.00
7) Les entreprises-trimestres où le BPA réalisé est égal à zéro sont enlevés afin de
pouvoir calculer une mesure de performance (EAMP) où le BPA réalisé est au
dénominateur. Voici le pourcentage des entreprises-trimestres dans cette
situation par industrie :
Tableau 9 : Pourcentage de BPA trimestriel réalisé de 0$ par industrie
a
Industrie
BASIC
CAPITAL
CONSDUR
CONSND
CONSSVC
ENERGY
FINANCE
HEALTH
MISCELL
TECHNOL
TRANSP
UNDESIG
UTILITY
a
Entreprises-trimestres
avec BPA = 0 (%)
0.70
0.69
0.47
0.57
1.01
1.10
0.19
0.81
0.00
1.63
0.41
0.00
0.51
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP :
Transports; TECHNOL : Technologie;
BASIC : Extraction/Transformation; CAPITAL :
Construction/Manufacturier; UTILITY : Services publics; MISCELL : Divers; UNDESIG : Autres.
8) Pour chaque trimestre de données
et chaque entreprise ayant un minimum de
quatre trimestres antérieurs de données existants, quatre variations trimestrielles
passées sont calculées de la façon suivante pour toutes les variables
explicatives appropriées :
variation trimestrielle =
57
où :
= valeur de la variable pour le trimestre
= valeur de la variable pour le trimestre précédent
Advenant que l'une des valeurs nécessaires pour le calcul de la variation (
) soit nulle, ou que le dénominateur (
ou
) soit égal à zéro, la variation
trimestrielle prendra la valeur nulle;
9) Uniquement les entreprises pour lesquelles :
a. 100% des variations trimestrielles des variables économiques et
b. au moins 50% des variations trimestrielles des données financières
ont des données non nulles seront utilisées pour produire les prévisions. Le
niveau de 50% pour les données financières a été choisi arbitrairement pour
assurer un niveau minimum de présence de données;
10) Suite à ce traitement, les données résiduelles sont analysées par les méthodes
quantitatives.
Le tableau suivant donne un aperçu de l'effet du nettoyage des données sur l'ensemble
de données initial :
Tableau 10 : Impact du traitement et du nettoyage des données
Données
Variable cible :
BPA réalisés
Prévisions de
BPA par les
analystes
Variables
économiques
Variables
financières et
boursières
trimestrielles
Variables
financières
annuelles
Initialement
348 591 BPA réalisés de 12 310
entreprises sur 64 trimestres : de
1990-T1 à 2005-T4
1 688 720 prévisions de BPA par
15 452 analystes sur 10 795
entreprises sur 64 trimestres : de
1990-T1 à 2005-T4
64 trimestres : de 1990-T1 à 2005T4
64 trimestres : de 1990-T1 à 2005T4
Après traitement et nettoyage
100 422 BPA de 5 832 entreprises
sur 51 trimestres de 1993-T2 à 2005T4
637 911 prévisions de BPA par
8 448 analystes sur 5 832 entreprises
sur 51 trimestres : de 1993-T2 à
2005-T4
51 trimestres : de 1993-T2 à 2005-T4
16 années : de 1990 à 2005
13 années : de 1993 à 2005
51 trimestres : de 1993-T2 à 2005-T4
La perte des trimestres de 1990-T1 à 1993-T1 est principalement due aux séries de
données économique utilisées. L'une d'entre-elles, les commandes de biens de capital
58
du secteur manufacturier, ne comporte pas de données avant février 1992. Comme des
variations trimestrielles sont calculées sur les quatre derniers trimestres précédant le
trimestre actuel (
), et qu'uniquement les entreprises pour lesquelles 100% des
variations trimestrielles des variables économiques sont présentes sont utilisées, nous
perdons les trimestres jusqu'à (et incluant) 1993-T1.
B. Remplacement des données manquantes
Suite au traitement et nettoyage des données, nous procéderons au remplacement des
données manquantes (ayant une valeur nulle) dans les variables prédictives. En effet, la
plupart des variables de variations trimestrielles calculées présentent un certain
pourcentage de valeurs nulles en raison de données manquantes pour diverses raisons
évoquées plus haut, ou en raison d'un dénominateur égal à zéro. Pour pouvoir utiliser la
régression linéaire, qui ne tolère pas de données manquantes dans les variables
prédictives, nous devons remplacer ces valeurs manquantes12.
Deux méthodes ont été appliquées afin de remplacer les données manquantes, et des
prévisions seront produites avec les données pour chacune de ces deux méthodes :
a. Remplacement par imputation : Pour chaque variable indépendante de chaque
ensemble de données (entraînement et test) des douze trimestres de la période
de test, la fonction MICE (« Multivariate Imputation by Chained Equations ») de
R a été utilisée pour imputer les valeurs manquantes. Cette méthode de
traitement de données manquantes d'imputation multivariée par équations
chainées a été élaborée par van Buuren et Groothuis-Oudshoorn (2009),
bâtissant sur la méthode générale d'imputation conçue par Rubin (1987, 1996).
Cette méthode permet d'attribuer aux données manquantes dans un ensemble
de données une valeur inférée à partir des autres enregistrements de l'ensemble.
Pour chaque variable (colonne de données) où il y a des données manquantes,
une méthode d'imputation permet de remplacer les valeurs nulles par une valeur
observée. Dans la fonction MICE, diverses méthodes sont disponibles pour ce
faire selon le type de donnée des variables. Ici, toutes les variables présentant
des données manquantes sont de type numérique. Nous utiliserons la méthode
utilisée par défaut dans MICE pour les variables de type numériques, soit la
méthode de « Predictive Mean Matching ». Cette méthode a été créée par Little
12
La fonction qui sera utilisée dans le logiciel R pour l'implémentation des forêts aléatoires, randomForest,
ne tolère pas les valeurs manquantes également.
59
(1988) et est une méthode d'imputation semi-paramétrique d'usage général.
Selon van Buuren et
Groothuis-Oudshoorn (2009), ses avantages et
inconvénients sont : « Its main virtues are that imputations are restricted to the
observed values and that it can preserve non-linear relations even if the
structural part of the imputation model is wrong. A disadvantage is that it may fail
to produce enough between-imputation variability if the number of predictors is
small. Moreover, the algorithm runs a risk of getting stuck, a situation that should
be diagnosed (...). » (van Buuren et Groothuis-Oudshoorn, 2009 : p. 18-19). De
façon générale, dans l'ensemble de données, les variables présentant des
données manquantes sont traitées une par une, de gauche à droite, par
l'algorithme. Pour chaque variable traitée, toutes les autres variables de
l'ensemble servent de variables prédictives. Les valeurs imputées des variables
déjà traitées sont utilisées lors de l'imputation des variables suivantes.
L’algorithme est présenté plus en détail à l’annexe B.
L'ensemble de données traité par la fonction MICE sera constitué de toutes les
variables explicatives complètes et des variables explicatives présentant des
données manquantes. Seules les variables de type numérique sont utilisées.
Pour chaque trimestre de l'échantillon de test et pour chaque industrie, un calcul
d'imputation sera effectué sur les données manquantes des variations
trimestrielles en utilisant comme étendue de données tous les trimestres
antérieurs à, et incluant le trimestre de l'échantillon de test
.
Pour chaque calcul d'imputation correspondant à un trimestre et une industrie
donnée, advenant qu'une variable explicative complète entraîne un échec dans
le déroulement de l'algorithme, elle sera retirée de l'ensemble de données pour
l'imputation de ce couple trimestre-industrie.
N.B.: L'échec survient au moment du calcul de la matrice inverse
en raison d'une matrice
singulière;
b. Remplacement par la moyenne : Pour chaque trimestre de données et chaque
variation trimestrielle d'une variable, nous avons calculé une moyenne propre à
chaque industrie et selon trois tailles d'entreprises selon le total des actifs :

de zéro à 100 millions de $;

de 100 millions à un milliards de $;

un milliards de $ et +.
60
La valeur de chaque variation trimestrielle ayant une donnée manquante (nulle)
sera donc remplacée par la moyenne de cette variation pour le trimestre,
l'industrie de l'entreprise et la taille de l'entreprise. Advenant que toutes les
données d'un trimestre/industrie/taille d'entreprise soient manquantes et que la
moyenne ne puisse être calculée, la moyenne trimestrielle globale des
entreprises de l'industrie, sans tenir compte de la taille, sera utilisée.
C. Ajustement des valeurs extrêmes
Dans les données d'entraînement des modèles, nous ajusterons les valeurs extrêmes
de la variable cible. Il nous serait difficile et long de déterminer si les valeurs extrêmes
de BPA représentent des erreurs ou sont des valeurs valides, et de les corriger dans le
cas d'erreurs. Nous considérerons donc comme « extrêmes » les valeurs de BPA
inférieures au premier centile et supérieures au 99e centile, et les modifierons afin
qu'elles prennent la valeur du premier et du 99e centile respectivement. Nous pourrons
ainsi réduire l'écart-type de la variable cible, ce qui devrait nous permettre d'obtenir des
modèles moins sujets à la sur-spécialisation (« overfitting ») et plus robustes au bruit.
3.8 Distribution des données après traitement et nettoyage
Nous examinerons maintenant l'état des données suite aux étapes de préparation. Tout
d'abord, comme des modèles distincts seront produits pour chaque industrie, il serait
intéressant d'examiner la distribution des données par industrie. Selon le tableau 11, les
trois industries comportant le plus d'enregistrements sont, dans l'ordre, les services
financiers (21.82%), les technologies de l'information (15.29%) et la santé (13.87%).
Tableau 11 : Distribution des données par industrie
N.B.: Les industries sont présentées par ordre décroissant selon la quantité de données.
Industrie
Services financiers
Technologie de
l'information
Santé
Consommation
(services)
Construction/
Manufacturier
Extraction/
Transformation
Énergie
Services publics
Code
FINANCE
Entreprises
(nb)
1 378
Enregistrements
(nb)
21 912
Enregistrements
(%)
21.82
TECHNOL
HEALTH
1 003
841
15 352
13 932
15.29
13.87
CONSSVC
908
13 410
13.35
CAPITAL
406
7 954
7.92
BASIC
ENERGY
UTILITY
293
333
253
6 596
5 739
4 801
6.57
5.71
4.78
61
Consommation
(durables)
Consommation (non
durables)
Transports
Autres
Divers
a
CONSDUR
CONSND
TRANSP
MISCELL
UNDESIG
Total :
203
4 167
4.15
211
131
3
2
a
5 965
3 961
2 593
3
2
100 422
3.94
2.58
0.00
0.00
100.00
Ici le nombre total d'entreprise (5 965) diffère du nombre final d'entreprises (5 832) du tableau 10 : Impact du traitement
et du nettoyage des données. Cela, parce que certaines entreprises ont changé d'industrie de 1990 à 2005 dans IBES
et sont donc comptées plus d'une fois.
Comme notre recherche s'intéresse aux bénéfices trimestriels, le tableau 12 présente la
répartition des enregistrements par trimestre et par année.
Tableau 12 : Distribution des données (nb enregistrements) par trimestre
Année /
Trimestre
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
Total :
T1
1 290
1 550
1 721
1 989
2 070
2 084
2 048
2 051
1 993
2 021
2 131
2 304
23 252
T2
1 098
1 386
1 607
1 808
2 078
2 175
2 149
2 108
2 122
2 060
2 099
2 210
2 342
25 242
T3
1 245
1 457
1 667
1 924
2 141
2 196
2 179
1 861
2 120
2 065
2 131
2 262
2 427
25 675
T4
1 292
1 549
1 678
1 968
2 119
2 209
2 155
2 149
2 105
2 122
2 199
2 303
2 405
26 253
Total
3 635
5 682
6 502
7 421
8 327
8 650
8 567
8 166
8 398
8 240
8 450
8 906
9 478
100 422
Total (%)
3.62
5.66
6.47
7.39
8.29
8.61
8.53
8.13
8.36
8.21
8.41
8.87
9.44
100.00
En tenant compte des années comprenant quatre trimestres de données, il est
intéressant d'observer que le nombre d'enregistrements est, en général, croissant :
1) suivant les années, des plus anciennes vers les plus récentes;
2) du premier au quatrième trimestre.
3.9 Méthodes quantitatives
3.9.1 Méthodes et paramètres utilisés
Il y aura cinq méthodes quantitatives utilisées :
1) Régression linéaire (standard de comparaison);
2) Arbre de régression simple de type CART (standard de comparaison);
3) Méthodes ensemblistes :
62
3.1) Méthode ensembliste : « Boosting »;
3.2) Méthode ensembliste : « Bagging »;
3.3) Méthode ensembliste : Forêt aléatoire.
Ces méthodes sont implémentées dans le logiciel R qui sera utilisé pour produire les
prévisions de BPA. C'est un logiciel libre d'analyse statistique disponible gratuitement
sur internet13. Nous indiquons ici les fonctions de R et les paramètres utilisés. Les
paramètres non mentionnés sont ceux utilisés par défaut dans R.
Régression linéaire
La régression linéaire est utilisée comme méthode de référence, étant couramment
utilisée dans les recherches empiriques. Il s'agit ici de la régression multivariée suivant
la forme :
où :
= variable dépendante
= coefficient d'ordonnée à l'origine
= variable indépendante
= coefficient de la variable explicative
= terme d'erreur
La régression linéaire multivariée repose sur les hypothèses fondamentales suivantes
afin d'assumer que les valeurs estimées des coefficients
et
sont les meilleurs
estimateurs sans biais de ces coefficients :
1. La fonction
est une fonction linéaire ( est un
terme d'erreur non observable);
2. L'échantillon de n observations
avec = (1, ..., ) est
déterminé aléatoirement parmi la population;
3. Il n'existe pas de relation linéaire parfaite entre les variables indépendantes;
4. L’erreur
a une espérance de zéro, peu importe la valeur des variables
indépendantes :
13
http://www.r-project.org
;
63
5. L’erreur
a la même variance, peu importe la valeur des variables
indépendantes :
.
La variable dépendante sera ici notre variable cible du bénéfice par action trimestriel
(BPA), et les variables indépendantes seront les variables retenues pour cette étude et
décrites à la section 3.4.
Cette méthode est implémentée et les coefficients estimés avec la fonction R : lm
(package stats, version 2.11, Équipe de développement R et divers contributeurs
(2010));
Arbre de régression simple de type CART
L'arbre de régression est une des méthodes de prédiction proposées par l'exploitation
de données. Afin d'expliquer le fonctionnement de cette méthode, commençons par
définir une notation.
Soit un ensemble de données
composé des tuples prenant la forme :
avec = (1, ..., )
où :
= variable cible
= variable explicative
Il y a
variables explicatives {
} et 1 variable cible
={
} avec
valeurs possibles.
L'objectif ici est d'attribuer à un tuple une valeur de variable cible inconnue à prime
abord. Dans le cas d'une variable cible discrète, on parlera alors d'arbres de
classification. Si la variable cible est continue, on parlera d'arbres de régression.
La méthode des arbres de régression permettra de créer un modèle à partir d'un
ensemble de données d'apprentissage
où les valeurs de la variable cible sont
connues. À partir de ce modèle, les tuples d'un ensemble de données de test
pourront être associés à une valeur de variable cible. Cela dans un but de classification,
ou de prévision si la variable cible représente une variable future (ex.: prix d'une action
dans six mois).
Un arbre de régression est composé d’un nœud initial, à partir duquel seront ajoutés des
embranchements menant vers des nœuds intermédiaires et/ou des feuilles (nœuds
terminaux). Ces nœuds seront sélectionnés au moyen d’un algorithme. Débutant par un
noeud initial, l'algorithme sélectionnera la variable explicative qui entraînera la plus
64
grande baisse d'impureté dans les données, suite à leur scission en deux ou plusieurs
branches en utilisant les valeurs de cette variable. L'impureté diminue si la dispersion
des enregistrements du noeud selon la valeur de variable cible qui leur est attribuée
diminue. Cela se fera au moyen de l'utilisation d'un indice d'impureté. Cette variable sera
alors sélectionnée pour diviser les tuples en deux ou plusieurs groupes (branches). Au
bout de chaque branche, un nouveau noeud sera créé avec nouvelle sélection de
variable explicative, et ainsi de suite jusqu'à ce qu'un critère d'arrêt soit atteint. Ce critère
d'arrêt peut être, par exemple, un niveau de profondeur maximal atteint, ou un nombre
minimal de tuples se retrouvant dans un noeud afin de poursuivre la croissance de la
branche (sinon, création d'une feuille). Plusieurs facteurs d'arrêt peuvent être utilisés
pour un seul arbre.
La valeur à laquelle sera associée la feuille sera celle se retrouvant dans le plus grand
nombre dans les enregistrements composant la feuille dans le cas d'une variable cible
nominale ou ordinale. Dans le cas d'une variable cible continue, ce sera une moyenne
équipondérée des valeurs de la variable cible.
Suite à la construction d'un arbre à l'aide d'un ensemble de données d'entraînement, il
est possible d'optimiser son efficacité en procédant à son élagage. En effet, il se peut
que l'arbre construit soit sur-spécialisé par rapport à l'ensemble d'entraînement.
Certaines branches peuvent refléter des anomalies dans les données d'entraînement
liées à la présence de bruit ou de valeurs extrêmes. Un tel arbre pourrait ne pas être
optimal s'il est utilisé avec des données hors échantillon. L'élimination de certaines
branches de l'arbre pour les remplacer par des feuilles pourrait alors le rendre
davantage performant. De façon générale, une comparaison des performances de
prédiction de plusieurs sous-arbres élagués tirés du modèle initial avec des données
hors échantillon permettra de sélectionner le meilleur modèle élagué.
Les arbres (incluant les arbres de régression) présentent les avantages et inconvénients
principaux suivants :
Avantages :

Produisent des modèles décisionnels faciles à interpréter et utiliser;

Tolèrent les valeurs manquantes dans les enregistrements pour les variables
explicatives. Si la variable
avec valeur manquante est catégorielle, l'absence
de valeur sera considérée comme une catégorie en tant que telle.
Alternativement, certains algorithmes comme CART permettent de sélectionner
les valeurs d'une autre variable explicative
pour déterminer l'embranchement
65
d'un enregistrement avec une valeur manquante pour la variable
variable
. Cette
sera celle permettant de créer un embranchement spécifique le plus
similaire à celui créé avec la variable

Sont résistants aux valeurs extrêmes;

Ne nécessitent pas la satisfaction d'hypothèses de distribution des données
comme c'est le cas avec les méthodes paramétriques;

Permettent de détecter des interactions complexes (si existantes) entre les
variables indépendantes;

Sont des modèles relativement rapides à construire et à utiliser.
Inconvénients :

Instabilité : de petites variations dans les données d'apprentissage peuvent
entraîner de grandes variations dans les modèles produits. Cela entraîne une
grande variance chez les arbres de régression;

Cette méthode assure l'optimalité de la création des embranchements
uniquement. L'arbre de régression complet créé, lui, n'est pas nécessairement
optimal;

Un embranchement erroné créé près de la racine aura un impact sur tous ses
sous-embranchements;

Ne
tiennent
pas
compte
des
corrélations
entre
certaines
variables
indépendantes;

Produisent des taux d'erreurs élevés lorsque la répartition de la variable cible
selon les variables explicatives dans les valeurs observées produit des régions
non rectangulaires.
Ex.: variable cible y avec deux variables explicatives x1 et x2 :
Figure 2 : Exemple : Variable cible avec régions non rectangulaires
66
Dans leur livre, Breiman et al. (1984) expliquent en détail le fonctionnement des arbres
de classification et de régression, et présentent l'un des principaux algorithmes de
construction d'arbres utilisé : CART. C'est cet algorithme qui sera utilisé pour concevoir
les arbres dans ce travail.
Cette méthode est implémentée avec la fonction R : rpart (package rpart, version 3.1.46,
Atkinson, Therneau et Ripley (2010)).
Cette méthode présente les trois caractéristiques suivantes :
1) La variable cible peut être de type : nominal, ordinal ou continu;
2) Les variables explicatives peuvent être de type : nominal ou continu. Les
variables de type ordinal seront considérées comme continues;
3) Les embranchements de l'arbre créé seront binaires.
Les principaux paramètres suivants seront utilisés dans l'algorithme :

indice d'impureté : nous utiliserons la méthode ANOVA afin de calculer l'indice
d'impureté. Cette méthode sélectionnera à chaque noeud la variable réduisant le
plus la somme des carrés des écarts dans les enregistrements du sousensemble du noeud;

critères d'arrêt :
o
profondeur maximale : dix niveaux (Nous avons fixé ce paramètre à dix afin
d'éviter la production d'arbres trop spécialisés (trop profonds));
o
nombre minimal de tuples dans un noeud : 20;
o
paramètre de complexité : 0.01. Suite à la création d'un embranchement, le
R2 de l'arbre doit croître par une valeur égale ou supérieure à 0.01. Sinon,
l'embranchement est éliminé et le noeud devient terminal.
Maintenant, voici le fonctionnement de l'algorithme CART pour une variable cible
continue :
1)
Pour chaque niveau (en commençant par le niveau racine) :
2)
Pour chaque nœud du niveau :
2.1) Si un critère d’arrêt est satisfait, calculer la valeur du prédicat attribuée à la
feuille. Ce sera la moyenne équipondérée des valeurs de la variable cible
pour les enregistrements se retrouvant dans le noeud;
67
2.2) Si aucun critère d’arrêt n’est satisfait :
2.2.1) Calculer pour chaque variable indépendante , l'indice d'impureté.
Dans le cas d'une variable indépendante catégorielle, l'indice
d'impureté calculé pour toutes les façons possibles de séparer les
enregistrements en deux groupes en utilisant les sous-groupes de
valeurs de la variable indépendante.
Dans le cas d'une variable indépendante continue, cette valeur
sera choisie parmi toutes les valeurs de la variable parmi les
enregistrements du noeud. Cela en ordonnant d'abord les valeurs, et
en séparant les enregistrements en deux groupes en utilisant tour à
tout chacune des valeurs avec : groupe 1 : enregistrements ayant
valeur <=
et groupe 2 : enregistrements ayant valeur > ;
2.2.2) Parmi toutes les variables indépendantes, choisir celle qui entraîne la
plus grande baisse d’impureté suite à son utilisation pour la création
de l'embranchement.
La méthode ANOVA utilisée pour le calcul de l'indice d'impureté fonctionne comme suit :
Soient les éléments suivants :
= valeur de la variable cible de l'enregistrement dans un noeud
enregistrements avec
comprenant
= (1,..., )
= moyenne des valeurs de la variable cible pour le noeud
= valeur de la variable cible de l'enregistrement
sous le noeud
comprenant
dans la branche de gauche
enregistrements avec = (1, ..., )
= moyenne des valeurs de la variable cible dans la branche de gauche
sous le
noeud
= valeur de la variable cible de l'enregistrement
sous le noeud
comprenant
enregistrements avec
ans la branche de droite
= (1, ..., )
= moyenne des valeurs de la variable cible dans la branche de droite
noeud
= somme des carrés des écarts dans le noeud
=
= somme des carrés des écarts dans la branche
=
= somme des carrés des écarts dans la branche
=
sous le
68
Dans tout noeud , la somme des carrés des écarts est
. Après création de deux
embranchements sous le noeud, nous aurons l'équation suivante :
À chaque noeud, advenant qu'une condition d'arrêt n'est pas atteinte, l'algorithme
sélectionnera la variable explicative dont la valeur utilisée pour créer l'embranchement
diminuera le plus
.
Afin d'imager le fonctionnement d'un arbre CART, ici un arbre de régression, voici un
exemple d'utilisation :
Supposons les paramètres suivants :
o
variable cible : bénéfice par action du prochain trimestre : BPA
o
profondeur maximale : deux (niveau racine = 0, premier niveau = 1, deuxième
;
niveau = 2);
o
nombre minimal de tuples dans un noeud : dix;
o
paramètre de complexité : 0.01.
Figure 3 : Exemple : Arbre de régression
Dans la figure 3, au niveau 0, la première variable explicative sélectionnée selon l'indice
d'impureté ANOVA est la variation trimestrielle la plus récente de la valeur du titre :
Titre (%). La condition
Titre (%) > deux est vérifiée pour 42
enregistrements qui se retrouvent dans la branche de gauche au niveau 1. Les huit
autres se retrouvent dans la branche de droite. Dans le noeud de droite, comme une
69
condition d'arrêt est atteinte (nombre d'enregistrements dans le noeud < dix), le noeud
devient terminal (une feuille) et le prédicat de cette branche est la moyenne des valeurs
de la variable cible pour les huit enregistrements : 3.7 $. Pour le noeud de gauche,
comme aucune condition d'arrêt n'est atteinte, un nouvel embranchement est créé et la
variable explicative sélectionnée est la variation trimestrielle la plus récente du nombre
d'heures travaillées dans le secteur manufacturier :
Heures travaillées manuf.
(%). Ensuite, comme une condition d'arrêt est atteinte pour les deux nouveaux noeuds
(profondeur maximale atteinte : niveau 2), ils deviennent des feuilles et la croissance de
l'arbre s'arrête.
On se retrouve alors avec un modèle prédictif présentant la règle de décision suivante :

Si
Titre (%) > 2 et
Heures travaillées manuf. (%) > 3 Alors BPA
= 1.5$;

Si
Titre (%) > 2 et
Heures travaillées manuf. (%) <= 3 Alors BPA
= 3.1$;

Sinon BPA
= 3.7$.
Le package rpart permet l'utilisation d'une méthode d'élagage prune dérivée de la
méthode originale du « cost complexity pruning » présentée dans Breiman et al. (1984).
Différents sous-modèles d'arbres sont produits à partir du modèle d’arbre initialement
produit par la fonction rpart avec le paramètre de complexité déterminé (0.01). Cela, en
utilisant d’autres valeurs de paramètre de complexité > 0.01 afin de déterminer si des
branches peuvent être éliminées du modèle initial en tenant compte du nouveau
paramètre de complexité. Ces valeurs sont celles calculées par l'algorithme à chaque
noeud de l'arbre et indiquent l'accroissement du R2 de l'arbre suite à la création de
l'embranchement sous le noeud. En utilisant la fonction prune, nous sélectionnerons
l'arbre créé avec le paramètre de complexité produisant l'erreur relative de prédiction
estimée moyenne la moins élevée (calculée par validation croisée à dix groupes).
Méthodes ensemblistes
Les méthodes ensemblistes à base d'arbres consistent à créer des modèles constitués
d'un ensemble de plusieurs arbres distincts. À partir de ces modèles, une prévision sera
produite en tenant compte de l'ensemble des prévisions de chacun des arbres de
l'ensemble. Selon la nature des arbres composant l'ensemble (arbre de classification ou
de régression), les prévisions seront combinées de façon appropriée. Dans le cas
d'arbres de classification, ce peut être en sélectionnant la classe ayant récolté le plus
70
grand nombre de votes. Dans le cas d'arbres de régression, habituellement une
moyenne (pondérée ou non) des prévisions de chacun des arbres de l'ensemble sera la
prévision du modèle.
Voyons maintenant les détails des méthodes ensemblistes que nous comptons utiliser.
Méthode ensembliste : Bagging
La méthode du « Bagging », élaborée par Breiman (1996), crée des perturbations dans
la sélection de l'ensemble d'entraînement en sélectionnant au hasard, avec remise, une
proportion
donnée (<= 100%) des enregistrements de l'ensemble d'entraînement afin
de créer un échantillon bootstrap. Lors de la construction des arbres, à chaque noeud,
toutes les variables indépendantes sont évaluées pour déterminer la variable à utiliser
pour créer l'embranchement. La valeur prédite sera la moyenne équipondérée des
prédictions de chacun des arbres de l'ensemble.
Dans R, le Bagging est implémenté par la fonction bagging (package ipred, version 0.88, Hothorn et Peters (2009)) qui sera utilisée pour créer le modèle avec les paramètres
suivants :

nbag = 500 = nombre d'arbres créés pour constituer l'ensemble;

maxdepth = dix = profondeur maximale permise pour la construction des arbres
de l'ensemble;

cp = 0.01 = paramètre de complexité fixé à 0.01 pour la création des 500 arbres
de chaque ensemble;

ns =
= nombre d'enregistrements de l'ensemble d'entraînement sélectionnés
avec remise dans l'ensemble d'entraînement (méthode « bootstrap
out of
with replacement » suggérée par Breiman(1996)).
Pour la production de chaque arbre, la fonction bagging utilise la fonction rpart pour
produire les arbres. Notez qu'aucun élagage n'est effectué ici sur les arbres de
l'ensemble.
Méthode ensembliste : Boosting
Ici, nous utiliserons l'algorithme de descente de gradient (« Gradient Boosting ») de
Friedman (2001, 2002). Dans cette forme de Boosting, une fonction prédictive est
constituée d'un ensemble d’arbres construit successivement en ajoutant des arbres de
71
façon à minimiser l'espérance d'une fonction de perte. La fonction de perte exponentielle
utilisée dans Freund et Schapire (1996) est utilisée ici. Essentiellement, l'algorithme
CART est utilisé pour la construction de chaque arbre. La valeur prédite est optimisée et
mise à jour après la création de chaque arbre.
Cet algorithme fonctionne comme suit dans le package gbm :
Soient :
= nombre d'enregistrements de l'ensemble d'apprentissage
= nombre d'arbres créés pour constituer l'ensemble. En fait, ici, chaque arbre
constitue une itération dans l'estimation de la valeur prédite finale.
= niveau d'interaction entre les variables explicatives utilisé pour approximer la
fonction ensembliste. Équivaut au nombre de noeuds terminaux dans les arbres
utilisés.
Selon le niveau
, cette interaction prend la forme du modèle additif suivant
(décomposition de ANOVA) :
où le nombre de termes sera égal à .
Ici, on essaie d'approximer la fonction
en utilisant un niveau donné d'interaction
entre les variables explicatives. Comme le mentionne Friedman (2001), seulement
les premiers termes suffisent pour approximer convenablement cette fonction. Cela
même si on pouvait, en réalité, utiliser un niveau d'interaction
égal au nombre total
de variables explicatives. Ainsi, chaque arbre produit dans l'ensemble aura, au plus,
noeuds terminaux. La fonction constituée de l'ensemble des arbres aura comme
ordre d'interaction au plus
où
est le nombre de variables
indépendantes. Comme le mentionne Friedman, la valeur optimale de ce paramètre
serait
l'ordre
maximal
des
interactions
dominantes
entre
les
variables
indépendantes.
= proportion des enregistrements de l'ensemble d'apprentissage utilisé pour
construire chaque arbre
= taux d’apprentissage = valeur du pas le long de la pente d'apprentissage
= fonction de perte associée à la distribution choisie
Algorithme :
1. Initialisation du modèle prédictif
avec une constante :
72
2. Pour = 1, …,
faire
2.1 Calcul du gradient négatif :
2.2 Sélection aléatoire de
de taille
enregistrements de l’ensemble d’apprentissage
sans remise. Ici, chaque enregistrement a la même probabilité d'être
sélectionné. Donc le poids de chaque enregistrement,
2.3 Création d’un arbre de régression
avec
, est égal à ;
nœuds terminaux :
, en utilisant les enregistrements sélectionnés à l’étape 2.2. Ici la variable
dépendante est le gradient négatif ;
2.4 Calcul des valeurs optimales retournées par chaque nœud terminal :
où
avec
= ensemble des enregistrements dans le noeud ;
2.5 Mise à jour de
où
3.
= index du nœud terminal où l’enregistrement x se retrouvera;
est retournée comme étant la prédiction.
Dans R, la fonction R : gbm (package gbm, version 1.6-3.1, Ridgeway (2010)) sera
utilisée pour appliquer cette méthode de Boosting avec les paramètres suivants :
Paramètres :

nbtree =

interaction.depth = niveau d'interaction entre les variables explicatives = cinq.
= 500;
Selon Friedman, Hastie et Tibshirani (2000) après expérimentations, une valeur
située entre quatre et huit donne les meilleurs résultats, relativement similaires
pour des niveaux de quatre à huit. Nous avons donc sélectionné une valeur de
cinq pour ce paramètre, comme Sosvilla-Rivero et Rodriguez (2010) l'ont fait
dans leur utilisation de gbm pour l'évaluation de la prédictibilité des indices
boursiers. Des essais intermédiaires de notre côté, dont les résultats ne sont pas
présentés dans ce mémoire, vont dans le même sens que Friedman, Hastie et
Tibshirani (2000);
73

distribution = gaussian = distribution comprenant un ensemble de fonctions
utilisées par l'algorithme pour minimiser l'erreur au carré. Deux autres choix
étaient possibles pour une variable cible continue : laplace (minimisation de
l'erreur absolue) et quantile regression (estimation des centiles de la distribution
conditionnelle de la variable cible);

bag.fraction =

shrinkage = taux d’apprentissage =
= 0.5 (tel que suggéré dans Ridgeway (2010));
= 0.001 (valeur produisant les meilleurs
résultats après différents essais, avec le nombre d’arbres sélectionné : 500. Les
résultats de ces essais de calibrage ne sont pas présentés dans ce mémoire).
Pour la distribution utilisée (gaussian) les fonctions suivantes sont utilisées :

Déviance =

Valeur initiale :

Gradient :

Estimé de nœud terminal =
Méthode ensembliste : Forêts aléatoires
La méthode des forêts aléatoires est essentiellement celle du Bagging, à la différence
qu'il y a ici injection d'aléatoire lors de la création de chaque noeud dans la création des
arbres. Ainsi, à chaque noeud, un sous-ensemble de variables sera choisi aléatoirement
parmi toutes les variables indépendantes disponibles. De ce sous-ensemble sera
sélectionnée la variable utilisée pour la formation du noeud, plutôt que d'effectuer la
sélection parmi toutes les variables indépendantes disponibles. Le Bagging se retrouve
ainsi être un cas spécifique des forêts aléatoires, où la taille de l'ensemble de variables
évaluées à chaque noeud est le nombre total de variables indépendantes.
Comparativement au Bagging, les modèles de forêts aléatoires sont donc plus rapides à
construire.
La fonction R randomForest (package randomForest, version 4.5-36, Breiman et al.
(2010)) sera utilisée afin d'implémenter cette méthode.

ntree = 500 = nombre d'arbres créés pour constituer l'ensemble;

type = regression (afin d'indiquer que l'ensemble sera constitué d'arbres de
régression);
74

mtry =
= nombre de variables explicatives choisies au hasard à chaque
noeud pour le choix de l'embranchement. Ici, nous utilisons la valeur par défaut,
;

maxnodes = 1024 = nombre maximal de nœuds terminaux, correspondant à un
arbre binaire avec profondeur maximale de dix niveaux.
3.9.2 Critère d'évaluation des analystes et des modèles
Nous allons produire des résultats de performance pour la mesure d'évaluation suivante,
pour chaque industrie de l'ensemble de test : l'erreur absolue moyenne de prévision en
pourcentage (EAMP) (« Absolute Mean Percentage Error » : AMPE).
Formule :
où :
= trimestre ou année de l'ensemble de test, selon la comparaison effectuée
= industrie
= entreprise
= nombre d'entreprises dans l'ensemble de test pour l'industrie du trimestre ou de
l'année
= BPA trimestriel actuel du trimestre de l'entreprise
= BPA trimestriel prévu du trimestre de l'entreprise
En ce qui concerne les analystes, le BPA prévu sera déterminé en sélectionnant la
valeur médiane de toutes les prévisions de BPA trimestriels produites par les analystes
pour chaque entreprise. Cela, afin d'utiliser une mesure de tendance centrale plus
représentative des attentes du groupe d'analystes, tout en évitant de biaiser le calcul de
cette prévision par la présence de valeurs extrêmes.
3.9.3 Ensembles d'entraînement et de test des modèles
Comme ensemble de test, nous avons choisi d'utiliser successivement chacun des
douze trimestres des trois dernières années de notre échantillon : 2003, 2004 et 2005.
Pour déterminer les ensembles d'entraînement, nous avons voulu nous inspirer de ce
qui serait fait par un analyste produisant des prévisions de bénéfices dans le monde du
75
travail. Pour produire une prévision de BPA pour un trimestre donné, un analyste
utilisera tout l'historique de données disponible. Ainsi, pour chacun des douze trimestres
de test, l'ensemble d'entraînement utilisé pour produire les cinq modèles quantitatifs
sera composé des données trimestrielles de tous les trimestres précédents disponibles.
Donc, d'un trimestre de test à l'autre, l'ensemble d'entraînement s'accroîtra
successivement d'un trimestre supplémentaire.
Pour produire les prévisions de chacun des douze trimestres de l'ensemble de test, nous
allons préalablement diviser les données des ensembles d'entraînement entre chacune
des industries utilisées dans IBES, et nous allons produire un modèle spécifique à
chaque industrie. Cela, dans l'hypothèse que les bénéfices de chaque industrie doivent
dépendre de caractéristiques propres à celles-ci, et que les variables financières ou
économiques ayant un pouvoir prédictif sur les bénéfices pourraient varier d'une
industrie à l'autre. Cela pourrait affecter le choix des variables sélectionnées dans les
arbres composant les modèles pour les quatre méthodes quantitatives à base d'arbres
de chacune des industries (l'arbre simple et les trois méthodes ensemblistes).
Voici le nombre d'enregistrements composant les ensembles d'entraînement et de test
pour chaque industrie et pour les trimestres des trois années :
Tableau 13 : Taille des ensembles d'entraînement et de test
2003
Industrie a
Trimestre
BASIC T1
BASIC T2
BASIC T3
BASIC T4
CAPITAL T1
CAPITAL T2
CAPITAL T3
CAPITAL T4
CONSDUR T1
CONSDUR T2
CONSDUR T3
CONSDUR T4
CONSND T1
CONSND T2
CONSND T3
CONSND T4
CONSSVC T1
CONSSVC T2
CONSSVC T3
CONSSVC T4
ENERGY T1
ENERGY T2
ENERGY T3
ENERGY T4
FINANCE T1
FINANCE T2
FINANCE T3
FINANCE T4
Entr.
5 205
5 320
5 434
5 550
6 234
6 368
6 510
6 651
3 256
3 330
3 404
3 477
2 969
3 047
3 128
3 209
9 871
10 133
10 409
10 691
4 185
4 298
4 416
4 535
15 159
15 647
16 160
16 691
Test
115
114
116
113
134
142
141
143
74
74
73
73
78
81
81
84
262
276
282
290
113
118
119
117
488
513
531
567
2004
Total
5 320
5 434
5 550
5 663
6 368
6 510
6 651
6 794
3 330
3 404
3 477
3 550
3 047
3 128
3 209
3 293
10 133
10 409
10 691
10 981
4 298
4 416
4 535
4 652
15 647
16 160
16 691
17 258
Entr.
5 663
5 769
5 882
5 994
6 794
6 933
7 076
7 226
3 550
3 620
3 692
3 769
3 293
3 372
3 454
3 534
10 981
11 269
11 565
11 867
4 652
4 775
4 904
5 038
17 258
17 796
18 345
18 912
Test
106
113
112
117
139
143
150
144
70
72
77
78
79
82
80
80
288
296
302
304
123
129
134
136
538
549
567
577
2005
Total
5 769
5 882
5 994
6 111
6 933
7 076
7 226
7 370
3 620
3 692
3 769
3 847
3 372
3 454
3 534
3 614
11 269
11 565
11 867
12 171
4 775
4 904
5 038
5 174
17 796
18 345
18 912
19 489
Entr.
6 111
6 225
6 344
6 472
7 370
7 512
7 657
7 806
3 847
3 922
4 000
4 084
3 614
3 697
3 785
3 877
12 171
12 471
12 778
13 089
5 174
5 311
5 446
5 592
19 489
20 077
20 670
21 292
Test
114
119
128
124
142
145
149
148
75
78
84
83
83
88
92
84
300
307
311
321
137
135
146
147
588
593
622
620
Total
6 225
6 344
6 472
6 596
7 512
7 657
7 806
7 954
3 922
4 000
4 084
4 167
3 697
3 785
3 877
3 961
12 471
12 778
13 089
13 410
5 311
5 446
5 592
5 739
20 077
20 670
21 292
21 912
76
HEALTH T1
9 898
289
10 187
11 123
312
11 435
12 458
356
12 814
HEALTH T2
10 187
306
10 493
11 435
329
11 764
12 814
366
13 180
HEALTH T3
10 493
309
10 802
11 764
341
12 105
13 180
379
13 559
HEALTH T4
10 802
321
11 123
12 105
353
12 458
13 559
373
13 932
MISCELL T1
0
0
0
0
0
0
0
0
0
MISCELL T2
0
0
0
0
2
2
0
0
0
MISCELL T3
0
0
0
0
0
0
0
0
0
MISCELL T4
0
0
0
0
0
0
0
0
0
TECHNOL T1
11 306
322
11 628
12 622
322
12 944
13 974
345
14 319
TECHNOL T2
11 628
329
11 957
12 944
339
13 283
14 319
346
14 665
TECHNOL T3
11 957
329
12 286
13 283
340
13 623
14 665
351
15 016
TECHNOL T4
12 286
336
12 622
13 623
351
13 974
15 016
336
15 352
TRANSP T1
1 972
44
2 016
2 155
47
2 202
2 360
57
2 417
TRANSP T2
2 016
47
2 063
2 202
49
2 251
2 417
60
2 477
TRANSP T3
2 063
45
2 108
2 251
54
2 305
2 477
58
2 535
TRANSP T4
2 108
47
2 155
2 305
55
2 360
2 535
58
2 593
UNDESIG T1
0
0
0
0
0
0
0
0
0
UNDESIG T2
0
0
0
0
0
0
0
0
0
UNDESIG T3
0
0
0
0
0
0
0
0
0
UNDESIG T4
2
1
3
0
0
0
0
0
0
UTILITY T1
3 531
102
3 633
3 944
107
4 051
4 371
107
4 478
UTILITY T2
3 633
99
3 732
4 051
107
4 158
4 478
105
4 583
UTILITY T3
3 732
105
3 837
4 158
105
4 263
4 583
107
4 690
UTILITY T4
3 837
107
3 944
4 263
108
4 371
4 690
111
4 801
Total :
306 738
8 450
315 188
341 211
8 906
350 117
377 779
9 478
387 257
a
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics; MISCELL : Divers; UNDESIG : Autres.
En raison du faible nombre de données des industries 'Divers' (MISCELL) et 'Autres'
(UNDESIG), nous laisserons tomber les données de ces deux industries pour l'analyse
des données.
3.9.4 Présélection d'un sous-ensemble de variables explicatives
Le nombre de variables explicatives que nous avons identifiées jusqu'à maintenant et
que nous croyons potentiellement utiles pour la prévision des BPA trimestriels s'élève à
167. L'utilisation d'un grand nombre de variables indépendantes peut causer des
problèmes lors de la conception et de l'analyse des résultats produits par des méthodes
quantitatives. Han et Kamber (2006, Section 2.5.2, traduction libre) identifient
notamment les problèmes suivants :
1) Certaines variables peuvent se révéler non pertinentes ou redondantes;
2) Conserver des variables superflues peut mener à la découverte de règles peu
performantes;
3) Impact à la hausse sur le temps de traitement;
4) Production de règles de décision difficiles à interpréter car contenant trop de
variables (dans le cas des arbres).
77
Nous voudrons donc utiliser une méthode afin de réduire le nombre des variables
initialement identifiées, afin de déterminer parmi celles-ci celles qui ont le meilleur
potentiel prédictif sur les BPA. Plusieurs méthodes existent pour ce faire. Nous avons
décidé d’utiliser les forêts aléatoires pour sélectionner les variables ayant le meilleur
potentiel prédictif. Dans R, le package randomForest comporte une fonctionnalité
nommée importance. Cette fonctionnalité permet de déterminer dans un modèle de forêt
aléatoire les variables les plus importantes selon le critère de l'erreur moyenne au carré
(MSE). Tout d'abord, l'erreur au carré est calculée pour chaque arbre du modèle sur un
ensemble d'enregistrements sélectionnés hors échantillon. Ensuite, pour chaque
variable, l'erreur est également calculée de la même façon suite à la permutation au
hasard des valeurs de la variable en question parmi les enregistrements hors
échantillon. La différence : (erreur après permutation - erreur avant permutation) est
ensuite calculée pour chaque arbre de l'ensemble. La moyenne des différences est
finalement calculée et divisée par l'erreur standard pour fins de normalisation. Cette
mesure de la diminution de l'erreur de prévision est ainsi obtenue pour chaque variable
explicative et permet de déterminer, selon l'importance de la diminution, lesquelles sont
les plus utiles dans le modèle.
Nous procéderons de la manière suivante pour utiliser cette méthode :
1) Sélection des données des trimestres antérieurs à 2003 (afin de ne pas utiliser
les données des trimestres de l'ensemble de test);
2) Production de onze forêts aléatoires (une pour chacune des industries de IBES)
avec les données de tous les trimestres de l'étape 1). Pour ce faire, nous avons
décidé d'utiliser les données pour lesquelles les valeurs manquantes parmi les
variables explicatives sont traitées par la méthode de remplacement par
imputation multivariée, présentée à la section 3.7.3 B. Chaque forêt a été
construite en utilisant les mêmes valeurs de paramètres que ceux décrits pour la
méthode ensembliste : forêts aléatoires :

ntree = 500 = nombre d'arbres créés pour constituer l'ensemble;

mtry =
= nombre de variables explicatives choisies au hasard à
chaque noeud pour le choix de l'embranchement. Ici, nous utilisons la
valeur par défaut,

maxnodes
=
1024
;
=
nombre
maximal
de
nœuds
terminaux,
correspondant à un arbre binaire avec profondeur maximale de dix
niveaux;
78
3) Sélection, pour chaque industrie, des dix variables présentant les valeurs de
diminution moyenne de MSE les plus élevées;
4) Création d'une liste de variables explicatives constituées de l'union de toutes les
variables sélectionnées dans chacune des industries. Cela, sans égard au
nombre de fois que chaque variable a été sélectionnée dans les onze modèles
de forêts aléatoires;
5) Le sous-ensemble des variables sélectionnées sera utilisé comme ensemble
réduit de variables explicatives pour la production des modèles de prévision.
79
CHAPITRE 4 - Présentation et analyse des résultats
4.1 Analyse des variables indépendantes utilisées
4.1.1 Pouvoir prédictif
Le tableau 14 montre pour chacune des variables la diminution de l'erreur moyenne au
carré (MSE), tel que décrit dans la section 3.9.4. Cela, pour l'ensemble des variables
retenues pour la construction des modèles, dix variables pour chaque industrie. Ainsi,
pour chaque industrie, les dix variables où des valeurs sont affichées sont les dix ayant
eu la valeur de diminution moyenne de MSE les plus élevées, selon les résultats
obtenus en utilisant la fonction importance du package R randomForest. Pour chaque
industrie, les trois diminutions de MSE les plus importantes sont indiquées en vert.
Au total, l'union des groupes de dix variables de chacune des onze industries donne un
ensemble de 41 variables.
Tableau 14 : Diminution de l’erreur moyenne de prévision au carré (MSE) par
variable
ejlead_vq1l
eu0m1_vq1l
fben_vq1l
fben_vq2l
fben_vq3l
fben_vq4l
fcapb_vq1l
fcapb_vq2l
fcapb_vq3l
fcapb_vq4l
fcapx_vq1l
fcapx_vq4l
fcote_vq1l
fcote_vq2l
fdett_vq1l
fdett_vq2l
fdett_vq3l
fdett_vq4l
feps_vq1l
feps_vq2l
feps_vq3l
feps_vq4l
ficos_vq1l
fmb_vq1l
UTILITY
TRANSP
TECHNOL
HEALTH
b
FINANCE
ENERGY
CONSSVC
CONSND
CONSDUR
CAPITAL
a
Variable
BASIC
Industries
13.25
17.78
12.01
15.74
12.78
25.01
17.42
24.96
33.05
25.72
30.70
17.27
26.97
30.07
32.81
23.56
17.46
19.73
11.96
27.45
19.47
16.84
18.01
38.83
42.75
21.39
17.04
28.94
37.30
17.06
15.79
31.04
31.00
11.73
13.98
30.93
19.97
23.05
29.14
36.07
18.57
26.46
25.39
23.63
22.02
19.76
32.55
28.69
14.60
20.45
32.10
47.46
31.19
15.48
16.20
12.72
21.31
57.93
13.41
19.63
16.51
Fréquence
1
1
6
1
1
4
1
1
1
1
1
1
3
1
1
1
1
1
11
5
4
9
1
3
80
fmb_vq2l
fmb_vq3l
fmb_vq4l
fprocu_vq1l
fprocu_vq2l
fprocu_vq3l
fprocu_vq4l
fprod_vq1l
fprod_vq2l
frec_vq3l
froa_vq1l
froa_vq4l
frota_vq1l
frota_vq2l
frota_vq4l
fstar
ftaille_q1l
a
b
24.65
1
1
12.54 16.76
17.21
4
16.03 23.65
38.14 17.22
51.31 12.71
6
12.90 18.03
42.02
3
13.60
21.22
2
28.35
17.35
2
14.44
1
16.69
1
13.98
1
13.36
1
8.66
1
18.80
19.03
2
10.93
1
14.66
1
26.35 22.88 16.66 20.04
15.54
18.58
32.02 30.93 14.09 17.48
10
67.26 87.73 89.67 92.81 63.23 70.98 157.23 84.84 55.24 55.55 42.78
11
ejlead : Indicateur composite avancé; eu0m1 : Indice S&P 500; fben : Bénéfice; fcapb : Capitalisation boursière; fcapx :
Ratio de dépenses d'équipement; fcote : Cours du titre de l'entreprise; fdett : Ratio d'endettement; feps : Bénéfice par
action; ficos : Indice S&P 500 Secteur : Consommation courante; fmb : Ratio de marge brute; fprocu : Profitabilité
cumulative; fprod : Ratio de productivité; frec : Ratio de comptes recevables; froa : Rendement de l'actif; frota : Ratio
de rotation de l'actif; fstar : Stabilité des rendements; ftaille : Taille de l'entreprise.
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics; MISCELL : Divers; UNDESIG : Autres.
24.01
16.63
La taille de l'entreprise (ftaille_q1l) se révèle être la variable ayant le meilleur pouvoir
prédictif pour chacune des onze industries. Les variations de BPA trimestriel retardées
d’un (feps_vq1l) et de quatre (feps_vq4l) trimestres arrivent en deuxième/troisième
position dans sept et quatre industries respectivement. En termes de fréquence, la taille
de l'entreprise (ftaille_q1l) et la variation de BPA trimestriel retardée d’un trimestre se
retrouvent dans les dix variables les plus prédictives dans toutes les onze industries.
Viennent ensuite la stabilité des rendements (fstar) et la variation de BPA trimestriel
retardée de quatre trimestres dans dix et neuf industries respectivement.
Il nous apparait tout à fait logique que les variables liées au bénéfice (bénéfice net : fben
et BPA : feps), ainsi que la taille de l'entreprise soient parmi les plus prédictives. Les
variations de bénéfice passées et l'ampleur de ces variations (à la hausse ou à la
baisse) sont certainement parmi les meilleurs indicateurs des BPA futurs. Plusieurs
études antérieures démontrent l'importance des bénéfices passés sur la prévision des
bénéfices futurs. Notamment, cela a été observé dans Andreescu (2004), où les ratios
liés aux bénéfices passés se retrouvent parmi les meilleurs prédicteurs des bénéfices
futurs. Particulièrement, son modèle simple de régression linéaire, où le rendement de
l'actif annuel était la variable dépendante, et la même variable retardée d'un an était la
variable indépendante, montrait un R2 de 0.208.
81
La taille de l'entreprise, liée à sa maturité dans son cycle de vie, doit elle aussi être
parmi les plus importants prédicteurs du BPA, et doit probablement être corrélée
positivement à celui-ci. Dans Creamer et Stolfo (2009), la taille s'était révélée être l'une
des variables les plus significatives parmi les variables financières dans leur modèle de
régression logistique pour prévoir les « Earnings surprises », sur une période de 1996 à
2001. Le coefficient était positif et significatif à un niveau de 5%. N.B.: Pour la période
de 2002 à 2005 cependant, le coefficient s'est révélé beaucoup moins significatif (0.1%
ou moins).
Aussi, la prédominance des variations du premier et du quatrième trimestre retardé,
autant en termes du rang et de la fréquence pour les variables liées au bénéfice,
souligne l'importance de la proximité dans le temps et de la saisonnalité sur le pouvoir
prédictif.
Il est intéressant de noter que des groupes de trois ou quatre variations trimestrielles de
certaines variables se montrent prédictives pour des industries particulières. Ainsi, les
quatre variations de ratio d'endettement (fdett) ont été sélectionnées pour l'industrie des
services financiers, ce qui est également le cas de la capitalisation boursière (fcapb)
pour l'industrie des services publics (UTILITY). Les variations retardées de un, deux et
trois trimestres ont été sélectionnées dans le cas du bénéfice (fben) pour l'industrie de la
santé, et de la profitabilité cumulative (fprocu) pour l'industrie des technologies de
l'information.
Parmi les sept variables du modèle ZETA de Altman, Haldeman et Narayanan (1977),
on constate que cinq d'entre elles sont sélectionnées parmi les 41 variables
sélectionnées. Les deux seules qui n'ont pas été sélectionnées sont le service de la
dette (fdets) et le ratio de liquidité (flqdt).
On remarque finalement que, parmi les 52 variables économiques évaluées, seules
deux se retrouvent parmi les 41 variables sélectionnées : l'indicateur composite avancé
retardé d’un trimestre (ejlead_vq1l) et la variation de l'indice S&P 500 retardée d’un
trimestre (eu0m1_vq1l). Cette situation semble démontrer que les variations macroéconomiques, dans l'ensemble, n'ont pas un effet prédictif à court terme dans une
fenêtre d'un an sur les BPA trimestriels. On peut supposer que l'effet des variations des
variables macro-économiques prend davantage de temps à influer sur les bénéfices des
entreprises. Cela rejoint une observation de l'étude de Fridson, Garman et Wu (1997) où
le R2 ajusté de leur modèle augmentait de 11 à 25.5% en introduisant un délai de deux
ans. Leur modèle visait à prévoir le défaut d'obligations.
82
4.1.2 Statistiques descriptives des variables
Le tableau 28 affichant les statistiques descriptives des variables indépendantes est
présenté en annexe A.
De par la nature des variables utilisées (des variations trimestrielles en pourcentage) il
est à noter que certaines d'entre elles présentent des valeurs minimum-maximum ainsi
que des écart-types assez élevés. Cela est particulièrement le cas des variations de
bénéfice net (fben).
Il est intéressant de constater le signe négatif des moyennes des quatre variations de
bénéfice net, en opposition aux moyennes positives des quatre variations de BPA. C'est
d'ailleurs la seule variable avec le rendement de l'actif (froa) où on observe des
moyennes négatives.
4.2 Performance des méthodes quantitatives
Dans un premier temps, le tableau 15 présente l'EAMP globale des méthodes
quantitatives de toutes les observations des trois années de l'ensemble de test. En vert
sont indiquées les EAMP les plus basses parmi les cinq méthodes quantitatives pour
chacune des deux méthodes de remplacement des données manquantes.
Tableau 15 : Performance globale des méthodes quantitatives
Méthode
Régression linéaire (RL)
Arbre simple (AS)
Boosting (BO)
Bagging (BA)
Forêts aléatoires (FA)
EAMP (%)
Remplacement
Remplacement par
par imputation
la moyenne (MO)
multiple (IM)
294.69
301.75
136.74
136.17
123.51
123.67
126.48
126.62
111.29
111.08
On observe premièrement que les méthodes ensemblistes dominent la méthode de
l'arbre simple, utilisée comme méthode standard de comparaison à base d'arbres. Elles
dominent également la régression linéaire, utilisée comme standard de comparaison en
tant que méthode quantitative paramétrique.
Parmi les méthodes ensemblistes, on peut constater que la méthode des forêts
aléatoires domine globalement les deux autres méthodes ensemblistes, et que la
méthode du Bagging présente la performance la plus faible.
Finalement, à première vue, aucune des deux méthodes de remplacement des valeurs
manquantes ne semble contribuer significativement à donner des EAMP plus basses. Le
83
remplacement par la moyenne donne la moyenne globale d’EAMP la plus basse pour
trois méthodes : la régression linéaire, le Bagging et le Boosting. Pour le remplacement
par imputation multiple, c’est le cas pour l’arbre simple et pour les forêts aléatoires.
Les trois tableaux suivants donnent les EAMP trimestrielles pour toutes les industriestrimestres de l'ensemble de test pour toutes les méthodes quantitatives. En vert sont
indiquées les EAMP trimestrielles les plus basses parmi les méthodes quantitatives.
Cela, pour chacune des deux méthodes de remplacement des données manquantes et
pour chaque industrie-trimestre.
84
Tableau 16 : EAMP trimestrielle 2003 : Analystes et méthodes quantitatives
Remplacement par la moyenne
Remplacement par imputation multiple
Industrie a
b
c
c
Trimestre
AN
RL
RL
AS
BO
BA
FA
AS
BO
BA
FA
58.66
428.95
311.89 323.43 267.63 287.80
465.51
289.83 326.43 261.40 257.00
BASIC 0303
95.57
331.05
336.34 410.71 340.79 300.52
304.94
311.47 408.03 321.72 295.52
BASIC 0306
59.90
459.42
311.94 344.30 296.81 254.27
524.51
275.11 348.14 298.16 261.27
BASIC 0309
70.80
281.39
192.69 260.00 197.43 189.52
277.46
213.87 264.76 216.10 195.53
BASIC 0312
45.53
231.51
306.59 269.28 268.61 149.75
240.37
300.65 272.48 273.82 168.92
CAPITAL 0303
50.03
161.57
177.06 182.35 172.50 135.70
167.65
174.91 182.41 171.63 130.83
CAPITAL 0306
50.39
232.30
161.06 185.37 154.30 155.44
239.36
158.42 185.85 152.85 154.37
CAPITAL 0309
56.79
162.09
113.56 150.82 115.40 102.13
162.96
114.53 151.76 119.27 102.67
CAPITAL 0312
41.59
197.53
143.59 202.15 157.28 131.03
194.53
188.33 204.99 163.25 127.80
CONSDUR 0303
31.90
173.83
105.30 159.40 143.28 149.03
171.30
123.24 159.11 142.25 151.72
CONSDUR 0306
57.49
263.03
250.27 227.23 152.69 152.45
257.23
140.76 223.53 137.63 149.31
CONSDUR 0309
51.10
218.88
129.12 158.79 111.88
73.99
218.69
129.68 159.36 114.73
80.31
CONSDUR 0312
44.76
245.41
151.22 196.61 127.57
98.64
268.97
123.82 195.14 110.61
94.80
CONSND 0303
35.41
246.54
99.20
148.05 103.86
97.66
256.43
105.22 147.60 105.17
99.98
CONSND 0306
37.09
39 690.82
110.25 159.46 128.03 116.41
43 600.49
101.25 151.15 107.06 107.09
CONSND 0309
61.94
94.00
92.39
152.48
84.97
83.24
100.94
96.31
153.58
82.50
73.54
CONSND 0312
42.03
163.79
194.35 140.19 160.25 130.78
166.09
196.44 141.26 174.05 148.56
CONSSVC 0303
42.65
272.97
188.03 124.52 168.95 152.24
267.65
171.50 125.55 168.79 152.68
CONSSVC 0306
46.09
376.67
174.49 119.63 146.59 122.79
369.99
162.25 120.13 142.22 122.77
CONSSVC 0309
50.18
131.82
141.79 115.38 125.67 128.28
129.70
139.62 116.89 127.17 129.51
CONSSVC 0312
28.55
127.26
139.92 140.67 124.21 103.52
129.71
134.03 137.90 117.20 102.63
ENERGY 0303
41.84
175.75
161.14 154.43 151.58 148.75
175.93
168.56 154.87 151.84 149.39
ENERGY 0306
63.90
156.22
196.56 168.68 161.34 162.43
156.04
199.42 169.68 165.50 163.23
ENERGY 0309
45.30
154.78
157.95 144.54 151.00 154.23
154.32
149.78 145.23 152.65 149.52
ENERGY 0312
20.07
80.17
77.08
84.50
76.93
71.95
80.64
77.13
84.26
76.99
74.00
FINANCE 0303
32.27
82.47
86.18
92.30
86.16
75.89
81.74
86.38
91.92
86.32
75.15
FINANCE 0306
37.84
112.55
103.81 111.31 101.94
90.19
113.15
103.86 111.17 102.15
89.05
FINANCE 0309
39.57
119.14
92.89
108.97
94.16
91.34
119.78
99.30
110.34
99.41
94.35
FINANCE 0312
28.29
106.87
104.00
76.36
99.31
81.18
108.62
106.71
77.88
100.17
80.52
HEALTH 0303
38.62
125.75
95.68
76.43
92.97
81.40
126.99
100.53
75.53
96.44
81.54
HEALTH 0306
38.33
121.76
118.45
86.78
120.65
94.58
116.60
119.73
84.52
115.31
93.75
HEALTH 0309
52.91
121.16
124.87
87.90
114.52
98.15
119.68
123.07
85.31
109.70
93.84
HEALTH 0312
46.47
149.69
175.28 103.98 150.29 134.84
160.33
151.71 104.30 138.31 129.54
TECHNOL 0303
49.96
146.69
165.46 104.19 154.29 125.69
140.60
184.06 103.19 157.76 126.81
TECHNOL 0306
54.50
160.94
138.44
93.57
125.71 113.65
171.07
143.65
97.40
136.04 120.13
TECHNOL 0309
66.39
155.52
171.56 101.96 159.31 143.26
147.37
176.47 104.67 160.23 140.48
TECHNOL 0312
21.45
169.38
236.73 189.35 176.16 174.15
183.61
228.52 173.78 141.58 138.72
TRANSP 0303
58.92
100.14
144.52 101.24
88.66
94.79
111.15
148.20 103.41
90.32
92.27
TRANSP 0306
39.86
198.39
121.38
87.59
105.13 111.37
176.98
101.22
88.70
101.36 100.28
TRANSP 0309
46.31
153.46
148.72 115.22 107.93
99.84
153.21
129.61 115.95 107.94
96.25
TRANSP 0312
48.77
132.61
143.97 128.98 146.67 115.68
115.13
155.97 127.80 145.26 112.58
UTILITY 0303
71.61
238.80
196.66 113.00 165.18 136.99
246.29
157.87 111.19 147.94 134.59
UTILITY 0306
90.23
267.56
361.09 220.66 268.38 173.30
261.64
356.06 220.09 263.42 171.59
UTILITY 0309
92.97
323.07
179.50 126.58 137.23 104.12
330.86
184.76 125.60 132.50 107.84
UTILITY 0312
Moyenne :
46.02
547.43
148.00 130.98 135.89 119.28
586.26
145.72 131.22 135.55 119.22
a
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics; MISCELL : Divers; UNDESIG : Autres.
b
AN : Analystes.
c
RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires.
85
Tableau 17 : EAMP trimestrielle 2004 : Analystes et méthodes quantitatives
Remplacement par la moyenne
Remplacement par imputation multiple
Industrie a
b
c
c
Trimestre
AN
RL
RL
AS
BO
BA
FA
AS
BO
BA
FA
BASIC 0403
108.38
297.41
188.19
209.61 177.16 177.36
312.83
221.41
213.66 173.15 174.31
BASIC 0406
122.15
156.73
168.56
187.34 166.02 142.80
145.63
183.38
182.64 152.40 135.56
BASIC 0409
45.80
113.94
117.03
150.43 114.70 100.28
115.28
122.55
151.64 116.01
97.74
BASIC 0412
76.40
151.84
125.38
150.10 131.42 135.50
147.97
133.04
151.20 133.83 136.74
CAPITAL 0403
34.13
426.70
123.50
141.01 119.96 108.57
399.85
123.80
142.59 122.20 111.20
CAPITAL 0406
47.78
3 141.13
127.55
141.51 116.21
89.29
3 171.65
125.27
141.37 116.95
95.86
CAPITAL 0409
33.84
132.85
117.58
143.66 119.00
89.71
124.87
115.59
143.46 118.09
88.92
CAPITAL 0412
73.76
160.88
129.43
164.70 134.65 125.93
155.85
131.62
164.65 135.74 119.54
CONSDUR 0403
27.16
188.67
127.98
160.37 122.87 103.12
188.66
137.41
161.13 127.08 111.48
CONSDUR 0406
24.39
163.19
138.37
144.30 115.30 101.15
157.10
137.75
144.68 116.35 104.62
CONSDUR 0409
64.05
192.96
136.07
183.53 138.36 139.00
187.84
137.78
184.59 141.47 136.37
CONSDUR 0412
46.98
156.50
116.32
160.38 115.62 109.76
153.86
118.81
162.46 118.63 108.92
CONSND 0403
34.33
157.86
102.28
154.52
97.46
92.19
165.51
104.20
155.49
99.85
90.67
CONSND 0406
37.42
135.64
104.57
140.90 103.48
89.33
135.99
82.16
136.00
88.83
73.31
CONSND 0409
36.27
103.62
97.98
161.73 103.85
85.40
106.21
94.01
158.35
97.31
80.86
CONSND 0412
100.15
139.51
143.27
200.08 129.67 125.58
141.51
143.08
200.99 130.77 127.91
CONSSVC 0403
43.74
175.01
176.52
141.33 164.30 130.48
176.21
171.44
141.61 162.70 134.89
CONSSVC 0406
50.92
159.58
166.18
135.95 159.35 123.84
156.80
165.77
135.51 157.77 125.81
CONSSVC 0409
28.22
123.15
144.26
119.50 136.60 116.73
121.40
144.67
120.02 133.92 120.57
CONSSVC 0412
40.29
121.83
118.37
104.04 113.72 116.19
119.94
118.76
103.91 114.49 120.60
ENERGY 0403
32.64
110.24
116.10
119.25 102.78 105.47
110.60
106.71
119.61 102.42 107.16
ENERGY 0406
24.69
152.03
117.30
146.63 123.22 115.43
155.45
115.20
145.78 121.52 120.89
ENERGY 0409
55.88
151.76
153.81
157.12 134.59 136.94
162.83
157.38
161.46 138.98 140.01
ENERGY 0412
62.81
310.84
102.38
135.79 103.93 123.19
208.39
104.84
135.03 105.07 119.38
FINANCE 0403
19.32
128.23
94.37
102.14
93.01
80.47
126.37
94.23
102.07
93.23
79.84
FINANCE 0406
31.23
140.72
90.25
103.86
91.14
79.41
96.45
90.34
103.85
90.60
80.57
FINANCE 0409
31.33
109.58
108.00
119.33 108.27
90.71
108.42
108.09
120.06 108.85
95.33
FINANCE 0412
28.32
94.43
97.85
110.50
99.84
88.68
96.22
98.00
110.41
99.66
87.77
HEALTH 0403
35.18
129.17
127.45
83.99
113.28
90.60
127.80
122.58
84.95
111.25
95.28
HEALTH 0406
35.09
149.54
145.36
86.21
116.94
87.06
151.48
130.08
82.98
111.23
82.72
HEALTH 0409
45.68
135.10
127.77
88.22
118.12
97.94
129.93
126.69
87.36
118.17
97.34
HEALTH 0412
50.15
121.69
124.52
85.09
108.51 102.26
122.84
121.56
86.23
115.11 104.57
TECHNOL 0403
42.78
149.69
163.10
109.94 151.77 132.51
153.75
159.49
112.19 147.90 136.67
TECHNOL 0406
34.38
124.10
145.32
103.83 134.72 124.24
120.73
151.47
104.44 141.93 123.57
TECHNOL 0409
36.93
126.52
149.13
106.48 139.21 132.33
117.33
149.40
109.24 143.32 130.00
TECHNOL 0412
42.04
130.11
149.62
103.58 138.86 127.06
116.22
153.91
104.21 144.88 125.90
TRANSP 0403
19.82
152.58
160.95
150.97 142.45 137.51
152.86
151.70
150.11 146.37 131.88
TRANSP 0406
33.94
65.03
191.02
84.22
83.74
77.13
67.77
174.03
88.87
92.31
78.72
TRANSP 0409
48.95
231.43
147.97
143.04 158.16 144.82
209.48
162.90
142.44 158.34 146.56
TRANSP 0412
21.57
94.12
137.31
106.61 124.91 100.32
88.49
241.11
109.50 134.48 105.49
UTILITY 0403
41.89
330.13
165.53
136.02 149.36 113.59
317.02
164.83
134.04 141.49 121.36
UTILITY 0406
25.92
220.95
154.21
101.73 115.18
95.50
205.38
159.40
101.05 114.88
99.30
UTILITY 0409
24.01
274.16
191.49
152.07 177.51 123.56
241.14
196.48
149.77 178.19 133.53
UTILITY 0412
31.01
131.34
232.02
118.43 156.04 132.36
145.87
231.45
117.01 156.79 122.71
Moyenne :
40.08
195.88
130.99
119.71 122.51 107.59
189.70
131.48
119.93 122.77 108.44
a
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics; MISCELL : Divers; UNDESIG : Autres.
b
AN : Analystes.
c
RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires.
86
Tableau 18 : EAMP trimestrielle 2005 : Analystes et méthodes quantitatives
Remplacement par la moyenne
Remplacement par imputation multiple
Industrie a
b
c
c
Trimestre
AN
RL
RL
AS
BO
BA
FA
AS
BO
BA
FA
BASIC 0503
55.20
213.25
178.40 188.93 157.30 172.24
214.62
193.51 188.97 156.56 169.55
BASIC 0506
39.47
165.40
156.23 175.95 135.24 127.20
168.79
161.21 176.14 139.64 122.57
BASIC 0509
37.69
153.31
171.37 172.99 157.77 135.65
158.19
156.31 170.03 153.53 129.21
BASIC 0512
43.26
216.98
169.30 194.13 157.56 137.68
219.65
159.50 189.12 147.85 147.08
CAPITAL 0503
51.06
143.79
124.66 146.22 114.97 102.37
140.65
127.22 145.98 115.16 103.07
CAPITAL 0506
38.05
152.36
117.38 127.42 107.58
87.54
131.18
116.93 127.07 105.04
89.68
CAPITAL 0509
31.47
122.59
90.04
111.99
82.73
69.47
104.66
88.32
111.21
79.56
73.63
CAPITAL 0512
38.37
101.36
88.46
108.72
81.23
76.44
100.18
87.72
107.95
79.39
74.10
CONSDUR 0503
38.74
239.19
188.68 243.56 200.18 166.71
244.23
184.72 240.42 192.80 169.74
CONSDUR 0506
27.51
162.24
121.36 155.49 105.21 109.70
149.84
129.53 161.20 119.81
98.10
CONSDUR 0509
36.38
210.56
115.51 195.13 123.14 108.82
213.52
114.05 193.87 118.94 118.78
CONSDUR 0512
70.25
125.71
109.60 130.99 107.61
99.49
126.92
113.57 131.04 108.57 101.27
CONSND 0503
43.42
163.98
109.11 163.94
96.36
86.40
161.22
113.49 168.24 104.92
88.51
CONSND 0506
38.20
256.45
91.33
153.70
95.66
87.99
151.49
89.70
151.57
92.04
86.77
CONSND 0509
42.19
242.16
93.13
183.43
95.60
83.78
227.51
146.69 185.24 101.47
82.94
CONSND 0512
63.56
97.21
79.84
110.94
69.48
80.74
105.19
74.38
111.00
66.92
77.90
CONSSVC 0503
47.03
161.41
174.33 139.69 161.16 150.75
158.73
171.68 139.38 156.46 148.65
CONSSVC 0506
41.86
120.28
162.38 114.64 146.23 114.36
119.54
159.86 116.81 149.98 112.19
CONSSVC 0509
48.21
141.79
147.46 121.43 136.73 129.68
142.77
142.17 121.49 137.96 123.93
CONSSVC 0512
57.42
101.55
130.28 112.87 122.20 120.38
106.63
133.13 112.42 121.37 124.61
ENERGY 0503
37.07
160.07
87.16
106.89
92.24
93.67
166.02
95.52
106.05
91.52
93.07
ENERGY 0506
43.81
200.14
140.61 163.54 132.50 116.79
193.12
135.17 163.11 132.85 120.84
ENERGY 0509
56.53
159.08
129.43 152.76 111.51 110.57
148.95
129.01 152.86 114.16 116.48
ENERGY 0512
35.28
161.34
107.10 120.26
95.76
92.45
174.93
111.49 121.04
99.96
93.40
FINANCE 0503
29.38
115.29
93.84
103.86
90.90
82.70
94.02
90.61
103.70
90.39
81.18
FINANCE 0506
39.96
86.76
90.90
96.79
89.77
82.04
86.36
88.54
96.75
89.19
81.24
FINANCE 0509
42.99
130.37
125.74 135.01 124.01 107.77
133.17
125.74 135.01 123.39 108.15
FINANCE 0512
42.01
108.47
111.30 120.15 109.36
93.06
108.14
111.30 119.75 109.35
93.67
HEALTH 0503
35.06
128.64
112.01
84.89
108.23
91.80
129.52
111.50
84.64
111.32
91.86
HEALTH 0506
37.16
128.90
127.68
83.58
112.84 101.13
129.46
127.30
83.10
115.30 103.37
HEALTH 0509
47.30
142.20
128.24
85.14
117.20
97.69
136.43
128.03
85.91
118.22
95.24
HEALTH 0512
45.60
136.79
123.02
83.62
111.88 101.68
135.31
124.55
85.99
117.78 101.23
TECHNOL 0503
43.45
141.56
174.05 124.68 169.44 143.81
141.75
176.38 122.01 167.16 138.55
TECHNOL 0506
45.16
127.86
170.57 102.26 145.85 115.51
121.22
167.43 102.19 146.53 113.48
TECHNOL 0509
43.22
111.66
146.54 102.08 131.07 104.58
107.83
151.74 103.42 142.17 103.21
TECHNOL 0512
46.37
99.66
142.76 106.54 132.84 116.46
104.69
148.04 106.67 131.29 113.33
TRANSP 0503
47.93
4210.55
132.90 114.73 126.85
98.89
3506.94
152.84 115.98 130.11
98.22
TRANSP 0506
46.31
145.21
140.48 129.48 147.94 151.91
137.79
140.43 130.68 150.09 148.56
TRANSP 0509
39.09
118.45
119.79 127.12 122.16 110.28
114.49
136.52 125.38 115.14 103.23
TRANSP 0512
41.10
137.92
147.94 102.03
90.56
103.81
136.33
114.74 102.57
97.28
100.88
UTILITY 0503
40.62
232.46
210.88 154.34 164.34 125.79
191.43
192.11 153.64 161.05 125.84
UTILITY 0506
27.48
161.83
139.58
91.55
105.27
87.77
138.79
123.07
91.84
101.63
84.40
UTILITY 0509
56.29
232.27
219.22 180.86 182.92 133.31
214.58
214.10 180.06 181.10 126.44
UTILITY 0512
68.24
302.22
282.24 160.33 196.12 185.95
261.18
286.94 167.40 187.03 136.85
Moyenne :
42.88
162.82
132.13 120.42 121.83 107.65
154.07
132.09 120.47 122.28 106.33
a
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics; MISCELL : Divers; UNDESIG : Autres.
b
AN : Analystes.
c
RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires.
87
Nous pouvons constater ici la domination de la méthode des forêts aléatoires sur
l'ensemble des trois années de test. Pour ces trois années (132 industries-trimestres en
tout), cette méthode arrive en première position parmi les méthodes quantitatives 74 fois
et 75 fois sur 132 pour la méthode de remplacement des valeurs manquantes par la
moyenne (MO), et par imputation multiple (IM) respectivement. Ensuite, on retrouve la
méthode du Boosting avec 36 (MO) et 35 (IM) premières positions sur 132. Finalement
en troisième place, on retrouve l'autre méthode ensembliste, le Bagging avec dix (MO)
et onze (IM) premières positions obtenues. Quant aux deux autres méthodes
quantitatives, la méthode de l'arbre simple obtient six (MO) et six (IM) premières
positions et la régression linéaire se retrouve en première position six (MO) et cinq (IM)
fois sur 132.
Les résultats obtenus montrent ainsi la supériorité prédictive des méthodes non
paramétriques sur une méthode paramétrique standard, la régression linéaire, dans un
autre domaine d'application. Cela permet donc d'ajouter la prévision des BPA
trimestriels utilisant des variables indépendantes couvrant un horizon court d'un an aux
autres domaines d'application où cette supériorité (méthodes non paramétriques vs
méthodes paramétriques) a également été observée. Mentionnons les recherches
suivantes :

Labarre (2003) : Identification des acheteurs potentiels;

Belhouari (2005) : Prédiction de faillite;

Cutler et al. (2007) : Classification de trois types d'organismes en écologie;

Creamer et Stolfo (2009) : Prédiction de rendement cumulatif anormal (CAR) et
de « Earnings surprises ».
Cela nous permet d'affirmer qu'il existe vraisemblablement dans les données des
relations complexes impliquant plusieurs variables financières permettant la prévision
des BPA trimestriels. Ces relations, si elles existent, doivent probablement être captées
en partie par les arbres de régression composant les méthodes ensemblistes, ce qui
leur permet d'obtenir une performance de prévision supérieure à la régression linéaire.
Parmi les méthodes ensemblistes, les résultats obtenus montrent également la
supériorité prédictive de la méthode des forêts aléatoires sur les autres méthodes
ensemblistes pour un domaine additionnel. Ce même résultat a été observé dans
quelques recherches, dont, parmi les plus récentes : Hamza et Larocque (2005) et
Creamer et Stolfo (2009). On doit mentionner par contre que, dans d'autres recherches,
les forêts aléatoires n'ont pas toujours été la meilleure méthode ensembliste, notamment
88
Labarre (2003) où le Boosting domine lors de tests où la validation a été effectuée avec
les mêmes données ayant servi à l'entraînement des modèles.
Ainsi, les deux hypothèses de notre premier objectif de recherche (voir section 3.2) se
trouvent vérifiées dans ce mémoire, à savoir :
1) Les
méthodes
non paramétriques
performent
mieux que
la méthode
paramétrique;
2) Parmi les méthodes d'ensembles, la méthode des forêts aléatoires montre les
meilleurs résultats dans l'ensemble.
Lorsqu'on examine le lien entre les meilleures méthodes et les industries pour chacun
des trimestres de l'ensemble de test, des points intéressants ressortent. Pour certaines
industries, une méthode en particulier semble donner constamment les meilleurs
résultats, alors que pour d'autres, les résultats sont mitigés. Ainsi, les forêts aléatoires
obtiennent la plus faible EAMP pour la majorité des trimestres pour les industries
suivantes : Extraction/Transformation (BASIC), Construction/Manufacturier (CAPITAL),
Consommation (durables) (CONSDUR), Consommation (non durables) (CONSND),
Services financiers (FINANCE) et Services publics (UTILITY). De façon particulière,
pour deux industries en particulier, Santé (HEALTH) et Technologie (TECHNOL), c'est le
Boosting qui domine sur presque tous les trimestres. Pour les autres industries, les
résultats sont non concluants : Consommation (services) (CONSSVC), Énergie
(ENERGY) et Transports (TRANSP).
Examinons maintenant les industries où les méthodes quantitatives ont le mieux (et le
moins bien) performé. Pour avoir une vision plus globale de la performance, nous
examinerons les EAMP annuelles pour les trois années de l'ensemble de test. Ces
EAMP sont affichées dans les tableaux 21, 23 et 25 présentés plus bas aux p. 93, 94 et
95 respectivement. Les trois tableaux 22, 24 et 26 affichent le rang des EAMP annuelles
par industrie, allant de la moyenne la plus basse (rang 1) à la plus élevée (rang 11).
Dans le tableau 19, nous affichons pour chacune des méthodes le nombre de fois où les
industries se situent : a) dans les trois premières positions et b) dans les trois dernières
positions sur un total possible de six par méthode quantitative (deux méthodes de
remplacement des valeurs manquantes x trois années).
89
Tableau 19 : Méthodes quantitatives : Performance par industrie
Total : EAMP annuelle, trois ans, trois
premières positions
a
a
b
Industrie
RL
BASIC
b
Total : EAMP annuelle : trois ans, trois
dernières positions
b
AS
BO
BA
FA
Total
RL
AS
BO
BA
FA
Total
0
0
0
0
0
0
4
5
6
6
6
27
CAPITAL
2
2
0
2
2
8
2
2
2
2
2
10
CONSDUR
0
0
0
0
0
0
0
0
6
0
1
7
CONSND
0
6
0
6
6
18
3
0
4
0
0
7
CONSSVC
0
0
0
0
0
0
0
0
0
1
4
5
ENERGY
1
2
0
0
0
3
1
0
0
0
2
3
FINANCE
6
6
6
6
6
30
0
0
0
0
0
0
HEALTH
3
2
6
4
4
19
0
0
0
0
0
0
TECHNOL
5
0
6
0
0
11
0
3
0
3
2
8
TRANSP
1
0
0
0
0
1
2
2
0
0
0
4
UTILITY
0
0
0
0
0
0
6
6
0
6
1
19
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics; MISCELL : Divers; UNDESIG : Autres.
RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires.
Ainsi, on observe que les trois industries suivantes sont celles où les méthodes
quantitatives, dans l'ensemble, ont le mieux performé : Services financiers (FINANCE),
Santé (HEALTH) et Consommation (non durables) (CONSND). À l'autre extrême, les
trois industries pour lesquelles les résultats les moins bons ont été obtenus sont :
Extraction/Transformation
(BASIC),
Services
publics
(UTILITY)
et
Construction/Manufacturier (CAPITAL). Nous posons l'hypothèse que la performance de
prédiction pour les industries où les méthodes ont le moins bien performé a été affectée
négativement par les deux principales raisons suivantes :
1) Des variables indépendantes importantes pour la prédiction de BPA trimestriel
sont manquantes dans notre modèle pour cette industrie;
2) Des variables importantes pour la prédiction de BPA trimestriel sont présentes
dans le modèle, mais leurs variations trimestrielles ont un impact prédictif retardé
sur une période dépassant un an, l'horizon de notre modèle.
Il est possible également que le nombre d'enregistrements ayant servi à la création des
modèles spécifiques par industrie ait joué un rôle sur la performance de prédiction.
Ainsi, deux des meilleures industries (FINANCE et HEALTH) sont parmi les trois
premières industries en termes de nombre d'enregistrements. Cependant, l'industrie de
la Technologie (TECHNOL) est la deuxième en importance en termes de nombre
90
d'enregistrements et se retrouve pourtant à quelques reprises parmi les industries avec
la moins bonne performance de prévision.
En ce qui concerne les méthodes ensemblistes, lorsqu'on examine les données dans les
tableaux 21, 23 et 25, on constate les points intéressants suivants :

Pour le Bagging et les forêts aléatoires, l'industrie des Services financiers
(FINANCE) arrive en première position deux années sur trois, en 2003 et 2004.
Ce sont également les trois mêmes industries qui arrivent dans les trois
premières positions pour chacune des trois années de l'ensemble de test pour
ces deux méthodes. Cette situation peut possiblement s'expliquer par le fait que
le Bagging est un cas spécifique des forêts aléatoires;

Pour le Boosting, l'industrie de la Santé (HEALTH) arrive systématiquement en
première position sur les trois années de l'ensemble de test, alors que cette
industrie n'arrive jamais en première position pour les deux autres méthodes
ensemblistes dont le fonctionnement est significativement différent de celui du
Boosting utilisé dans ce travail. On observe également des écarts importants
parfois entre le rang d'une industrie pour le Boosting et celui obtenu par le
Bagging et les forêts aléatoires (ex.: industrie de la Technologie en 2004,
remplacement par imputation multiple : BO : rang 2, BA/FA : rang 10). Il est
particulier ici de constater que la nature d'une méthode ensembliste a un impact
sur les performances de prévision selon l'industrie.
Finalement, lorsqu’on examine la méthode de remplacement des données manquantes
qui donne l’EAMP trimestrielle la plus faible parmi les cinq méthodes quantitatives pour
chaque industrie-trimestre, nous ne constatons pas ici aussi une dominance particulière
de l’une ou de l’autre des méthodes. Le remplacement par la moyenne donne l’EAMP la
plus basse 67 industries-trimestres sur 132, alors que c’est le cas pour 65 industriestrimestres sur 132 pour le remplacement par imputation multiple pour les trois années de
test. Si nous examinons les résultats pour chaque méthode quantitative, nous avons les
résultats suivants dans le tableau 20 qui indiquent le nombre d’industries-trimestres où
la méthode de remplacement a donné l’EAMP trimestrielle la plus faible :
91
Tableau 20 : Méthodes de remplacement des valeurs manquantes : Nombre
d’industries-trimestres avec EAMP minimum par méthode quantitative
Méthode
Régression linéaire (RL)
Arbre simple (AS)
Boosting (BO)
Bagging (BA)
Forêts aléatoires (FA)
Total :
Remplacement par la
moyenne (MO)
59
64
68
70
59
320
Remplacement
par imputation
multiple (IM)
73
68
64
62
73
340
Le remplacement par la moyenne donne les meilleurs résultats pour la méthode du
Boosting et du Bagging, et le remplacement par imputation multiple donne les meilleurs
résultats pour les autres méthodes. Cependant, les résultats ici ne nous permettent pas
de conclure à une domination nette de l’une ou l’autre des deux méthodes.
4.3 Comparaison avec la performance des analystes
Pour la présentation et l’analyse des résultats comparatifs entre analystes et méthodes
quantitatives, nous avons choisi de nous placer au niveau annuel afin d'avoir une idée
globale de la performance. Aussi, comme le présent mémoire s'intéresse aux méthodes
ensemblistes à base d'arbres, et pour limiter la quantité de données présentées, nous
avons choisi ici d'exclure la présentation des résultats de la régression linéaire et de
nous limiter aux méthodes à base d'arbres.
N.B.: Le niveau de détail trimestriel est disponible dans les tableaux 16, 17 et 18
présentés précédemment pour les analystes et les méthodes quantitatives.
Donc, pour chacune des trois années de l’ensemble de test, nous présentons trois
tableaux qui affichent les données suivantes :

Les tableaux 21, 23 et 25 présentent l'EAMP annuelle de tous les
enregistrements pour chacune des industries. Cela, pour les analystes et les
méthodes quantitatives. En vert est affichée la plus basse EAMP annuelle
obtenue pour chacune des deux méthodes de remplacement des valeurs
manquantes;

Les figures 3, 4 et 5 présentent ces mêmes données graphiquement;

Les tableaux 22, 24 et 26 présentent le rang par industrie des EAMP annuelles,
allant de l'EAMP la plus basse (rang 1) à la plus élevée (rang 11). La moyenne
92
du rang est calculée également pour les méthodes ensemblistes, pour chacune
des deux méthodes de remplacement des valeurs manquantes. Les trois
meilleurs rangs sont marqués en vert et les trois rangs les plus bas sont marqués
en orange. Finalement, les corrélations entre le rang des industries pour les
analystes et le rang des méthodes, ainsi que les corrélations entre le rang des
industries pour les analystes et celui des moyennes de rang pour les méthodes
ensemblistes, sont affichées en bas de tableau.
93
Tableau 21 : EAMP annuelle 2003 : Analystes et méthodes quantitatives
a
b
Industrie
BASIC
CAPITAL
CONSDUR
CONSND
CONSSVC
ENERGY
FINANCE
HEALTH
TECHNOL
TRANSP
UTILITY
Moyenne :
AN
71.16
50.77
45.46
44.96
45.35
45.11
32.81
39.85
54.44
41.99
76.23
46.02
Remplacement par la moyenne
c
BO
BA
FA
AS
288.58
334.79
275.91
258.23
187.81
195.86
176.33
135.46
156.85
186.85
141.34
126.72
112.72
163.74
110.71
98.84
174.00
124.59
149.91
133.43
164.22
152.24
147.30
142.69
90.34
99.80
90.17
82.76
111.04
82.03
107.10
89.06
162.66
100.91
147.45
129.40
162.08
122.66
118.70
119.25
221.00
147.84
179.60
132.44
148.00
130.98
135.89
119.28
Remplacement par imputation multiple
c
BO
BA
FA
AS
272.74
337.02
274.55
252.51
185.43
197.00
177.98
138.68
145.57
186.72
139.56
127.37
106.40
161.48
101.08
93.66
166.71
125.62
152.41
138.05
163.33
152.11
147.16
141.65
92.14
99.98
91.69
83.58
112.73
80.91
105.56
87.60
164.10
102.39
148.20
129.30
151.18
119.94
109.88
106.43
214.75
146.71
172.64
131.63
145.72
131.22
135.55
119.22
Figure 4 : EAMP annuelle 2003 : Analystes et méthodes quantitatives
Tableau 22 : Classement par rang 2003
Remplacement par la
moyenne (MO)
a
b
c
Remplacement par
imputation multiple (IM)
c
Moyenne (MO) :
Méthodes
ensemblistes
(BO, BA, FA)
11.00
9.33
6.33
4.67
7.00
7.67
1.33
1.67
5.33
4.00
7.67
0.82
Moyenne (IM)
: Méthodes
ensemblistes
(BO, BA, FA)
11.00
9.67
6.33
4.33
7.00
7.67
1.33
2.00
5.33
4.00
7.33
0.80
Industrie
AN
AS
AS
BO
BA
FA
BO
BA
FA
BASIC
10
11
11
11
11
11
11
11
11
CAPITAL
8
9
10
9
9
9
10
10
9
CONSDUR
7
4
9
5
5
4
9
5
5
CONSND
4
3
8
3
3
2
8
2
3
CONSSVC
6
8
5
8
8
8
5
8
8
ENERGY
5
7
7
6
10
6
7
6
10
FINANCE
1
1
2
1
1
1
2
1
1
HEALTH
2
2
1
2
2
3
1
3
2
TECHNOL
9
6
3
7
6
7
3
7
6
TRANSP
3
5
4
4
4
5
4
4
4
UTILITY
11
10
6
10
7
10
6
9
7
Corrélation :
0.85 0.57 0.92
0.72
0.86 0.57 0.87 0.72
Tableaux 21 et 22, Figure 4 :
a
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics.
b
AN : Analystes.
c
RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires.
94
Tableau 23 : EAMP annuelle 2004 : Analystes et méthodes quantitatives
a
Industrie
BASIC
CAPITAL
CONSDUR
CONSND
CONSSVC
ENERGY
FINANCE
HEALTH
TECHNOL
TRANSP
UTILITY
Moyenne :
b
AN
87.85
47.35
41.26
52.01
40.69
44.50
27.63
41.81
39.01
31.34
30.74
40.08
Remplacement par la moyenne
c
BO
BA
FA
AS
149.05
173.65
146.79
138.44
124.44
147.75
122.45
103.21
129.53
162.48
123.15
113.69
112.01
164.19
108.62
98.09
150.90
124.92
143.11
121.69
122.50
140.05
116.29
120.63
97.72
109.10
98.20
84.94
131.16
85.91
114.16
94.69
151.64
105.89
140.99
128.98
158.38
121.02
127.85
115.03
185.89
126.92
149.41
116.26
130.99
119.71
122.51
107.59
Remplacement par imputation multiple
c
BO
BA
FA
AS
164.02
174.02
143.37
135.58
123.98
148.03
123.21
103.67
132.71
163.57
125.99
115.60
105.72
162.57
104.11
93.07
149.77
124.98
141.85
125.34
121.33
140.84
117.21
122.17
97.77
109.24
98.22
86.01
125.21
85.42
114.04
95.18
153.50
107.44
144.47
128.92
183.98
122.56
133.41
115.96
188.10
125.33
147.72
119.17
131.48
119.93
122.77
108.44
Figure 5 : EAMP annuelle 2004 : Analystes et méthodes quantitatives
Tableau 24 : Classement par rang 2004
Remplacement par la
moyenne (MO)
a
b
c
Remplacement par
imputation multiple (IM)
c
Moyenne (MO) :
Méthodes
ensemblistes
(BO, BA, FA)
10.67
5.67
6.67
5.00
7.67
6.33
1.67
2.00
6.67
5.67
8.00
0.31
Moyenne (IM)
: Méthodes
ensemblistes
(BO, BA, FA)
10.33
5.67
7.00
4.33
7.33
6.33
1.67
2.33
7.33
5.67
8.00
0.26
Industrie
AN
AS
AS
BO
BA
FA
BO
BA
FA
11
7
11
10
11
9
11
9
11
BASIC
9
4
8
5
4
4
8
5
4
CAPITAL
6
5
9
6
5
6
10
6
5
CONSDUR
10
2
10
2
3
2
9
2
2
CONSND
5
8
5
9
9
7
5
8
9
CONSSVC
8
3
7
4
8
3
7
4
8
ENERGY
1
1
3
1
1
1
3
1
1
FINANCE
7
6
1
3
2
5
1
3
3
HEALTH
4
9
2
8
10
8
2
10
10
TECHNOL
3
10
4
7
6
10
4
7
6
TRANSP
2
11
6
11
7
11
6
11
7
UTILITY
Corrélation :
-0.35
0.67
-0.10
0.15
-0.24
0.64
-0.17
0.13
Tableaux 23 et 24, Figure 5 :
a
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics.
b
AN : Analystes.
c
RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires.
95
Tableau 25 : EAMP annuelle 2005 : Analystes et méthodes quantitatives
a
b
Industrie
BASIC
CAPITAL
CONSDUR
CONSND
CONSSVC
ENERGY
FINANCE
HEALTH
TECHNOL
TRANSP
UTILITY
Moyenne :
AN
43.66
39.62
43.46
46.74
48.74
43.23
38.71
41.42
44.53
43.59
48.44
42.88
Remplacement par la moyenne
c
BO
BA
FA
AS
168.75
182.85
152.04
142.66
104.85
123.32
96.36
83.72
132.48
180.03
132.63
120.12
93.20
153.44
89.36
84.72
153.21
121.95
141.23
128.58
116.03
135.71
107.68
103.19
105.82
114.34
103.90
91.66
122.88
84.31
112.61
98.14
158.50
108.86
144.78
120.02
135.26
118.49
122.08
116.58
213.97
147.15
162.74
133.91
132.13
120.42
121.83
107.65
Remplacement par imputation multiple
c
BO
BA
FA
AS
167.06
180.85
149.36
141.59
104.73
122.78
94.50
84.89
134.23
180.40
133.69
121.00
106.61
154.41
91.40
83.99
151.35
122.31
141.12
127.18
117.80
135.64
109.39
105.79
104.47
114.19
103.47
91.35
123.00
84.93
115.73
97.97
160.92
108.55
146.84
117.08
136.10
118.80
123.32
113.05
205.20
148.67
158.24
118.71
132.09
120.47
122.28
106.33
Figure 6 : EAMP annuelle 2005 : Analystes et méthodes quantitatives
Tableau 26 : Classement par rang 2005
Remplacement par la
moyenne (MO)
a
b
c
Remplacement par
imputation multiple (IM)
c
Moyenne
(MO) :
Méthodes
ensemblistes
(BO, BA, FA)
10.67
3.00
8.33
4.00
7.33
5.33
3.00
3.33
6.00
5.33
9.67
0.60
Moyenne
(IM) :
Méthodes
ensemblistes
(BO, BA, FA)
10.67
3.33
8.67
3.67
7.67
5.33
3.00
3.33
6.00
5.33
9.00
0.57
Industrie
AN
AS
AS
BO
BA
FA
BO
BA
FA
7
10
11
10
11
10
11
10
11
BASIC
2
2
6
2
1
2
6
2
2
CAPITAL
5
6
10
7
8
6
10
7
9
CONSDUR
9
1
9
1
2
3
9
1
1
CONSND
11
8
5
8
9
8
5
8
10
CONSSVC
4
4
7
4
5
4
7
4
5
ENERGY
1
3
3
3
3
1
3
3
3
FINANCE
3
5
1
5
4
5
1
5
4
HEALTH
8
9
2
9
7
9
2
9
7
TECHNOL
6
7
4
6
6
7
4
6
6
TRANSP
10
11
8
11
10
11
8
11
8
UTILITY
Corrélation :
0.57
0.30
0.56
0.61
0.72
0.30
0.56
0.51
Tableaux 25 et 26, Figure 6 :
a
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics.
b
AN : Analystes.
c
RL : Régression linéaire; AS : Arbre simple; BO : Boosting; BA : Bagging; FA : Forêts aléatoires.
96
Suite à l'examen des résultats, la principale constatation est l'écart important des EAMP
annuelles obtenues avec les méthodes quantitatives en comparaison à celles des
analystes. Même en considérant les industries où les plus basses EAMP annuelles ont
été obtenues, on observe un écart de plusieurs dizaines de points de pourcentage entre
les EAMP. Ainsi, il y a un écart de 41.06 points de pourcentage entre la plus basse
EAMP annuelle obtenue, 80.91% (Année : 2003, Industrie : Santé, Méthode : Boosting,
Remplacement par la moyenne) et l'EAMP annuelle des analystes : 39.85%. Sauf
exceptions, l'EAMP des analystes se situe en deçà de 50%. Celles des meilleures
méthodes quantitatives ne se retrouvent qu'exceptionnellement en dessous de 100%,
cela pour les industries où elles ont le mieux performé, notamment les Services
financiers (FINANCE), la Santé (HEALTH) et la Consommation (non durables)
(CONSND).
À titre informatif, rappelons que les résultats les plus récents observés dans la littérature
montrent une EAMP de 34.6% sur une prédiction de BPA trimestriel pour la meilleure
méthode quantitative (un réseau de neurones) dans Cao, Schniederjans et Zhang
(2004). Dans Cao et Parry (2009), la meilleure méthode quantitative est de nouveau un
réseau de neurones amélioré avec utilisation d'un algorithme génétique, et produit cette
fois-ci une EAMP de 22.4% sur une prédiction de BPA trimestriel. Cependant, rappelons
ici les différences méthodologiques dans Cao, Schniederjans et Zhang (2004), et Cao et
Parry (2009), comparativement à notre travail :

Limitation de l'EAP à 100% lorsqu'elle était supérieure à 100%, ce que nous
n'avons pas fait dans ce travail;

Utilisation directe de données trimestrielles financières, plutôt que de variations
de données trimestrielles;

Utilisation d'ensembles d'entraînement à taille fixe de 30 trimestres, plutôt qu'une
taille variant de 39 à 50 trimestres dans ce mémoire.
À propos des analystes, Alexander (1995), qui utilisait exactement la même méthode de
calcul d'erreur de prévision des analystes que la nôtre (utilisation de la médiane des plus
récentes prévisions des BPA trimestriels juste avant l'annonce), trouvait une EAMP de
32.6%. Cela, pour un échantillon de 1 295 entreprises de différentes industries sur des
données allant de 1984-Q2 à 1988-Q3.
Ces résultats démontrent que la méthodologie utilisée avec les méthodes d'ensembles
dans ce mémoire ne permet pas d'atteindre l'objectif espéré d'un écart de 15% ou moins
97
entre l'erreur de prévision des méthodes et celle des analystes. Ceux-ci peuvent obtenir
une performance de prévision supérieure, probablement pour les raisons suivantes :
1) Utilisation de données pertinentes à la prédiction de BPA trimestriel,
quantitatives ou qualitatives, non utilisées dans notre méthodologie;
2) Utilisation de périodes de temps pour les variables retardées différentes de
celles utilisées ici;
3) Capacité à corriger des données provenant des états financiers en utilisant des
méthodes d'ajustement diverses. Cela est particulièrement important lorsque
l'analyste veut utiliser les données financières passées afin d'établir des états
financiers pro-forma. Ainsi, par exemple, les analystes seront en mesure
d'ajuster les bénéfices nets passés en excluant des dépenses/revenus non
récurrents afin de produire des projections de bénéfices plus plausibles. Les
analystes sont également en mesure de tenir compte adéquatement des notes
de bas de page apparaissant dans les rapports trimestriels/annuels afin d'y
identifier d'autres éléments extraordinaires. Cela leur permet également d'ajuster
les résultats présentés dans les états financiers avant le calcul de projections ou
de ratios financiers. Cet ajustement est beaucoup plus complexe, sinon
impossible, avec des méthodes quantitatives automatisées traitant un grand
volume de données;
4) Capacité à extrapoler intuitivement et visuellement à partir de données
historiques et de l'expérience professionnelle;
5) Utilisation de l'avantage temporel qui leur permet d'incorporer des nouvelles
financières de dernière minute non disponibles pour les méthodes quantitatives.
Maintenant, l'examen visuel dans les figures 4, 5 et 6 des résultats apparaissant dans
les tableaux 21, 23 et 25 nous a semblé révéler une certaine corrélation entre la
performance des analystes et celle des méthodes quantitatives. Il nous est donc apparu
intéressant d'examiner le rang par industrie des performances dans les tableaux 22, 24
et 26, et de comparer les rangs des analystes avec ceux des méthodes quantitatives.
Quelques éléments intéressants ressortent sur les trois années de l'ensemble de test.

De façon générale, il y a corrélation positive entre le rang des industries des
analystes et celui de la moyenne de rang des méthodes ensemblistes. L'année
2003 présente la corrélation la plus forte, suivie de 2005 et 2004;
98

Lorsqu'on examine les corrélations pour chacune des méthodes, on remarque
qu'aucune méthode n'obtient systématiquement la corrélation la plus élevée avec
les rangs des analystes. L'examen révèle aussi une certaine similitude entre les
niveaux de corrélations du Bagging et des forêts aléatoires avec les analystes;

L'industrie où les analystes performent le mieux, les Services financiers
(FINANCE), arrive systématiquement dans les trois premières positions pour les
quatre méthodes à base d'arbres sur les trois années;

Pour 2003 et 2005, il y a concordance parfaite des industries arrivant dans les
trois premières positions entre les analystes et la moyenne de rang des trois
méthodes ensemblistes. Pour 2004, il n'y a que l'industrie des Services
financiers qui se retrouve à la fois dans les trois premières positions des
analystes et de la moyenne des rangs des méthodes ensemblistes;

Pour les industries avec EAMP les plus élevées, la concordance est moins
observable cependant. Lorsqu'on examine le nombre d'industries dans les trois
derniers rangs à la fois chez les analystes et dans les moyennes de rang des
méthodes ensemblistes, on a les résultats suivants : deux industries en 2003,
une industrie en 2004 et une industrie en 2005;

Aussi, malgré les corrélations positives, on doit mentionner les oppositions
parfois observées entre les rangs des industries chez les analystes, en
comparaison à ceux des méthodes ensemblistes. Par exemple, en 2004, la
Consommation (non durables) (CONSND) arrive à l'avant-dernier rang (dixième)
chez les analystes alors qu'elle se retrouve au deuxième/troisième rang pour le
Bagging et les forêts aléatoires.
De façon générale, les corrélations positives observées entre les rangs par industrie des
analystes et des méthodes ensemblistes semblent supporter l'hypothèse suivante : dans
notre recherche, l'ensemble de variables indépendantes ayant servi à la construction
des modèles quantitatifs était toujours le même. Cela, même si un modèle distinct a été
construit pour chaque industrie-trimestre à partir de l'ensemble d’entraînement. Comme
le rang des performances de prédiction par industrie des analystes est corrélé
positivement avec celui des méthodes quantitatives, cela laisse supposer que les
analystes ont tendance à utiliser le même ensemble de variables/ratios financiers et
économiques, peu importe l'industrie des entreprises étudiées. Cela reste évidemment à
démontrer et pourrait faire l'objet de recherches additionnelles. Si c'est le cas, peut-être
y aurait-il ici avantage à utiliser un ensemble distinct de variables par industrie pour
99
concevoir les modèles de prévisions des BPA. Cela, autant pour les analystes que pour
les méthodes ensemblistes.
Finalement, nous nous sommes intéressés à l'analyse des écarts entre les EAP des
analystes et des méthodes quantitatives à base d'arbres selon les industries-années de
l'ensemble de test. Nous avons construit le tableau 27 où on retrouve la moyenne
annuelle des écarts entre les EAP des analystes et ceux de la meilleure méthode
quantitative à base d'arbres. Pour chaque année, les trois moyennes les plus basses
sont indiquées en vert et les trois plus élevées sont en orange. La figure 7 expose
graphiquement ces écarts.
Tableau 27 : Moyenne annuelle des écarts d'EAP : Analyste vs meilleure méthode
quantitative
a
Industrie
BASIC
CAPITAL
CONSDUR
CONSND
CONSSVC
ENERGY
FINANCE
HEALTH
TECHNOL
TRANSP
UTILITY
2003
132.60
73.18
67.53
64.66
66.23
83.35
52.98
43.99
56.27
62.01
63.44
2004
110.15
62.80
71.47
59.35
66.18
71.13
58.68
45.23
49.71
72.80
53.74
2005
74.36
49.80
70.13
48.68
63.38
68.28
62.45
45.87
55.68
61.61
57.67
Figure 7 : Moyenne annuelle des écarts d'EAP : Analyste vs meilleure méthode
quantitative
Tableau 27, Figure 7 :
a
FINANCE : Services financiers; HEALTH : Santé; CONSND : Consommation (non durables); CONSSVC :
Consommation (services); CONSDUR : Consommation (durables); ENERGY : Énergie; TRANSP : Transports;
TECHNOL : Technologie; BASIC : Extraction/Transformation; CAPITAL : Construction/Manufacturier; UTILITY :
Services publics.
100
Les deux meilleures industries du point de vue des écarts sont donc : la Santé
(HEALTH) et les Technologies de l'information (TECHNOL), avec respectivement trois et
deux moyennes annuelles d'écart se situant parmi les trois les plus réduites dans les
onze industries pour les trois années de l'ensemble de test. N.B.: Pour l'année 2005, la
moyenne d'écarts des Technologies de l'information (TECHNOL) se classe en
quatrième position. Pour les quatre industries suivantes, une seule moyenne d'écarts
s'est retrouvée dans les trois premières positions sur les trois années 2003, 2004 et
2005 : Services financiers (FINANCE), Consommation (non durables) (CONSND),
Construction/manufacturier (CAPITAL) et Services publics (UTILITY). Ainsi, l'industrie
des Services financiers (FINANCE) et celle de la Santé (HEALTH) se retrouvent donc à
la fois parmi les industries où les méthodes ensemblistes ont le mieux performé, et où
les écarts avec la performance de prévision des analystes ont été le plus réduits. C'est
le cas également pour la Consommation (non durables) (CONSND). Cependant, pour
cette industrie, notons qu'il n'y a que pour le Bagging et les forêts aléatoires que les
résultats ont été parmi les meilleurs chez les méthodes ensemblistes.
Fait intéressant, on note que les industries Extraction/transformation (BASIC) et
Consommation (durables) (CONSDUR) affichent les écarts parmi les plus grands avec
les analystes. Ces deux industries se retrouvent aussi parmi celles où les méthodes
quantitatives ont obtenu les moins bonnes performances de prévision.
De façon générale, on observe donc un certain lien entre la performance de prévision de
BPA trimestriels des méthodes quantitatives, et la performance au niveau de l'écart
avec les analystes selon les industries. Ce lien n'est pas systématique cependant.
Dans l'ensemble, ces résultats laissent suggérer que ce sont les industries où les écarts
sont les plus réduits qui seraient les plus prometteuses quant aux efforts d'amélioration
de notre méthodologie à base d'arbres dans des travaux ultérieurs. Cela, dans l'optique
de se rapprocher des performances humaines et de pouvoir supporter les analystes
financiers dans leur travail de prévision des BPA trimestriels pour ces industries.
101
CHAPITRE 5 - Conclusion et discussion
5.1 Rappel des objectifs de recherche
Ce mémoire avait pour sujet la prévision des BPA trimestriels via l'utilisation de
méthodes ensemblistes d'exploitation de données. Dans l'historique de recherche,
plusieurs études se sont penchées sur l'utilisation de méthodes quantitatives pour la
production de prévisions de bénéfices. En raison de la nature non linéaire des données
financières, les méthodes de prévision non paramétriques ont évidement attiré l'attention
des chercheurs. Les dernières années ont vu plusieurs recherches porter sur l'utilisation
de telles méthodes, comme les réseaux neuronaux par exemple, pour tenter de prévoir
les bénéfices. Selon nos connaissances cependant, aucune recherche n'a porté sur
l'utilisation de méthodes ensemblistes à base d'arbres de régression pour cette fin, et
nous avons donc voulu explorer ce domaine de recherche dans cette étude.
Nous avions deux objectifs de recherche principaux. Dans un premier temps, nous
voulions déterminer par une étude comparative laquelle des méthodes ensemblistes
pouvait le mieux prévoir les BPA trimestriels. Nous avions ici comme hypothèse que la
méthode des forêts aléatoires se démarquerait des autres.
Dans un second temps, dans une optique utilitaire, nous désirions mesurer l'écart entre
la performance de prévision des méthodes ensemblistes et celle des analystes
financiers. Cela afin de déterminer si ces méthodes, et notre modèle en particulier,
permettraient d'obtenir des erreurs de prévision se rapprochant de celles des analystes.
Nous avions jugé qu'un écart d'erreur de prévision se situant en deçà de 15 points de
pourcentage permettrait aux méthodes ensemblistes de se montrer utiles pour supporter
les analystes dans leur travail. Cela, en leur permettant d'une part de valider leurs
propres prévisions, et, deuxièmement, en les aidant à distinguer les variables ayant
potentiellement le meilleur pouvoir prédictif.
5.2 Rappel de la méthodologie
Nous avons utilisé un échantillon comprenant, après traitement et nettoyage, 5 832
entreprises de 13 industries différentes. En raison du faible volume de données de deux
d'entres elles, nous avons retenu onze industries. Les variables indépendantes
identifiées sont pour la plupart des variations trimestrielles calculées à partir de données
de nature financière et économique. Leur nombre s'élève à 167 (164 variations
trimestrielles et trois autres variables). De ce nombre, 41 variables ont été retenues pour
constituer les modèles quantitatifs en utilisant une méthode de sélection basée sur
102
l'utilisation de forêts aléatoires pour déterminer leur valeur prédictive potentielle avec
une mesure d'importance. La période de temps couverte s'étale sur 51 trimestres de
1993-T2 à 2005-T4. Du côté des analystes, 637 911 prévisions de BPA produites par 8
448 analystes ont été utilisées pour calculer leur performance de prédiction. Cela, en
utilisant pour chaque trimestre-entreprise, la valeur médiane des prévisions des
analystes ayant couvert cette entreprise. Un modèle temporel a été constitué en utilisant
les variations trimestrielles des variables pour les quatre trimestres précédant le
trimestre de prévision du BPA (exception faite des variables de contrôle et de la variable
de la stabilité des rendements) comme variables indépendantes pour la prévision de la
variable cible du BPA trimestriel. Les cinq méthodes quantitatives suivantes ont été
utilisées pour la conception des modèles qui ont été comparés :

la régression linéaire;

l'arbre de régression simple;

la méthode ensembliste du Bagging;

la méthode ensembliste du Boosting;

la méthode ensembliste des forêts aléatoires.
Les trimestres des trois dernières années de l'échantillon de données (2003, 2004 et
2005) ont constitué l'ensemble de test. Pour chacun de ces trimestres, l'ensemble
d'entraînement des modèles a été constitué de tous les trimestres précédents. Afin de
comparer la performance de prévision des méthodes quantitatives et des analystes, la
mesure de performance de l'EAMP (Erreur Absolue Moyenne de prévision en
Pourcentage) a été utilisée.
5.3 Rappels des résultats principaux
L'utilisation de forêts aléatoires pour sélectionner un sous-ensemble de variables
indépendantes selon leur importance dans ces modèles a permis de souligner
l'importance particulière de trois variables. Ainsi, la taille de l'entreprise et les variations
de BPA retardées de un et quatre trimestres se sont retrouvées les plus souvent
sélectionnées dans les dix variables les plus importantes pour la prévision du BPA
trimestriel dans les onze modèles de forêts aléatoires produits (un par industrie) pour la
sélection. L'importance des BPA retardées de un et quatre trimestres remarquée dans
notre étude supporte Griffin (1977) où un effet de saisonnalité et une absence
d'indépendance dans les périodes adjacentes avaient été constatés dans les bénéfices
trimestriels.
103
L'évaluation et la comparaison de la performance des méthodes quantitatives entre elles
ont permis de déterminer deux choses. Premièrement, les méthodes d'ensembles ont
démontré une performance de prévision supérieure à la régression linéaire pour la
plupart des industries-trimestres. Deuxièmement, parmi les méthodes ensemblistes, les
forêts aléatoires ont dominé pour la plupart des industries, sauf deux : la Santé
(HEALTH) et la Technologie (TECHNOL), où c'est plutôt le Boosting qui produit presque
systématiquement les meilleures prévisions selon le critère de l'EAMP trimestrielle. Ces
deux résultats (supériorité des méthodes ensemblistes et particulièrement des forêts
aléatoires) confirment nos hypothèses de départ.
Globalement, les méthodes ensemblistes ont produit les meilleurs résultats pour les
deux industries suivantes sur les trois années de l'ensemble de test : les Services
financiers (FINANCE) et la Santé (HEALTH). Les moins bons résultats ont été obtenus
pour les industries de l'Extraction/Transformation (BASIC) et des Services publics
(UTILITY).
La comparaison avec les prévisions des analystes démontre, dans un premier temps, la
nette dominance de ceux-ci sur les résultats obtenus avec notre méthodologie. Ainsi, la
comparaison des EAMP annuelles montre un écart minimum de 41.06 points de
pourcentage entre les analystes et la meilleure méthode quantitative pour une industrie
(2003, Santé). Cela nous place donc loin de l'objectif espéré d'un écart de 15% ou
moins pour permettre l'utilisation des méthodes ensemblistes comme outil de validation
intéressant pour la prévision des BPA trimestriels.
Dans un deuxième temps, nous avons tout de même pu observer un fait intéressant : Il
existe une corrélation positive entre la performance de prévision par industrie des
analystes, et celle des méthodes quantitatives à base d'arbres. Le niveau de corrélation
montré par les méthodes individuellement et par les moyennes de rang des méthodes
ensemblistes dépasse régulièrement 0.5 sur les trois années de l'ensemble de test.
Finalement, l'analyse des moyennes annuelles des écarts entre les EAP des méthodes
et des analystes indique que les industries suivantes ont été celles où la performance de
prévision s'est le plus rapprochée de celle des analystes : la Santé (HEALTH) et les
Technologies de l'information (TECHNOL).
104
5.4 Apports de l'étude
Les apports de notre étude dans le domaine des prévisions de bénéfices ont été les
suivants :

Utilisation, possiblement pour la première fois, de méthodes ensemblistes à base
d'arbres de régression pour produire des prévisions de BPA trimestriels;

Mesure de la performance de prévision des méthodes ensemblistes dans un
contexte d'utilisation de variations trimestrielles de variables financières et
économiques sur un horizon de temps court (un an et moins). Nous croyons que
la méthodologie utilisée dans cette recherche se démarque de la majorité des
recherches dans la littérature par l'utilisation de variations trimestrielles en
pourcentage de variables financières et économiques, plutôt que des valeurs des
variables. Nous pensons que les variations dans les ratios, en plus des valeurs
des ratios elles-mêmes, auraient intérêt à être davantage utilisées dans les
modèles prédictifs concernant les bénéfices;

La taille de l'échantillon utilisé, couvrant 5 832 entreprises et 8 448 analystes sur
une période de douze ans (1993-2005), se compare avantageusement à d'autres
études similaires portant sur la prévision des bénéfices;

Observation additionnelle du faible apport des variables macro-économiques sur
un horizon de temps court inférieur à un an, comme cela a été observé dans
d'autres études, notamment Fridson, Garman et Wu (1997), et Lemieux (2004);

Notre étude ajoute un autre domaine de prévision où les méthodes non
paramétriques performent mieux que la méthode paramétrique de la régression
linéaire. Cela, fort possiblement en raison de la nature non linéaire des données
financières;

Malgré quelques exceptions, cette étude souligne la supériorité de la méthode
ensembliste des forêts aléatoires sur les autres méthodes ensemblistes à base
d'arbres de régression, et vient s'ajouter aux études qui ont constaté les mêmes
résultats;

Nous avons pu établir que les méthodes ensemblistes produisent régulièrement
les meilleurs/moins bons résultats parmi les mêmes quelques industries;

Notre étude a permis de souligner une similarité intéressante entre les
performances de prévisions des analystes et celles des méthodes quantitatives.
105
5.5 Limites de l'étude
Nous devons souligner les limites suivantes dans notre recherche qui doivent être prises
en considération dans l'interprétation des résultats :

Nous nous sommes servis des données apparaissant directement dans les états
financiers pour le calcul des ratios financiers. Ces données n'ont pas été
ajustées avec les informations apparaissant souvent dans les notes de bas de
page, comme il est préférable de le faire pour tenir compte d'éléments
particuliers extraordinaires (ex.: dépenses/revenus non récurrents). Cependant,
cet ajustement doit être fait au cas par cas et demande un jugement subjectif
critique qui peut difficilement être appliqué dans un contexte de traitement
quantitatif en lot. En conséquence, les données des états financiers peuvent ne
pas avoir été optimales pour la prévision des BPA;

Lors de l'étape de la préparation des données, l'analyse des données des BPA
(prévus et réalisés) récupérées du fournisseur IBES a révélé la présence
d'erreurs dans les données. Ainsi, les clés primaires de deux fichiers de données
n'étaient pas fonctionnelles et retournaient des enregistrements en double. Cela,
en raison d'enregistrements erronés, d'enregistrements dédoublés ou de perte
d'information dans un champ de la clé primaire. Nous avons pu contourner ces
problèmes sans que cela affecte la qualité des données. Cependant, il est
possible que d'autres erreurs non détectées aient pu affecter la qualité des
données provenant de cette source;

Lors de l'étape de la sélection du sous-ensemble de variables, nous n'avons pas
procédé itérativement en testant plusieurs modèles composés d'un nombre
variable de variables indépendantes afin de sélectionner un modèle réduit
optimal. Cela a été fait dans Genuer, Poggi et Tuleau-Malot (2010) par exemple.
Cela, en raison du temps de calcul que cela aurait nécessité vu la taille de notre
échantillon de données. Un travail ultérieur aurait intérêt à utiliser cette
procédure;

Il se peut que la performance de la méthode de la régression linéaire ait été
affectée par des violations d'une ou de plusieurs des hypothèses fondamentales.
Ainsi, il est possible qu'il y ait eu présence d'hétéroscédasticité dans les
données, ce que nous n'avons pas testé dans ce travail;

En général, les valeurs des paramètres des méthodes à base d'arbres (ex.:
profondeur des arbres, nombre d'arbres utilisés dans les ensembles, etc.) ont été
106
déterminées arbitrairement, ou sommairement, après des tests de comparaison
de performance dont les résultats n'apparaissent pas dans ce mémoire. Pour
certains paramètres, nous nous sommes inspirés de valeurs utilisées dans la
littérature. Cependant, les valeurs de paramètres utilisées ici ne sont pas
forcément optimales.
5.6 Ouvertures
Les voies intéressantes pour des recherches futures seraient :

Utilisation d'autres écarts de variations pour les variables indépendantes :
Ce mémoire visait, entre autres, à vérifier le pouvoir prédictif de variables
trimestrielles sur un horizon court d'un an. Cependant, il serait intéressant
d'ajouter des variations retardées semestrielles ou annuelles dans les modèles
en utilisant les variables financières et économiques de base sélectionnées dans
ce mémoire. Cela, afin de mesurer leur effet sur la qualité des prévisions et de
comparer l'importance des horizons de variations sur la prévision. Cela serait
intéressant, entre autres, pour vérifier si les variables économiques prennent
davantage d'importance avec l'allongement de l'écart de variation;

Utilisation d'horizons prévisionnels plus longs séparant la variable cible et les
variables indépendantes :
Cela permettrait de vérifier s'il y a augmentation du pouvoir prévisionnel des
variables sur un plus long horizon, particulièrement les variables économiques.
Dans l'affirmative pour les variables économiques, cela permettrait de valider
cette constatation observée chez Lemieux (2004) et Fridson, Garman et Wu
(1997);

Utilisations de variables explicatives additionnelles :
Plusieurs autres variables prédictives non utilisées dans cette recherche, autant
quantitatives que qualitatives, auraient été intéressantes à utiliser dans un
contexte de prévision des BPA. Du coté quantitatif, un exemple serait la variation
passée à court et moyen terme des parts de marché des entreprises. Également,
l'utilisation des prévisions des analystes eux-mêmes avec d'autres variables
quantitatives dans les modèles prédictifs serait prometteuse. Ainsi, par exemple,
Guerard (1989) obtient une erreur moyenne de prévision moindre en utilisant un
modèle de régression linéaire combinant une prévision consensuelle d'analystes
107
avec une prévision produite par un modèle de série temporelle, en comparaison
avec des modèles utilisant l'une ou l'autre des prévisions uniquement;

Du côté qualitatif, tel que proposé par Belhouari (2005), le style de gestion de la
haute direction serait intéressant à intégrer;

Utilisation directe des valeurs des variables :
Dans la plupart des recherches, la valeur directe des variables est utilisée. Dans
ce travail, nous nous sommes concentrés sur les variations de valeur en
pourcentage afin de vérifier leur valeur prédictive. Il serait néanmoins informatif
d'utiliser une combinaison des deux dans un modèle prédictif afin de comparer la
contribution des deux groupes dans les modèles, notamment en utilisant la
fonction importance utilisée dans ce travail pour la sélection du sous-ensemble
de variables. En particulier, l'utilisation de la valeur directe des BPA trimestriels
de la dernière année parmi les variables indépendantes aurait possiblement pu
améliorer la performance de prévision de nos modèles;

Combinaison des résultats de plusieurs méthodes ensemblistes :
Suivant la théorie des méthodes ensemblistes, la combinaison des prévisions de
plusieurs modèles ensemblistes pourrait probablement améliorer les prévisions
produites;

Paramètres des méthodes à base d'arbres :
Il est fort probable que l'expérimentation avec d'autres valeurs de paramètres
(ex.: fonctions de perte et taux d'apprentissage pour le Boosting, profondeur
maximale
des
arbres
des
ensembles)
permettrait
de
déterminer
des
combinaisons plus optimales. Aussi, il serait intéressant de déterminer si
certaines valeurs de paramètres sont plus appropriées à des industries
particulières;

Recherches additionnelles sur les résultats de ce mémoire :
Deux des résultats observés dans ce travail mériteraient particulièrement une
recherche plus approfondie. Ainsi, il serait important d'expliquer pourquoi les
BPA de certaines industries sont régulièrement mieux (ou moins bien) prévus par
les méthodes ensemblistes comparés à d'autres. Aussi, la recherche des
facteurs expliquant le lien qui semble exister entre les industries d'une part, et
l'amplitude des écarts entre les prévisions des méthodes ensemblistes et celles
des analystes pour chacune d'elles d'autre part, pourrait ouvrir la voie à des
108
améliorations méthodologiques dans l'utilisation des méthodes ensemblistes
pour la prévision des bénéfices.
109
ANNEXES
A. Statistiques descriptives des variables indépendantes
Tableau 28 : Statistiques descriptives des variables indépendantes
Ce tableau présente les statistiques descriptives des 41 variables indépendantes sélectionnées pour la construction des
modèles. La période de temps s'étend sur 51 trimestres de 1993-T2 à 2005-T4 et comprend 100 422 enregistrements.
Les statistiques ont été calculées sur les données des variables sans remplacement des données manquantes.
1er
3e
a
Variable
Min.
quartile
Médiane
Moyenne
quartile
Max.
Écart-type
-1.74
0.27
1.01
0.86
1.40
2.86
0.96
ejlead_vq1l
-15.67
-0.33
2.71
2.25
6.93
16.70
6.99
eu0m1_vq1l
-1 428 167.74
-27.07
4.29
-32.07
40.50
663 700.00
6 616.33
fben_vq1l
-1 428 167.74
-26.86
4.41
-31.21
41.55
340 264.29
5 637.27
fben_vq2l
-1 428 167.74
-27.03
4.36
-32.86
41.54
340 264.29
5 601.29
fben_vq3l
-1 428 167.74
-26.71
4.62
-30.55
42.51
342 700.00
5 728.22
fben_vq4l
-102 710.00
-1.39
0.00
1.54
1.89
20 308.16
387.48
fcapb_vq1l
-102 710.00
-1.38
0.00
4.96
1.98
39 916.67
452.35
fcapb_vq2l
-102 710.00
-1.39
0.01
8.75
2.05
166 400.00
714.05
fcapb_vq3l
-102 710.00
-1.35
0.01
8.90
2.12
166 400.00
721.32
fcapb_vq4l
-200.00
-8.24
-0.18
38.58
2.34
318 100.00
1 758.57
fcapx_vq1l
-200.00
-9.13
-0.18
50.20
2.20
318 100.00
2 042.74
fcapx_vq4l
-95.49
-10.36
2.20
18.31
15.22
786 566.67
2 691.79
fcote_vq1l
-97.89
-10.12
2.40
20.79
15.49
786 566.67
2 779.74
fcote_vq2l
-100.00
-2.31
-0.02
2.71
2.96
13 454.55
56.69
fdett_vq1l
-100.00
-2.43
-0.03
2.52
2.91
15 584.62
74.34
fdett_vq2l
-100.00
-2.51
-0.04
2.51
2.85
15 584.62
81.79
fdett_vq3l
-100.00
-2.53
-0.05
2.69
2.83
15 584.62
84.81
fdett_vq4l
-48 300.00
-17.03
3.96
9.50
27.50
13 846.15
377.57
feps_vq1l
-48 300.00
-16.67
4.00
11.60
27.81
48 700.00
404.59
feps_vq2l
-48 300.00
-16.98
3.85
11.37
27.27
48 700.00
411.28
feps_vq3l
-48 300.00
-16.47
4.09
12.19
28.00
48 700.00
432.83
feps_vq4l
-17.54
-2.45
2.03
2.03
8.00
21.74
8.53
ficos_vq1l
-109 550.00
-7.15
2.74
12.04
13.30
289 780.00
1 093.98
fmb_vq1l
-109 550.00
-7.24
2.80
14.54
13.58
289 780.00
1 139.04
fmb_vq2l
-109 550.00
-7.34
2.75
14.66
13.70
289 780.00
1 178.17
fmb_vq3l
-109 550.00
-7.02
2.92
16.65
14.02
289 780.00
1 172.22
fmb_vq4l
-58 300.00
-4.82
1.85
0.56
9.02
93 000.00
576.47
fprocu_vq1l
-58 300.00
-4.84
1.89
2.14
9.32
93 000.00
567.91
fprocu_vq2l
-43 300.00
-4.80
1.93
2.32
9.48
93 000.00
554.59
fprocu_vq3l
-238 600.00
-4.67
2.00
-1.21
9.64
93 000.00
1 005.57
fprocu_vq4l
-5 907.37
-1.86
0.75
2.51
3.62
31 272.00
126.55
fprod_vq1l
-5 907.37
-1.84
0.80
2.76
3.79
31 272.00
124.73
fprod_vq2l
-136.48
-6.18
2.20
21.99
11.40
292 825.00
1 373.13
frec_vq3l
-547 400.00
-27.61
0.68
-12.91
34.05
85 800.00
2 584.04
froa_vq1l
-124 500.00
-27.25
0.92
-6.03
35.04
57 900.00
1 585.96
froa_vq4l
-878.21
-6.26
0.43
7.96
7.60
42 350.00
262.71
frota_vq1l
-878.21
-6.45
0.40
7.96
7.74
42 350.00
262.75
frota_vq2l
-878.21
-6.48
0.38
8.37
7.81
42 350.00
253.43
frota_vq4l
0.00
0.01
0.03
0.06
0.06
29.57
0.24
fstar
-1.01
4.92
6.32
6.40
7.70
14.25
1.99
ftaille_q1l
a
ejlead : Indicateur composite avancé; eu0m1 : Indice S&P 500; fben : Bénéfice; fcapb : Capitalisation boursière; fcapx :
Ratio de dépenses d'équipement; fcote : Cours du titre de l'entreprise; fdett : Ratio d'endettement; feps : Bénéfice par
action; ficos : Indice S&P 500 Secteur : Consommation courante; fmb : Ratio de marge brute; fprocu : Profitabilité
cumulative; fprod : Ratio de productivité; frec : Ratio de comptes recevables; froa : Rendement de l'actif; frota : Ratio
de rotation de l'actif; fstar : Stabilité des rendements; ftaille : Taille de l'entreprise.
110
B. Algorithme : Imputation multivariée par équations chainées
En résumé, l'algorithme fonctionne de la manière suivante :
1) Pour chaque valeur manquante des variables incomplètes, une valeur est
sélectionnée aléatoirement parmi les valeurs observées de cette variable;
2) Dans l'ensemble de données, pour chaque variable comportant des valeurs
manquantes, de gauche à droite :
2.1) Un sous-ensemble est constitué des valeurs des variables autres que la
variable , et est purgé des variables linéairement dépendantes si il y en a
2.2) Un vecteur
est constitué des valeurs de la variable
2.3) Des paramètres bêta-étoile ( ) et des coefficients sont estimés de la façon
suivante (voir Rubin (1987, p.168, équations a et b)) :
où :
=
=
=
=
=
valeurs générées aléatoirement à partir d'une
distribution gamma, avec paramètre de forme et
paramètre d'échelle égal à un
nombre d'enregistrements de l'ensemble de
données sans valeur manquante pour la variable
nombre de variables autres que la variable
factorisation de Choleski d'une matrice symétrique
positive définitive ( )
valeurs générées aléatoirement à partir d'une
distribution normale
À cette étape, les valeurs déterminées aléatoirement à l'étape 1 sont
utilisées temporairement pour remplacer les valeurs manquantes afin de
pouvoir effectuer l'estimation;
2.4) Les valeurs prédites de la variable pour les enregistrements sans valeurs
manquantes (vecteur
), et avec valeurs manquantes (vecteur
)
sont calculées de la façon suivante :
111
où :
=
=
enregistrements du sous-ensemble
manquante pour la variable
enregistrements du sous-ensemble
manquante pour la variable
sans
valeur
avec
valeur
2.5) Pour chaque valeur manquante dans le vecteur
, la valeur observée
correspondante à la valeur prédite du vecteur
la plus près de
est sélectionnée pour le remplacement. La distance est calculée en prenant
la valeur absolue de la différence :
.
C. Logiciels utilisés

Base de données : MySQL Version 5.1 pour Windows Vista;

Composantes serveur : Serveur : MySQL Version 5.1.39-community via TCP/IP;

Composantes client : Client Version : MySQL Client Version 5.1.11;

Outil d'administration : MySQL Administrator Version 1.2.17;

Régression linéaire, arbre de régression simple et méthodes ensemblistes : R
Version 2.11.
112
BIBLIOGRAPHIE
ABARBANELL, J.S. et B.J. BUSHEE (1998). « Abnormal returns to a fundamental
analysis strategy », The Accounting Review, vol. 73, no. 1, p. 19-45.
AKERS, Michael D., Jodi L. BELLOVARY et Don E. GIACOMINO (2007). « A review of
bankruptcy prediction studies: 1930 to present », Journal of Financial Education, vol. 33,
p. 1-42.
ALEXANDER, John C. (1995). « Refining the degree of earnings surprise: A comparison
of statistical and analysts' forecasts », The Financial Review, vol. 30, no. 3, p. 469-506.
ALTMAN, Edward I. (1968). « Financial ratios, discriminant analysis and predicting of
corporate bankruptcy », The Journal of Finance, vol. 23, no. 4, p. 589-609.
ALTMAN, Edward I., Robert G. HALDEMAN et P. NARAYANAN (1977). « ZETA
analysis: A new model to identify bankruptcy risk of corporations », Journal of Banking
and Finance, vol. 1, p. 29-54.
ANDREESCU, Andrea (2004). Forecasting corporate earnings: A data mining approach,
mémoire de maîtrise, Vaasa, The Swedish School of Economics and Business
Administration, 151 p.
ARMSTRONG, J. Scott (2001). Principles of forecasting: A handbook for researchers
and practitioners, Boston, Kluwer Academic Publishers, 849 p.
ATKINSON, Beth, Terry M. THERNEAU et Brian RIPLEY (2010). rpart: Recursive
partitioning, R package version 3.1.46.
BAUER, Eric et Ron KOHAVI (1999). « An empirical comparison of voting classification
algorithms: Bagging, boosting, and variants », Machine Learning, vol. 36, p. 105-139.
BEAVER, W. (1966). « Financial ratios as predictors of failure ». Journal of Accounting
Research, vol. 5, p. 71-111.
BELHOUARI, Adil (2005). Techniques du data mining pour la prédiction de faillite des
entreprises et la gestion du risque de crédit, mémoire de maîtrise, Montréal, HEC
Montréal, 115 p.
BEN ISHAK, Anis et Badih GHATTAS (2008). « Sélection de variables pour la
classification binaire en grande dimension : Comparaisons et application aux données
de biopuces », Journal de la Société Française de Statistiques, tome 149, no. 3, p. 4366.
BENEISH, M.D., C.M.C. LEE et R.L. TARPLEY (2001). « Contextual fundamental
analysis through the prediction of extreme returns », Review of Accounting Studies, vol.
6, nos. 2, 3, p. 165-189.
BERNHARDT, Dan et Edward KUTSOATI (1999). Can relative performance
compensation explain analysts' forecasts of earnings?, Discussion Paper 99-09,
Department of Economics, Tufts University, 35 p.
113
BIAU, G., L. DEVROYE et G. LUGOSI (2008). « Consistency of random forests and their
averaging classifiers », Journal of Machine Learning Research, vol. 9, p. 2015-2033.
BRADSHAW, Mark T. et Richard G. SLOAN (2002). « GAAP versus The Street: An
empirical assessment of two alternative definitions of earnings », Journal of Accounting
Research, vol. 40, no. 1, p. 41-66.
BREIMAN, Leo, J. FRIEDMAN, R. OLSHEN et C. STONE (1984). Classification and
regression trees, Belmont, Wadsworth International Group, 358 p.
BREIMAN, Leo (1996). « Bagging predictors », Machine Learning, vol. 24, p. 123-140.
BREIMAN, Leo (1998). « Arcing classifiers », Annals of Statistics, vol. 26, no. 2, p. 801849.
BREIMAN, Leo (2001). « Random forests », Machine Learning, vol. 45, p. 5-32.
BREIMAN, Leo, Adele CUTLER, Andy LIAW et Matthew WIENER (2010).
randomForest: Breiman and Cutler's random forests for classification and regression, R
package version 4.5-36.
BROWN, Lawrence D. et Michael S. ROZEFF (1979). « Univariate time series models of
quarterly accounting earnings per share: A proposed model », Journal of Accounting
Research, vol. 17, p. 179-189.
BROWN, Lawrence D., Robert L. HAGERMAN, Paul A. GRIFFIN et Mark E.
ZMIJEWSKI (1987). « Security analyst superiority relative to univariate time-series
models in forecasting quarterly earnings », Journal of Accounting and Economics, vol. 9,
no. 1, p. 61-87.
BROWN, Lawrence D. (2001). « How important is past analyst forecast accuracy? »,
Financial Analysts Journal, vol. 57, no. 6, p. 44-49.
BROWN, Lawrence D. et Emad MOHAMMAD (2003). « The predictive value of analyst
characteristics », Journal of Accounting, Auditing and Finance, vol. 18, no. 4, p. 625-647.
BRYLL, Robert, Ricardo GUTIERREZ-OSUNA et Francis QUEK (2003). « Attribute
bagging: Improving accuracy of classifier ensembles by using random feature subsets »,
Pattern Recognition, vol. 36, no. 6, p. 1291-1302.
CALLEN, J.L., C.C.Y. KWAN et P.C.Y. YIP (1994). « Non-linearity testing of quarterly
accounting earnings », Working paper, Vincent C. Ross Institute, New York University.
CALLEN, J.L., C.C.Y. KWAN, P.C.Y. YIP et Y. YUFEI (1996). « Neural network
forecasting of quarterly accounting earnings », International Journal of Forecasting, vol.
12, p. 475-482.
CAO Q., M. SCHNIEDERJANS et W. ZHANG (2004). « Neural network earnings per
share forecasting models: A comparative analysis of alternative methods », Decision
Sciences, vol. 35, no. 2, p. 205-237.
114
CAO Q. et Mark E. PARRY (2009). « Neural network earnings per share forecasting
models: A comparison of backward propagation and the genetic algorithm », Decision
Support Systems, vol. 47, no. 1, p. 32-41.
CREAMER, Germàn et Sal STOLFO (2009). « A link mining algorithm for earnings
forecast », Data Mining and Knowledge Discovery, vol. 18, no. 3, p. 419-445.
CUTLER, Richard D., Thomas C. EDWARDS Jr., Karen H. BEARD, Adele CUTLER,
Kyle T. HESS, Jacob GIBSON et Joshua J. LAWLER (2007). « Random forests for
classification in ecology », Ecology, vol. 88, no. 11, p. 2783-2792.
DAMODARAN, Aswath (2006). Finance d'entreprise : Théorie et pratique, 2e éd.
(version française de Corporate finance. Theory and practice, 2001, 2e éd. américaine,
trad. sous la direction de Gérard Hirigoyen), Bruxelles, Éditions De Boeck Université,
1352 p.
DHAR, Vasant et Dashin CHOU (2001). « A comparison of nonlinear methods for
predicting earnings surprises and returns », IEEE Transactions On Neural Networks, vol.
12, no. 4, p. 907-921.
DIAZ-URIARTE, Ramon et Sara ALVAREZ DE ANDRES (2006). « Gene selection and
classification of microarray data using random forest », BMC Bioinformatics, vol. 7, no.
3. <http://www.biomedcentral.com/1471-2105/7/3>.
DIETTERICH, T.G. (2000). « Ensemble methods in machine learning », Lecture Notes in
Computer Science, vol. 1857, p. 1-15.
DUNHAM, Margaret H. (2003). Data mining introductory and advanced topics, Upper
Saddle River (New Jersey), Pearson Education Inc., 315 p.
EASTERWOOD, John C. et Stacey R. NUTT (1999). « Inefficiency in analysts' earnings
forecasts: Systematic misreaction or systematic optimism? », Journal of Finance, vol.
54, no. 5 (octobre), p. 1777-1797.
Équipe de développement R et divers contributeurs (2010). stats: The R stats package,
R package version 2.11.
FAIRFIELD, Patricia M., Sundaresh RAMNATH et Teri L. YOHN (2009). « Do industrylevel analyses improve forecasts of financial performance? », Journal of Accounting
Research, vol. 47, no. 1, p.147-178.
FAMA, Eugene F. et Kenneth R. FRENCH (2000). « Forecasting profitability and
earnings », The Journal of Business, vol. 73, no. 2, p. 161-175.
FOSTER, George (1977). « Quarterly accounting data: Time series properties and
predictive ability results », The Accounting Review, vol. 52, p. 1-21.
FOSTER, George (1986). Financial statement analysis, 2e éd., Englewood Cliffs,
Prentice Hall, 625 p.
115
FREUND,Y. et R.E. SCHAPIRE (1996). « Experiments with a new boosting algorithm ».
Machine Learning: Proceedings of the Thirteenth International Conference, Morgan
Kauffman, San Francisco, p. 148-156.
FREUND,Y. et R.E. SCHAPIRE (1997). « A decision-theoretic generalization of online
learning and an application to boosting », Journal of Computer and System Sciences,
vol. 55, no. 1, p. 119-139.
FRIDSON, Martin S., M. Christopher GARMAN et Sheng WU (1997). « Real interest
rates and the default rate on high-yield bonds », The Journal of Fixed Income, vol. 7, no.
2, p. 29-34.
FRIEDMAN, J.H., T. HASTIE et R. TIBSHIRANI (2000). « Additive logistic regression: A
statistical view of boosting », Annals of Statistics, vol. 28, no. 2, p. 337-374.
FRIEDMAN, J.H. (2001). « Greedy function approximation: A gradient boosting machine
», Annals of Statistics, vol. 29, no. 5, p. 1189-1232.
FRIEDMAN, J.H. (2002). « Stochastic gradient boosting », Computational Statistics and
Data Analysis, vol. 38, no. 4, p. 367-378.
FRIEDMAN, J.H. et Bodgan E. POPESCU (2003). Importance sampled learning
ensembles, Technical Report, Dept. Statistics, Stanford University.
FRIEDMAN, J.H. et Bodgan E. POPESCU (2004). Gradient directed regularization for
linear regression and classification, Technical Report, Dept. Statistics, Stanford
University.
FRIEDMAN, J.H. et Bodgan E. POPESCU (2005). Predictive learning via rule
ensembles, Technical Report, Dept. Statistics, Stanford University.
GENUER, Robin, Jean-Michel POGGI et Christine TULEAU-MALOT (2010). « Variable
selection using random forests », Pattern Recognition Letters, vol. 31, no 14, p. 22252236.
GIOT, Pierre (2002). « Implied volatility indices as leading indicators of stock index
returns ? », CORE Discussion Paper, no. 2002/50, p. 5-32.
GRIFFIN, Paul A. (1977). « The time-series behavior of quarterly earnings: Preliminary
evidence », Journal of Accounting Research ,vol. 15, no. 1, pp. 71-83.
GUERARD, John B. (1989). « Combining time-series model forecasts and analysts'
forecasts for superior forecasts of annual earnings », Financial Analysts Journal, vol. 45,
no. 1 (Jan. - Feb., 1989), p. 69-71.
HAMZA, Mounir et Denis LAROCQUE (2005). « An empirical comparison of ensemble
methods based on classification trees », Journal of Statistical Computation and
Simulation, vol. 75, p. 629-643.
HAN, Jiawei et Micheline KAMBER (2006). Data mining concepts and techniques, 2e
éd., San Francisco, Morgan Kaufman Publishers Inc., 770 p.
116
HANSEN, Lars Kai et Peter SALAMON (1990). « Neural network ensembles », IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 12, p. 993-1001.
HILL, T., L. MARQUEZ, M. O'CONNER et W. REMUS (1994), « Artificial neural network
models for forecasting and decision making », International Journal of Forecasting, vol.
10, p. 5-15.
HOTHORN, Torsten et Andrea PETERS (2009). ipred: Improved predictors, R package
version 0.8-8.
HUNT, Earl. B., Janet MARIN et Philip J. STONE (1966). Experiments in induction,
Academic Press, New York, 247 p.
KASS, G.V. (1980). « An exploratory technique for investigating large quantities of
categorical data », Applied Statistics, vol. 29, no. 2, p. 119-127.
KROSS, William, Byung RO et Douglas SCHROEDER (1990). « Earnings expectations:
The analysts’ information advantage », The Accounting Review, vol. 65, no. 2, p. 461476.
LABARRE, Mélanie (2003). Comparaison de méthodes ensemblistes, mémoire de
maîtrise, Montréal, HEC Montréal, 69 p.
LAWRENCE, Michael, Paul GOODWIN, Marcus O’CONNOR et Dilek ONKAL (2006). «
Judgmental forecasting: A review of progress over the last 25 years », International
Journal of Forecasting, vol. 22, p. 493-518.
LEMIEUX, Pierre (2004). Caractère cyclique du risque de crédit dans un contexte
canadien : Prévision du taux de faillite commerciale au moyen de variables
macroéconomiques, mémoire de maîtrise, Montréal, HEC Montréal, 84 p.
LITTLE, R.J.A. (1988). « Missing data adjustments in large surveys », Journal of
Business & Economic Statistics, vol. 6, no. 3, p. 287-301.
LOBO, G.J. et R.D. NAIR (1990). « Combining judgmental and statistical forecasts: an
application to earnings forecasts », Decision Sciences, vol. 21, no. 2, p. 446-460.
LOBO, G. J. (1992). « Analysis and comparison of financial analysts’, times series, and
combined forecasts of annual earnings », Journal of Business Research, vol. 24, no. 3,
p. 269-280.
MELVILLE, Prem et Raymond J. MOONEY (2003). « Constructing diverse classifier
ensembles using artificial training examples », Proceedings of the IJCAI 2003, p. 505512.
MORGAN, J.N. et J.A. SONQUIST (1963). « Problems in the analysis of survey data,
and a proposal », Journal of the American Statistical Association, vol. 58, no. 302, p.
415-434.
117
PAGASH, Donald P., Barbara A. CHANEY et Bruce C. BRANSON (2003). « A note on
earnings forecast source superiority », The Journal of Applied Business Research, vol.
19, no. 3, p. 75-87.
PAYNE, Jeff L., et Wayne B. THOMAS (2003). « The implications of using stock-split
adjusted I/B/E/S data in empirical research », The Accounting Review, vol. 78, no. 4
(Oct., 2003), p. 1049-1067.
QUINLAN, John Ross (1986). « Induction of decision trees », Machine Learning, no. 1,
p. 81-106.
QUINLAN, John Ross (1993). C4.5: Programs for machine learning, San Francisco,
Morgan Kaufman Publishers Inc., 302 p.
QUINLAN, John Ross (1996). « Bagging, boosting, and C4.5 », Proceedings of the
Thirteenth National Conference on Artificial Intelligence, AAAI Press and the MIT Press,
p. 725-730.
R (2010). version 2.11.0 (2010-04-22) [logiciel], The R Foundation For Statistical
Computing.
RIDGEWAY, Greg (2010). gbm: Generalized Boosted Regression Models, R package
version 1.6-3.1.
ROKASH, Lior et Oded MAIMON (2008). Data mining with decision trees: Theory and
applications, Singapore, World Scientific Publishing Co. Pte. Ltd., 244 p.
ROKASH, Lior (2009). « Taxonomy for characterizing ensemble methods in
classification tasks: A review and annotated bibliography », Computational Statistics and
Data Analysis, vol. 53, no. 12, p. 4046-4072.
ROSS, Stephen A., Randolph W. WESTERFIELD, Bradford D. JORDAN et Gordon S.
ROBERTS (2007). Fundamentals of corporate finance, 6e éd. canadienne, New-York,
McGraw-Hill, 834 p.
RUBIN, Donald B. (1987). Multiple imputation for nonresponse in surveys, New York,
Wiley, 291 p.
RUBIN, Donald B. (1996). « Multiple imputation after 18+ Years », Journal of the
American Statistical Association, vol. 91, no. 434, p. 473-489.
SANDERS, N. R. et K. B. MANRODT (2003). « The efficacy of using judgmental versus
quantitative forecasting methods in practice », Omega, vol. 31, p. 511-522.
SENI, Giovanni et John ELDER (2010). Ensemble methods in data mining: Improving
accuracy through combining predictions, Chicago, Morgan & Claypool Publishers,
Synthesis Lectures On Data Mining And Knowledge Discovery, 108 p.
SIROKY, David S. (2009). « Navigating random forests and related advances in
algorithmic modeling », Statistics Surveys, vol. 3, p. 147-163.
118
SOSVILLA-RIVERO, Simon et Pedro RODRIGUEZ (2010). « Linkages in international
stock markets: Evidence from a classification procedure », Applied Economics, vol. 42,
no. 16, p. 2081-2089.
STROBL, C., A. BOULESTEIX, A. ZEILEIS et T. HOTHORN (2007). « Bias in random
forest variable importance measures: Illustrations, sources and a solution », BMC
Bioinformatics, vol. 8, no. 25. <http://www.biomedcentral.com/1471-2105/8/25/abstract>.
VAN BUUREN S. et K. GROOTHUIS-OUDSHOORN (2009). « MICE: Multivariate
imputation by chained equations in R », Journal of Statistical Software, vol. 10, no. 2, p.
1-68.
WATTS, R. (1975). « The time series behavior of quarterly earnings », Working paper,
University of Newcastle, UK.