Quelques notes sur l`interprétation d`une analyse factorielle ou

Transcription

Quelques notes sur l’interprétation d’une analyse
factorielle ou canonique des correspondances
Introduction
Les quelques réflexions ci-dessous émergent de quelque 1’000 heures de consultation
statistique données de 1989 à 1997. Présentées dans un langage quelquefois imagé, ce ne
sont pas des vérités absolues, mais plutôt des éléments très généraux d’interprétation,
utiles bien que presque jamais donnés dans les manuels. Ces éléments se sont montrés
valables dans la plupart des cas rencontrés, pour autant que les données présentent
quelques caractéristiques de base: un minimum de 10 échantillons (mais de préférence au
moins 20), un nombre d’espèces suffisant (au moins 5) (mais de préférence pas
excessif...) par rapport au nombre d’échantillons, des variables explicatives indépendantes
de celles de la matrice à expliquer. Quelques cas limites par rapport à ces caractéristiques
sont discutés.
L’auteur de ces lignes étant d’abord zoologue, certaines options proposées ici sont
entachées d’un biais relatif au comportement des organismes concernés. Pour atténuer cet
effet, dans la mesure du possible, les raisons des choix présentés sont expliquées et
relativisées en fonction des organismes. Il faut toujours garder à l’esprit qu’il n’y a pas de
solution unique à l’exploration et à l’interprétation des données.
Un peu de vocabulaire
Sans faire de lexique, je précise ici le sens des termes les plus importants utilisés dans les
paragraphes qui suivent. Voir aussi la Figure 1.
Une analyse factorielle des correspondances (AFC) est une ordination sans
contrainte, donc une méthode d'analyse de gradient qui ne nécessite pas l'intervention
d'une matrice de variables explicatives. La quantité de variation des données (leur
dispersion par rapport à un point moyen) est mesurée par l'inertie totale. Les tendances
principales de cette variation sont décomposées en une succession d'axes factoriels
orthogonaux, ordonnés par importance décroissante. Le poids de chacun de ces axes est
donné par sa valeur propre. La somme de toutes les valeurs propres est égale à l'inertie
totale mentionnée plus haut. Les valeurs propres d'une AFC prennent des valeurs entre 0
et (un peu moins que) 1. Une AFC peut produire au maximum un nombre d'axes égal à la
plus petite dimension de la matrice de données (nombre d'échantillons ou d'espèces)
moins 1.
Une analyse canonique des correspondances (ACC) est une ordination avec
contrainte. Dérivée de l'AFC, elle réalise une analyse de gradient dite "directe", dans
laquelle interviennent deux matrices: une matrice "à expliquer", et une matrice de variables
explicatives. Si cette dernière contient n variables explicatives, l'ACC produit n axes
canoniques, qui sont des axes d'ordination contraints à être exprimés par une
combinaison linéaire des variables explicatives. La variation qui n'a pas été expliquée par
ce processus est ensuite ordonnée selon une AFC, et exprimée sous la forme d'axes
factoriels "ordinaires", non contraints. Une ACC peut produire au maximum un nombre
d'axes indépendants égal au nombre d'axes canoniques (donc aussi: au nombre de
variables explicatives) plus les axes non contraints, ces derniers en nombre égal à la plus
petite dimension de la matrice de données (nombre d'échantillons ou d'espèces) moins 1.
Par commodité de langage, je réserverai le nom d'axes "factoriels" aux axes non
contraints, et je parlerai d'axes canoniques pour les autres.
2
Daniel Borcard
LEVP
Résultats numériques et diagrammes
L'usager néophyte de Canoco a souvent tendance à concentrer l'interprétation de ses
analyses sur quelques diagrammes des plans factoriels principaux, au détriment des sorties
numériques. En fait, les diagrammes ne devraient être utilisés que pour illustrer les
éléments importants décelés dans les résultats chiffrés... Les quelques pages qui suivent
montrent que la lecture de quelques valeurs clés donne rapidement des renseignements
essentiels.
Les graphes sont surtout utiles dans la phase de présentation des résultats, et devraient être
limités à l'illustration de structures importantes. Il importe aussi de les dépouiller de tout ce
qui n'est pas indispensable. Par exemple, dans les problèmes écologiques, le dessin des
points-échantillons est très souvent superflu. Dans la plupart des cas, il est important de
voir la distribution des espèces par rapport aux variables explicatives, puisque ces deux
groupes de descripteurs sont issus de deux matrices indépendantes. En revanche, la
distribution des échantillons par rapport à ces mêmes variables ne montre que ce qui est
déjà contenu dans la matrice explicative!
L’inertie totale et les valeurs propres
L’inertie totale
En ACC, la version 3.11 de Canoco donne l’inertie totale de la matrice de données avant
les résultats de l’analyse. Le niveau où cette valeur se situe donne déjà des indications sur
la structure de la matrice de données:
- lorsqu’elle vaut environ 1, l’inertie totale trahit une matrice "dense", c’est-à-dire avec peu
ou pas d’espèces rares ou d’échantillons aberrants, et peu de variation. Il est rare que des
gradients bien marqués soient présents;
- entre 1 et 3, on rencontre la plupart des cas où les données présentent un ou deux
gradients bien marqués, mais sans excès (pas de quasi-dichotomie, où le premier axe
sépare deux groupes d’échantillons presque indépendants);
- de 3 à 6, on a souvent un premier axe très fort, dénotant soit un fort gradient, soit une
dichotomie, et quelques gradients plus faibles. Dans d’autres cas, les gradients sont
normaux mais le nombre d’espèces rares est élevé. Plus rarement encore, la matrice est
composée d’une foule de petits groupes d’échantillons représentant chacun une tendance
modérée, avec quelques espèces communes à l’ensemble de l’échantillonnage et un grand
nombre d’espèces propres à chacun de ces petits groupes;
- au-delà de 6, il faut commencer à s’inquiéter sérieusement... Soit la matrice résulte de
l’assemblage de deux ou plusieurs groupes d’échantillons presque indépendants, soit le
nombre d’espèces rares est très élevé. Dans les deux cas, il faut étudier de près la structure
de la matrice de données avant de poursuivre l’analyse (voir plus loin).
Les valeurs propres
Un premier point important à souligner est qu’il faut d’abord regarder les valeurs
propres elles-mêmes avant de s’intéresser au pourcentage de variation que les axes
correspondants expliquent (ou absorbent, dans le cas d’une AFC). Les raisons seront
exposées plus loin.
La première valeur propre d’une AFC ou d’une ACC prend généralement les valeurs
suivantes (les divisions sont quelque peu arbitraires!):
- de 0.7 à 0.99+ : données dichotomiques. L’axe représente deux blocs d’échantillons qui
n’ont presque pas d’espèces en commun. Une telle situation montre donc une trivialité, et
produit des distorsions telles sur les autres axes (effet Guttman extrême!) qu’il est
préférable d’analyser séparément les deux blocs. Par ailleurs, même sans tenir
compte de l'effet Guttman, rien ne garantit que les deux blocs présentent les mêmes
Interprétation d'une ACC
3
variables latentes dans le même ordre d'importance, et la mise en évidence d'une structure
dans un bloc ne peut qu'être gênée par la présence des échantillons de l'autre bloc.
- de 0.4 à 0.7: l'axe trahit un gradient bien marqué. L'effet Guttman est généralement
présent, quoique moins prononcé en ACC qu'en AFC. De tels axes sont en général
d'interprétation aisée, mais attention aux axes suivants, en général entachés de distorsions.
- de 0.1 à 0.4: l'axe révèle une structure peu franche, quelquefois difficile à interpréter.
L'effet Guttman est généralement absent. Dans le cas d'une AFC, la matrice ne présente
pas de structure forte. Dans le cas d'une ACC, vérifier la première valeur propre non
contrainte (axe n+1 si on a introduit n variables explicatives dans l'analyse). Si cette valeur
propre non canonique est plus élevée que la première valeur propre canonique, on a
probablement omis de l'analyse une ou plusieurs variables explicatives importantes.
- moins de 0.1: matrice dépourvue de structure claire ou (dans le cas d'une ACC),
variables explicatives mal choisies.
Valeurs propres d'une analyse factorielle
des correspondances
Valeur propre
(poids)
0.6
0.5
0.4
0.3
Axes factoriels
0.2
0.1
19
17
15
13
11
9
7
5
3
1
0
Numéro de l'axe
0.5
0.4
0.3
Axes canoniques
0.2
Axes factoriels
0.1
23
21
19
17
15
13
11
9
7
5
3
0
1
Valeur propre
(poids)
Valeurs propres d'une analyse canonique des
correspondances
Numéro de l'axe
Figure 1: Exemple de hiérarchie des axes d'une AFC et d'une ACC de la même matrice de données, qui
présente des structures bien marquées, et bien expliquées par l'ACC. L'inertie totale vaut ici 2.4.
Pour plus de détails, voir Borcard et Buttler (1996).
On devine maintenant pourquoi la valeur propre elle-même en dit plus que le pourcentage
de variation expliquée. Pour illustrer ce propos, imaginons un gradient bien marqué,
présent dans une matrice sans autre tendance forte et comportant peu d’espèces rares
4
Daniel Borcard
LEVP
(inertie totale = 2.0). Ce gradient se révèlera par une valeur propre de l’ordre de 0.6 sur le
premier axe, et représentera une proportion importante de la variation totale de la matrice
(par exemple 0.6/2.0 = 30%).
Par contre, si ce même gradient est présent dans une matrice qui comporte d’autres
gradients importants ou qui renferme beucoup d’espèces rares (p.ex. inertie totale = 5.0),
il sera révélé par une valeur propre semblable, mais représentera une proportion de
variation bien plus faible (par exemple 0.6/5.0 = 12%).
Il faut bien comprendre que ce gradient a exactement la même signification écologique
dans les deux matrices. Simplement, le contexte est différent, soit parce que, dans le
deuxième cas, on a échantillonné un plus grand nombre de variantes du milieu, soit parce
que celui-ci est plus hétérogène, ou encore parce qu’on a affaire à des organismes à forte
mobilité (activité exploratoire...), etc...
Dans le même ordre d'idées, on s'alarme souvent à tort lorsqu'on découvre qu'une ACC
n'explique "que" 15 ou 25% de variation. Les raisons sont multiples:
- il faut avant tout garder à l'esprit que la complexité des interactions qui ont généré les
communautés échantillonnées est telle qu'elle interdit a priori une interprétation exhaustive
de la variation. Même en négligeant les variations dites aléatoires, il est impensable
d'espérer mesurer et coder toutes les sources de variation, biotiques et abiotiques, avec ou
sans décalages temporels, etc.
- par ailleurs, l'exemple donné plus haut montre qu'une même quantité absolue de
variation expliquée peut représenter une proportion très différente de l'ensemble de la
variation, suivant la structure du reste des données. A ce sujet, la marche à suivre en cas
de faible pourcentage de variation expliquée par l'ensemble de l'analyse est la suivante:
(1). Examiner les valeurs propres absolues (et non les pourcentages) des premiers
axes canoniques.
(2). Examiner les valeurs propres absolues des axes non-canoniques, c'est-à-dire
celles qui suivent les valeurs propres canoniques;
(3). Si, en (1), la valeur du premier axe est supérieure à 0.3 (environ) -> (4); sinon, > (5)
(4). Comparer les points (1) et (2). Si les deux ou trois premiers axes canoniques sont
plus grands que les deux ou trois premiers axes non-canoniques, le choix des
variables explicatives est bon. Le faible pourcentage d'explication totale est alors
souvent dû à la présence d'un grand nombre d'espèces rares, et/ou à la présence
d'un grand nombre d'axes mineurs générés par de petits groupes d'échantillons
qui se distinguent les uns des autres par la présence d'une ou deux espèces
caractéristiques.
Par contre, si les premières valeurs propres non canoniques sont plus grandes
que les premières valeurs propres contraintes, les variables explicatives
introduites dans le modèle n'expliquent pas les structures principales de la
matrice. Il faut revoir les hypothèses du travail, au besoin en poussant plus loin
l'exploration des axes non contraints (qui sont en fait une AFC de la variation
non expliquée!).
(5). Comparer les points (1) et (2). Si les deux ou trois premiers axes canoniques sont
plus grands ou égaux aux deux ou trois premiers axes non-canoniques, la matrice
de données est peu structurée, mais le choix des variables explicatives est bon. Le
faible pourcentage d'explication est alors dû au fait que les données comportent
de nombreuses tendances mineures, certaines ayant été expliquées par les
variables environnementales, d'autres pas.
Par contre, si les premières valeurs propres non canoniques sont plus grandes
que les premières valeurs propres contraintes, les variables explicatives
introduites dans le modèle n'expliquent pas les structures principales de la
matrice. A ce point, le diagnostic dépend des valeurs propres non contraintes:
5
(5a). si la première de ces valeurs propres non contraintes dépasse 0.3, chercher
un ou plusieurs facteurs explicatifs importants mais oubliés;
(5b). si elle est inférieure à 0.3, on a mal choisi les variables explicatives, mais il
y peu de chances d'en trouver qui expliquent une bonne part de variation, car la
matrice de données est peu structurée.
Remarque: il peut arriver qu'on sache par avance que les variables environnementales
n'expliquent que des structures mineures, et qu'on veuille simplement tester si cette
explication est significative. Même si, dans le sens de ce qui précède, le choix des
variables explicatives est "mauvais", cette opération est tout à fait admissible. Un des
intérêts de l'ACC réside précisément dans sa capacité à faire ressortir des structures qui
sont soit mineures, soit "diluées" dans plusieurs axes mineurs d'une AFC.
Le problème des espèces rares
Une des questions les plus épineuses à résoudre dans le cadre d'ordinations comme l'AFC
ou l'ACC est celle des espèces que je qualifie ici de "rares", c'est-à-dire celles qu'on ne
rencontre que dans une fraction mineure des échantillons de la matrice de
données1 . La présence de ces espèces a pour conséquence l'introduction d'une grande
quantité de zéros dans la matrice, et l'augmentation quelquefois vertigineuse de l'inertie
totale. Le problème consiste donc à en tenir compte d'une manière ou d'une autre dans
l'interprétation des données sans leur permettre de perturber les analyses statistiques.
En botanique, lorsqu'on trouve une espèce, même à un seul exemplaire, on sait que le
milieu réunit au moins les conditions minimales nécessaires à sa survie (quitte à discuter de
la manière dont la plante est arrivée là, si elle est accidentelle ou non, etc.). Les espèces
rares sont souvent concentrées dans un ou quelques échantillons isolés, dont elles peuvent
être considérées comme caractéristiques. Dans ce cas, une analyse globale permet de faire
ressortir le ou les échantillons concernés sur un axe factoriel important. Le constat étant
fait, on peut continuer l'analyse après retrait des échantillons en question, ce qui élimine
du même coup les espèces qui leur sont propres. Le problème des échantillons isolés est
traité plus loin.
En zoologie, par contre, la présence d'un spécimen dans un piège ou un échantillon de
sol n'implique nullement que l'espèce est installée sur le site, ni que le spécimen capturé
aurait pu s'y maintenir. Cette situation est le reflet de la capacité des animaux concernés à
explorer activement leur milieu. Malheureusement, il en résulte qu'on ne peut pas admettre
a priori qu'un exemplaire isolé fournit une information pertinente. Dans les matrices de
données, le cas le plus fréquent est celui d'espèces présentes à raison d'un ou deux
exemplaires et dispersées dans l'ensemble de l'échantillonnage. Or, non seulement ces
espèces ne donnent aucune structure interprétable à la matrice de données, mais elles
gonflent inutilement la variation totale et perturbent l'analyse.
La signification et les conséquences du maintien ou du retrait de certaines espèces de
l'analyse peuvent être importantes. Or, souvent, dans l'esprit du chercheur, il y a
confusion entre les considérations écologiques de la recherche et les impératifs techniques
de l'analyse, ce qui mêne parfois à des décisions "au coup par coup" difficiles à justifier.
C'est la raison pour laquelle je propose plus loin une démarche objective permettant de
mettre en évidence les situations évoquées ci-dessus, et d'agir en conséquence.
Avant tout, il faut absolument se rappeler que les méthodes d'ordination comme
l'AFC et l'ACC sont faites pour dégager des tendances générales, et non
pour interpréter des exceptions! Non seulement on n'a pas besoin d'une AFC ou
d'une ACC pour mettre en évidence les espèces présentes à un ou deux exemplaires
seulement (un tri du tableau de données suffit), mais de plus ces analyses souffrent de leur
présence. Les ordinations sont là avant tout pour mettre en évidence des structures
1
J'utilise donc ici le mot "rare" dans un sens purement technique, limité à la matrice de données traitée par
l'analyse.
6
Daniel Borcard
LEVP
concrétisées par des variations d'abondance d'espèces communes et des successions de
taxa partagés par des sous-ensembles non négligeables du jeu de données. Ces structures
sont souvent délicates à mettre en évidence, en particulier si on subit l'interférence de la
partie la plus "bruyante" des données.
Comment procéder dans la pratique? La démarche proposée ici découle du raisonnement
ci-dessus, et consiste à vérifier par étapes l'influence des espèces rares sur les structures
dominantes de la matrice de données. Bien que la séquence d'analyses ci-dessous puisse
se faire par ACC, je recommande de procéder par AFC, sans contrainte aucune.
1. Lors de la préparation de la matrice de données, ne pas oublier d'ordonner l e s
espèces par fréquence absolue2 décroissante (et non par ordre décroissant
d'abondance!). Ainsi, il sera facile dans Canoco d'"éplucher" les données en retirant d'un
coup toutes les espèces présentes une seule fois, puis deux, etc.
2. Faire une première AFC en gardant toutes les espèces, et en évitant toute forme de
pondération (type downweighting of rare species). Si le contexte demande de transformer
les données [p.ex. ln (y+1)], on peut le faire sans problème, à condition de s'en tenir
toujours à la même transformation dans les analyses ultérieures!
Noter l'inertie totale et les quelques premières valeurs propres (et non les
pourcentages de variance expliquée!). Le nombre de valeurs propres à noter dépend de
leur valeur et de l'appréciation de l'usager: il s'agit ici de garder le contrôle sur les
structures principales dégagées par l'analyse.
3. Faire une deuxième AFC en donnant un poids de zéro à toutes les espèces
présentes une seule fois. Noter à nouveau l'inertie totale et les quelques premières
valeurs propres. Cette première étape va permettre de différencier les situations évoquées
plus haut: espèces rares concentrées dans quelques échantillons ou dispersés dans toute la
matrice.
3a. Dans le premier cas, l'inertie totale baisse, ainsi que les premières valeurs
propres. C'est la signature de la présence d'un ou quelques échantillons clairement
différents des autres en raison d'un cortège d'espèces qui leur sont propres. On
trouve alors le ou les échantillons concernés à l'extrémité d'un des premiers axes
factoriels. Lorsque la présence de ces échantillons engendre des déformations (effet
Guttman), on peut les retirer des données (en les considérant comme un groupe à
part), ce qui retire du même coup leurs espèces propres, et reprendre l'analyse du
reste de la matrice.
3b. Le retrait d'espèces rares réparties dans toute la matrice a généralement pour
effet de faire baisser l'inertie totale, mais pas (ou très peu) les premières valeurs
propres. Ainsi, on a diminué le "bruit" de la matrice sans toucher aux structures
principales! Bien entendu, le pourcentage de variance expliquée a augmenté.
On remarquera que dans les deux cas on finit par retirer les espèces rares de la matrice,
mais avec un sous-entendu différent. En 3a, on estime avoir saisi leur signification
(caractéristiques d'un ou quelques échantillons très différents du reste), et en 3b on retire
des espèces dont on ne peut tirer aucune information comparative: en effet, la présence
d'une espèce dans un seul échantillon n'ajoute à l'analyse qu'un point-espèce superposé à
celui de l'échantillon, mais sans variance propre, et donc sans moyen de diagnostic sur la
distribution de l'espèce dans le milieu concerné. "Un seul témoin = pas de témoin"!
4. Faire une troisième AFC en retirant les espèces présentes une ou deux f o i s
dans la matrice. Noter à nouveau l'inertie totale et les quelques premières valeurs propres.
A ce stade, l'opération peut avoir le même effet que la première (baisse de l'inertie totale,
mais (presque) pas des premières valeurs propres). Dans ce cas, on peut poursuivre avec 3
présences, etc. Si les premières valeurs propres commencent à baisser notablement, voir
en 5.
2
Fréquence absolue: nombre d'échantillons où l'espèce est présente. Si l'on divise cette fréquence absolue
par le nombre total d'échantillons, on obtient la fréquence relative ou constance.
7
5. Le critère d'arrêt dépend alors du problème. Il y a forcément une part d'arbitraire. Pour
aider à la décision, je calcule le pourcentage de baisse de l'inertie totale et je le compare aux
pourcentages de baisse de chacune des valeurs propres notées. Ces pourcentages doivent
être calculés à chaque étape par rapport à la première étape (et non l'étape précédente!).
Dans le cas de données entomologiques, lors des deux ou trois premières étapes, l'inertie
totale baisse généralement de façon sensible (20% et plus), alors que les premières valeurs
propres sont peu affectées (5% pour la première, un peu plus pour les suivantes). Lorsque
la plus faible des valeurs propres retenues pour examen commence à "souffrir", on arrête
l'opération une étape plus haut.
Cette méthode repose sur l'idée que les structures importantes (au sens de l'AFC ou de
l'ACC: les tendances centrales!) de la matrice de données ne reposent pas sur les espèces
rares. Ces structures ressortiront d'autant mieux qu'elles seront plus épurées du "bruit" ou
d'échantillons isolés. Le résultat devrait donc être une matrice de données débarrassée
d'une partie de sa variation inutilisable dans le cadre d'AFC ou d'ACC. Souvent, on
réutilisera cette même matrice épurée pour des groupements, ce qui permettra une
comparaison directe de ces deux approches. Par contre, il est bien clair que des analyses
de diversité reposent sur un tout autre raisonnement, et peuvent précisément tirer parti de
toutes les espèces pour glaner de l'information que les ordinations ou groupements ne
peuvent pas fournir! On s'efforcera donc de jouer sur cette complémentarité, tout en se
servant dans chaque approche de la partie des données la mieux adaptée aux techniques
d'analyse mises en oeuvre. Notons qu'on peut toujours projeter les espèces rares a
posteriori dans une AFC ou ACC en les affectant d'un poids de 0.01, si l'on tient à les
faire figurer dans les diagrammes d'ordination.
Echantillons isolés
Une autre épine dans le pied de l'analyste de données se nomme "échantillon isolé"
(singleton, outlier...). Dans des données dont les tendances sont le plus souvent formées
de continuums, comment définir un seuil au-delà duquel un échantillon peut ou doit être
mis de côté? Là encore, il n'y a pas de réponse unique. Quelques programmes proposent
des procédures de détection. Je me borne ici à quelques considérations générales.
Les cas les plus aisés sont ceux où un échantillon reste isolé dans un groupement, et
produit un axe à lui tout seul dans une ordination (c'est-à-dire que l'objet se trouve isolé
d'un côté de l'axe avec une coordonnée nettement supérieure [ou inférieure] aux autres).
Quelle que soient les caractéristiques qui l'ont démarqué, un tel échantillon peut être retiré
de la suite des opérations pour deux raisons: 1. Sa présence peut provoquer des
distorsions des axes factoriels subséquents, et 2. L'analyse a rempli son but, puisque
l'échantillon en question a été détecté!
La situation devient d'autant plus délicate que l'échantillon suspect se rapproche plus des
autres. Personnellement, comme je suis issu de l'entomologie où les échantillons sont
souvent peu nombreux et coûteux, mais les espèces notoirement mobiles, je suis vite
enclin à éliminer des espèces, mais je répugne à retirer des échantillons. Lorsque
l'échantillon est clairement perturbé (incomplet par suite de mauvais traitements divers),
pas de problème. Lorqu'il provient de façon sûre d'un milieu différent des autres (p.ex.
une bouse de vache au milieu d'un pâturage), je peux éventuellement le retirer si je ne suis
pas intéressé a priori au rapport de ce milieu avec mon sujet principal. Mais si un
échantillon diffère fortement des autres pour des raisons inconnues, je préfère commencer
par l'examiner à la fois sous l'angle de ses espèces et de ses descripteurs
environnementaux. Il arrive que je trouve la raison dans une anomalie de distribution
d'une espèce abondante, ou encore dans l'occurrence d'une caractéristique
environnementale unique. Dans ce cas, je note mon interprétation, et je conserve
éventuellement l'échantillon s'il ne perturbe pas trop l'analyse sur le plan technique (p.ex.
génération d'un axe d'ordination important). Si la perturbation est forte, je retire
l'échantillon isolé et le projette passivement dans l'ordination, ce qui me permet de le situer
par rapport au reste du jeu de données, mais uniquement sur la base des espèces que cet
8
Daniel Borcard
LEVP
échantillon partage avec le reste des données. Enfin, le cas (plus fréquent en botanique)
d'un échantillon contenant plusieurs espèces qui lui sont propres a été évoqué plus haut.
Lorsque le jeu de données contient non pas un, mais plusieurs échantillons très différents
de la majorité, il faut d'abord vérifier si ces échantillons forment un groupe à part ayant
une homogénéité interne. Dans ce cas, on a peut-être affaire à un ensemble de données
dichotomique, qu'on peut partager en deux pour l'analyse (voir plus haut). Si ce n'est pas
le cas, c'est-à-dire si les échantillons isolés diffèrent autant les uns des autres que du
groupe d'échantillons principal, le cas de chaque singleton doit être examiné
individuellement.
Nombre de variables explicatives
Il arrive malheureusement que le coût d'un échantillon (en temps ou autre ressource) soit
très élevé, de sorte que des études doivent être conduites sur la base d'un nombre très
faible d'échantillons. Il importe alors d'être attentif au nombre de variables explicatives (et
donc d'hypothèses) dont on veut tester l'effet, pour des raisons à la fois méthodologiques
et techniques. Sur le plan de la méthode, il est toujours préférable de bâtir des prémodèles
conceptuels économiques en hypothèses. Techniquement, on sait qu'il faut veiller à ne pas
multiplier le nombre de tests, les corrections du seuil de probabilité pour tests multiples
conduisant rapidement à une perte totale de puissance avec un petit échantillonnage. On
peut aussi se souvenir que lorsqu'on atteint un nombre de variables explicatives égal à la
plus petite dimension de la matrice de données moins 1, une ACC n'est plus contrainte et
on réalise en fait l'équivalent d'une AFC avec variables explicatives a posteriori! En effet,
on fournit alors assez de variables explicatives pour accommoder tous les degrés de liberté
de la matrice de données. Canoco affiche donc 100% de variation expliquée, mais cela ne
signifie rien du tout: on aurait réalisé le même score avec des variables explicatives
constituées exclusivement de bruit! De plus, en régression, on "explique" toujours quelque
chose dans les données, quelles que soient les variables explicatives introduites dans le
modèle.
Cet effet est facile à mettre en évidence. Lors d'un essai avec des données d'abondance
d'Oribates, j'ai fabriqué 20 variables "explicatives" aléatoires (chaque variable était donc
faite de bruit uniquement). A l'aide d'ACC incluant différents nombres de variables
explicatives, j'ai pu constater que le pourcentage de variation "expliquée" par mes
descripteurs aléatoires était plus ou moins égal au nombre de variables explicatives divisé
par la plus petite dimension de la matrice de données. Par exemple:
50 échantillons 60 espèces 20 variables explicatives => 20/50 = 40% var. expl.
Notons tout de même que les tests sur les axes canoniques réalisés de la sorte ne sont pas
significatifs. Il est donc important de tester ces axes, ne serait-ce que pour s'assurer qu'on
n'a pas affaire à cet effet pervers de la régression linéaire.
Sélection pas-à-pas des variables explicatives (Forward selection of
environmental variables)
Deux questions me sont souvent posées au sujet de cette méthode: quand l'appliquer et
quel seuil de probabilité utiliser?
Quand appliquer la sélection pas à pas?
On applique la sélection pas à pas lorsqu'on veut réduire le nombre de variables
explicatives dans un modèle régressif. La raison de cette volonté varie selon les études,
mais deux cas me sont fréquemment soumis: (1) certaines variables explicatives sont
9
fortement corrélées entre elles et on désire éliminer quelques-unes des variables trop
corrélées, ou (2) le nombre de variables explicatives est trop important par rapport à la
taille de la matrice de données. Malheureusement, ces deux cas sont fréquemment des
situations où l'on veut faire de la "statistique-pompier", c'est-à-dire où on demande à la
statistique de pallier a posteriori les déficiences du plan de travail et des données...
Dans le premier cas, dans Canoco, on décèle la trop forte collinéarité des variables
explicatives au moyen des "inflation factors". Selon ter Braak, aucun de ces facteurs ne
doit dépasser 20 3 . Mais attention: si une ou plusieurs variables dépassent cette valeur, ce
ne sont pas forcément (toutes) celles-là qu'il faut éliminer aveuglément de l'analyse! Il est
préférable d'examiner les corrélations entre toutes les variables explicatives et de décider
sur des critères biologiques lesquelles sont moins indispensables. La décision
dépend du contexte. Par exemple, dans le cas d'une étude de communautés où l'altitude et
la température moyenne sont très corrélées, on peut être intéressé à l'effet direct de la
température, qu'on retiendra donc pour l'analyse, mais on peut aussi chercher une bonne
variable synthétique des conditions climatiques générales, auquel cas l'altitude sera plus
appropriée.
Dans le cas du nombre trop grand de variables explicatives, il est aussi préférable de
privilégier une approche écologique. Vérifier pour chaque variable l'intérêt de l'hypothèse,
éliminer les variables mesurées "pour-si-jamais-des-fois", puis faire comme ci-dessus,
calculer les corrélations entre toutes les paires de variables restantes et éliminer les
variables moins intéressantes en cas de collinéarité.
Si on passe ensuite à la régression pas à pas, il faut se rappeler que cette méthode
comporte quelques inconvénients (discutés par Legendre et Legendre (1984), tome 1,
pp.104-105): rien ne garantit que le sous-ensemble de variables sélectionnées est celui qui
explique le plus complètement les données, et, en cas de collinéarité des variables
explicatives, et si deux variables collinéaires rentrent tout de même dans le modèle, le
coefficient de régression de la deuxième sera probablement sous-estimé. En tous les cas,
l'introduction d'une variable donnée dans un modèle conditionne toute la suite de la
sélection pas à pas. Non seulement le sous-ensemble de variables séectionnées peut
changer, mais les coefficients de régression (et donc l'estimation de l'importance relative)
des variables retenues peut varier fortement.
Quel seuil de probabilité utiliser lors d'une sélection pas à pas?
Deux philosophies s'affrontent: soit on considère cette approche comme un cas particulier
de la régression multiple et, conceptuellement, on réalise un test, soit on estime que la
répétition de tests à chaque étape est une situation de tests multiples.
Dans le premier cas, on choisit un seuil convenable, généralement 1% ou 5%, et on
conserve ce seuil pour chaque test.
Dans l'autre cas, on apporte une correction du seuil de probabilité pour tests multiples.
L'idée générale est qu'en proposant plusieurs variables, on multiplie les chances que l'une
d'entre elles soit significative au seuil choisi. La parade la plus simple, appelée correction
de Bonferroni, consiste à diviser le seuil de rejet par le nombre de tests à réaliser. Par
exemple, pour un seuil global de 5% et 6 tests à faire, on ne retiendra que les variables qui
"passent" à 5% / 6 = 0.83%
Cette correction simple présente toutefois l'inconvénient d'être trop conservatrice lorsqu'il
y a plus qu'une variable explicative réellement significative en lice. La tendance est
actuellement de nuancer la correction de Bonferroni en la rendant séquentielle, c'est à dire
en recalculant le seuil de rejet après chaque test sur la base du nombre de variables
3
Une exception est le cas de la régression polynomiale, où les variables explicatives sont des polynômes
bâtis sur certaines variables du modèle, par exemple les coordonnées x et y des échantillons. Dans ce cas,
les nouvelles variables sont forcément collinéaires et les inflation factors très élevés. En l'occurrence, cela
importe peu tant qu'on interprète le résultat de l'analyse sur le plan global, sans mettre l'accent sur les
coefficients canoniques individuels.
10
Daniel Borcard
LEVP
restantes. Pour un seuil global de 5% et 6 variables explicatives, la procédure est la
suivante:
1. Premier test: 6 variables en lice. Correction du seuil: 5% / 6 = 0.83%
2. Si aucune variable n'est significative à 0.83%, on arrête la procédure. Si une
variable peut être introduite dans le modèle, on passe au point 3.
3. Deuxième test: il reste 5 variables en lice. Correction: 5% / 5 = 1%
4. Si aucune variable n'est significative à 1%, on arrête la procédure. Si une
variable peut être introduite dans le modèle, on passe au point 5.
5. Troisième test: il reste 4 variables en lice. Correction: 5% / 4 = 1.25%
etc.
Divers
Je passe ici en revue quelques "FAQ" 4 de l'interprétation d'AFC ou d'ACC.
Nombre de permutations dans les tests
La première évidence qu'il faut (tout de même...) rappeler est que la précision du résultat
dépend du nombre de permutations. Il est clair qu'avec 99 permutations + la vraie valeur,
la précision sera de 1%. On ne pourrait donc pas réaliser l'exemple ci-dessus, où le
premier seuil est de 0.83%, avec 100 permutations seulement.
Un autre aspect est la fiabilité. Le principe d'un test de Monte Carlo est qu'on
échantillonne les réalisations de l'hypothèse nulle pour les confronter avec la vraie valeur.
Donc, plus l'échantillonnage (= le nombre de permutations) sera élevé, plus on cernera
avec précision la distribution de référence.
En général, lorsque j'explore mes données, et si le seuil exigé le permet, je travaille avec
99 permutations tant que la vraie valeur F est très supérieure aux valeurs aléatoires, et je
passe à 999 permutations lorsque cet écart diminue. Pour l'analyse finale, celle qu'on
conservera, il vaut toujours mieux travailler avec au moins 1000 répétitions (la vraie valeur
+ 999 permutations aléatoires).
Faut-il utiliser les "Sample scores" ou les "Sample scores which are linear
combinations of environmental variables" dans les diagrammes?
Les "Sample scores" (tout court) sont les coordonnées des objets dans l'espace des
espèces. Ce sont donc celles-ci qu'on utilise pour les projeter avec les espèces et les
variables explicatives. Les "Sample scores which are linear combinations of environmental
variables" sont le résultat de la régression des "Sample scores" ci-dessus sur les variables
explicatives. Il s'agit donc, réellement, du modèle ajusté par Canoco. Pour chaque axe
canonique, la corrélation entre les deux séries de coordonnées est la Species-environment
correlation de Canoco.
Permutations limitées avec Canoco
Lorsqu'on a réalisé une ACC avec des covariables, Canoco demande lors des tests si l'on
veut conditionner les permutations sur les covariables. Cette variante est à conseiller si les
covariables définissent un petit nombre de blocs dans les données (p.ex. 3 classes de sol).
Il faur avoir pris soin de placer les covariables correspondantes en tête de fichier, car
Canoco demande si on conditionne les permutations sur les 1, 2, 3 ... n premières
covariables. Les permutations sont alors réalisées à l'intérieur de chaque bloc de données,
évitant ainsi des réalisations triviales de l'hypothèse nulle.
D'autres types de permutations limitées s'imposent aussi lorsque les données sont
organisées en une série spatiale ou temporelle, afin d'éviter de détruire la structure
d'autocorrélation des données lors du test.
4
FAQ = frequently asked questions
11
Enfin, lorsque certains plans d'échantillonnage requièrent des algorithmes de permutations
plus sophistiqués, Canoco offre la possibilité d'introduire son propre fichier de
permutations.
Remerciements
Je remercie très chaleureusement les personnes qui ont permis la réalisation de ce
document: Jean-Michel Gobat, qui m'a aimablement accueilli dans son laboratoire,
François Gillet, Alexandre Buttler, Romain Douard et Sylvie Barbalat, qui ont relu et
amélioré ce texte grâce à leurs précieuses remarques, et tous les collègues et amis avec
lesquels j'ai travaillé durant ces années.
Daniel Borcard, le 31 juillet 1997

Quelques notes sur l`interprétation d`une analyse factorielle ou

Transcription

Documents pareils

INVERSE D`UNE MATRICE

QUELQUES CONNECTEURS LOGIQUES (L`astérisque indique les

Mathématiques

construire son plan d`action commercial pour

La matrice avait prédit le 11 septembre (Updated)

Marketing

Dip-pen Nanomouillage

Lycée Stendhal (Grenoble) Classe de première ES Option Maths

Elaborer un plan marketing (2016)

STAGE DE FRANÇAIS Méthodes – Pratiques de