Quelques notes sur l`interprétation d`une analyse factorielle ou
Transcription
Quelques notes sur l`interprétation d`une analyse factorielle ou
Quelques notes sur l’interprétation d’une analyse factorielle ou canonique des correspondances Introduction Les quelques réflexions ci-dessous émergent de quelque 1’000 heures de consultation statistique données de 1989 à 1997. Présentées dans un langage quelquefois imagé, ce ne sont pas des vérités absolues, mais plutôt des éléments très généraux d’interprétation, utiles bien que presque jamais donnés dans les manuels. Ces éléments se sont montrés valables dans la plupart des cas rencontrés, pour autant que les données présentent quelques caractéristiques de base: un minimum de 10 échantillons (mais de préférence au moins 20), un nombre d’espèces suffisant (au moins 5) (mais de préférence pas excessif...) par rapport au nombre d’échantillons, des variables explicatives indépendantes de celles de la matrice à expliquer. Quelques cas limites par rapport à ces caractéristiques sont discutés. L’auteur de ces lignes étant d’abord zoologue, certaines options proposées ici sont entachées d’un biais relatif au comportement des organismes concernés. Pour atténuer cet effet, dans la mesure du possible, les raisons des choix présentés sont expliquées et relativisées en fonction des organismes. Il faut toujours garder à l’esprit qu’il n’y a pas de solution unique à l’exploration et à l’interprétation des données. Un peu de vocabulaire Sans faire de lexique, je précise ici le sens des termes les plus importants utilisés dans les paragraphes qui suivent. Voir aussi la Figure 1. Une analyse factorielle des correspondances (AFC) est une ordination sans contrainte, donc une méthode d'analyse de gradient qui ne nécessite pas l'intervention d'une matrice de variables explicatives. La quantité de variation des données (leur dispersion par rapport à un point moyen) est mesurée par l'inertie totale. Les tendances principales de cette variation sont décomposées en une succession d'axes factoriels orthogonaux, ordonnés par importance décroissante. Le poids de chacun de ces axes est donné par sa valeur propre. La somme de toutes les valeurs propres est égale à l'inertie totale mentionnée plus haut. Les valeurs propres d'une AFC prennent des valeurs entre 0 et (un peu moins que) 1. Une AFC peut produire au maximum un nombre d'axes égal à la plus petite dimension de la matrice de données (nombre d'échantillons ou d'espèces) moins 1. Une analyse canonique des correspondances (ACC) est une ordination avec contrainte. Dérivée de l'AFC, elle réalise une analyse de gradient dite "directe", dans laquelle interviennent deux matrices: une matrice "à expliquer", et une matrice de variables explicatives. Si cette dernière contient n variables explicatives, l'ACC produit n axes canoniques, qui sont des axes d'ordination contraints à être exprimés par une combinaison linéaire des variables explicatives. La variation qui n'a pas été expliquée par ce processus est ensuite ordonnée selon une AFC, et exprimée sous la forme d'axes factoriels "ordinaires", non contraints. Une ACC peut produire au maximum un nombre d'axes indépendants égal au nombre d'axes canoniques (donc aussi: au nombre de variables explicatives) plus les axes non contraints, ces derniers en nombre égal à la plus petite dimension de la matrice de données (nombre d'échantillons ou d'espèces) moins 1. Par commodité de langage, je réserverai le nom d'axes "factoriels" aux axes non contraints, et je parlerai d'axes canoniques pour les autres. 2 Daniel Borcard LEVP Résultats numériques et diagrammes L'usager néophyte de Canoco a souvent tendance à concentrer l'interprétation de ses analyses sur quelques diagrammes des plans factoriels principaux, au détriment des sorties numériques. En fait, les diagrammes ne devraient être utilisés que pour illustrer les éléments importants décelés dans les résultats chiffrés... Les quelques pages qui suivent montrent que la lecture de quelques valeurs clés donne rapidement des renseignements essentiels. Les graphes sont surtout utiles dans la phase de présentation des résultats, et devraient être limités à l'illustration de structures importantes. Il importe aussi de les dépouiller de tout ce qui n'est pas indispensable. Par exemple, dans les problèmes écologiques, le dessin des points-échantillons est très souvent superflu. Dans la plupart des cas, il est important de voir la distribution des espèces par rapport aux variables explicatives, puisque ces deux groupes de descripteurs sont issus de deux matrices indépendantes. En revanche, la distribution des échantillons par rapport à ces mêmes variables ne montre que ce qui est déjà contenu dans la matrice explicative! L’inertie totale et les valeurs propres L’inertie totale En ACC, la version 3.11 de Canoco donne l’inertie totale de la matrice de données avant les résultats de l’analyse. Le niveau où cette valeur se situe donne déjà des indications sur la structure de la matrice de données: - lorsqu’elle vaut environ 1, l’inertie totale trahit une matrice "dense", c’est-à-dire avec peu ou pas d’espèces rares ou d’échantillons aberrants, et peu de variation. Il est rare que des gradients bien marqués soient présents; - entre 1 et 3, on rencontre la plupart des cas où les données présentent un ou deux gradients bien marqués, mais sans excès (pas de quasi-dichotomie, où le premier axe sépare deux groupes d’échantillons presque indépendants); - de 3 à 6, on a souvent un premier axe très fort, dénotant soit un fort gradient, soit une dichotomie, et quelques gradients plus faibles. Dans d’autres cas, les gradients sont normaux mais le nombre d’espèces rares est élevé. Plus rarement encore, la matrice est composée d’une foule de petits groupes d’échantillons représentant chacun une tendance modérée, avec quelques espèces communes à l’ensemble de l’échantillonnage et un grand nombre d’espèces propres à chacun de ces petits groupes; - au-delà de 6, il faut commencer à s’inquiéter sérieusement... Soit la matrice résulte de l’assemblage de deux ou plusieurs groupes d’échantillons presque indépendants, soit le nombre d’espèces rares est très élevé. Dans les deux cas, il faut étudier de près la structure de la matrice de données avant de poursuivre l’analyse (voir plus loin). Les valeurs propres Un premier point important à souligner est qu’il faut d’abord regarder les valeurs propres elles-mêmes avant de s’intéresser au pourcentage de variation que les axes correspondants expliquent (ou absorbent, dans le cas d’une AFC). Les raisons seront exposées plus loin. La première valeur propre d’une AFC ou d’une ACC prend généralement les valeurs suivantes (les divisions sont quelque peu arbitraires!): - de 0.7 à 0.99+ : données dichotomiques. L’axe représente deux blocs d’échantillons qui n’ont presque pas d’espèces en commun. Une telle situation montre donc une trivialité, et produit des distorsions telles sur les autres axes (effet Guttman extrême!) qu’il est préférable d’analyser séparément les deux blocs. Par ailleurs, même sans tenir compte de l'effet Guttman, rien ne garantit que les deux blocs présentent les mêmes Interprétation d'une ACC 3 variables latentes dans le même ordre d'importance, et la mise en évidence d'une structure dans un bloc ne peut qu'être gênée par la présence des échantillons de l'autre bloc. - de 0.4 à 0.7: l'axe trahit un gradient bien marqué. L'effet Guttman est généralement présent, quoique moins prononcé en ACC qu'en AFC. De tels axes sont en général d'interprétation aisée, mais attention aux axes suivants, en général entachés de distorsions. - de 0.1 à 0.4: l'axe révèle une structure peu franche, quelquefois difficile à interpréter. L'effet Guttman est généralement absent. Dans le cas d'une AFC, la matrice ne présente pas de structure forte. Dans le cas d'une ACC, vérifier la première valeur propre non contrainte (axe n+1 si on a introduit n variables explicatives dans l'analyse). Si cette valeur propre non canonique est plus élevée que la première valeur propre canonique, on a probablement omis de l'analyse une ou plusieurs variables explicatives importantes. - moins de 0.1: matrice dépourvue de structure claire ou (dans le cas d'une ACC), variables explicatives mal choisies. Valeurs propres d'une analyse factorielle des correspondances Valeur propre (poids) 0.6 0.5 0.4 0.3 Axes factoriels 0.2 0.1 19 17 15 13 11 9 7 5 3 1 0 Numéro de l'axe 0.5 0.4 0.3 Axes canoniques 0.2 Axes factoriels 0.1 23 21 19 17 15 13 11 9 7 5 3 0 1 Valeur propre (poids) Valeurs propres d'une analyse canonique des correspondances Numéro de l'axe Figure 1: Exemple de hiérarchie des axes d'une AFC et d'une ACC de la même matrice de données, qui présente des structures bien marquées, et bien expliquées par l'ACC. L'inertie totale vaut ici 2.4. Pour plus de détails, voir Borcard et Buttler (1996). On devine maintenant pourquoi la valeur propre elle-même en dit plus que le pourcentage de variation expliquée. Pour illustrer ce propos, imaginons un gradient bien marqué, présent dans une matrice sans autre tendance forte et comportant peu d’espèces rares 4 Daniel Borcard LEVP (inertie totale = 2.0). Ce gradient se révèlera par une valeur propre de l’ordre de 0.6 sur le premier axe, et représentera une proportion importante de la variation totale de la matrice (par exemple 0.6/2.0 = 30%). Par contre, si ce même gradient est présent dans une matrice qui comporte d’autres gradients importants ou qui renferme beucoup d’espèces rares (p.ex. inertie totale = 5.0), il sera révélé par une valeur propre semblable, mais représentera une proportion de variation bien plus faible (par exemple 0.6/5.0 = 12%). Il faut bien comprendre que ce gradient a exactement la même signification écologique dans les deux matrices. Simplement, le contexte est différent, soit parce que, dans le deuxième cas, on a échantillonné un plus grand nombre de variantes du milieu, soit parce que celui-ci est plus hétérogène, ou encore parce qu’on a affaire à des organismes à forte mobilité (activité exploratoire...), etc... Dans le même ordre d'idées, on s'alarme souvent à tort lorsqu'on découvre qu'une ACC n'explique "que" 15 ou 25% de variation. Les raisons sont multiples: - il faut avant tout garder à l'esprit que la complexité des interactions qui ont généré les communautés échantillonnées est telle qu'elle interdit a priori une interprétation exhaustive de la variation. Même en négligeant les variations dites aléatoires, il est impensable d'espérer mesurer et coder toutes les sources de variation, biotiques et abiotiques, avec ou sans décalages temporels, etc. - par ailleurs, l'exemple donné plus haut montre qu'une même quantité absolue de variation expliquée peut représenter une proportion très différente de l'ensemble de la variation, suivant la structure du reste des données. A ce sujet, la marche à suivre en cas de faible pourcentage de variation expliquée par l'ensemble de l'analyse est la suivante: (1). Examiner les valeurs propres absolues (et non les pourcentages) des premiers axes canoniques. (2). Examiner les valeurs propres absolues des axes non-canoniques, c'est-à-dire celles qui suivent les valeurs propres canoniques; (3). Si, en (1), la valeur du premier axe est supérieure à 0.3 (environ) -> (4); sinon, > (5) (4). Comparer les points (1) et (2). Si les deux ou trois premiers axes canoniques sont plus grands que les deux ou trois premiers axes non-canoniques, le choix des variables explicatives est bon. Le faible pourcentage d'explication totale est alors souvent dû à la présence d'un grand nombre d'espèces rares, et/ou à la présence d'un grand nombre d'axes mineurs générés par de petits groupes d'échantillons qui se distinguent les uns des autres par la présence d'une ou deux espèces caractéristiques. Par contre, si les premières valeurs propres non canoniques sont plus grandes que les premières valeurs propres contraintes, les variables explicatives introduites dans le modèle n'expliquent pas les structures principales de la matrice. Il faut revoir les hypothèses du travail, au besoin en poussant plus loin l'exploration des axes non contraints (qui sont en fait une AFC de la variation non expliquée!). (5). Comparer les points (1) et (2). Si les deux ou trois premiers axes canoniques sont plus grands ou égaux aux deux ou trois premiers axes non-canoniques, la matrice de données est peu structurée, mais le choix des variables explicatives est bon. Le faible pourcentage d'explication est alors dû au fait que les données comportent de nombreuses tendances mineures, certaines ayant été expliquées par les variables environnementales, d'autres pas. Par contre, si les premières valeurs propres non canoniques sont plus grandes que les premières valeurs propres contraintes, les variables explicatives introduites dans le modèle n'expliquent pas les structures principales de la matrice. A ce point, le diagnostic dépend des valeurs propres non contraintes: Interprétation d'une ACC 5 (5a). si la première de ces valeurs propres non contraintes dépasse 0.3, chercher un ou plusieurs facteurs explicatifs importants mais oubliés; (5b). si elle est inférieure à 0.3, on a mal choisi les variables explicatives, mais il y peu de chances d'en trouver qui expliquent une bonne part de variation, car la matrice de données est peu structurée. Remarque: il peut arriver qu'on sache par avance que les variables environnementales n'expliquent que des structures mineures, et qu'on veuille simplement tester si cette explication est significative. Même si, dans le sens de ce qui précède, le choix des variables explicatives est "mauvais", cette opération est tout à fait admissible. Un des intérêts de l'ACC réside précisément dans sa capacité à faire ressortir des structures qui sont soit mineures, soit "diluées" dans plusieurs axes mineurs d'une AFC. Le problème des espèces rares Une des questions les plus épineuses à résoudre dans le cadre d'ordinations comme l'AFC ou l'ACC est celle des espèces que je qualifie ici de "rares", c'est-à-dire celles qu'on ne rencontre que dans une fraction mineure des échantillons de la matrice de données1 . La présence de ces espèces a pour conséquence l'introduction d'une grande quantité de zéros dans la matrice, et l'augmentation quelquefois vertigineuse de l'inertie totale. Le problème consiste donc à en tenir compte d'une manière ou d'une autre dans l'interprétation des données sans leur permettre de perturber les analyses statistiques. En botanique, lorsqu'on trouve une espèce, même à un seul exemplaire, on sait que le milieu réunit au moins les conditions minimales nécessaires à sa survie (quitte à discuter de la manière dont la plante est arrivée là, si elle est accidentelle ou non, etc.). Les espèces rares sont souvent concentrées dans un ou quelques échantillons isolés, dont elles peuvent être considérées comme caractéristiques. Dans ce cas, une analyse globale permet de faire ressortir le ou les échantillons concernés sur un axe factoriel important. Le constat étant fait, on peut continuer l'analyse après retrait des échantillons en question, ce qui élimine du même coup les espèces qui leur sont propres. Le problème des échantillons isolés est traité plus loin. En zoologie, par contre, la présence d'un spécimen dans un piège ou un échantillon de sol n'implique nullement que l'espèce est installée sur le site, ni que le spécimen capturé aurait pu s'y maintenir. Cette situation est le reflet de la capacité des animaux concernés à explorer activement leur milieu. Malheureusement, il en résulte qu'on ne peut pas admettre a priori qu'un exemplaire isolé fournit une information pertinente. Dans les matrices de données, le cas le plus fréquent est celui d'espèces présentes à raison d'un ou deux exemplaires et dispersées dans l'ensemble de l'échantillonnage. Or, non seulement ces espèces ne donnent aucune structure interprétable à la matrice de données, mais elles gonflent inutilement la variation totale et perturbent l'analyse. La signification et les conséquences du maintien ou du retrait de certaines espèces de l'analyse peuvent être importantes. Or, souvent, dans l'esprit du chercheur, il y a confusion entre les considérations écologiques de la recherche et les impératifs techniques de l'analyse, ce qui mêne parfois à des décisions "au coup par coup" difficiles à justifier. C'est la raison pour laquelle je propose plus loin une démarche objective permettant de mettre en évidence les situations évoquées ci-dessus, et d'agir en conséquence. Avant tout, il faut absolument se rappeler que les méthodes d'ordination comme l'AFC et l'ACC sont faites pour dégager des tendances générales, et non pour interpréter des exceptions! Non seulement on n'a pas besoin d'une AFC ou d'une ACC pour mettre en évidence les espèces présentes à un ou deux exemplaires seulement (un tri du tableau de données suffit), mais de plus ces analyses souffrent de leur présence. Les ordinations sont là avant tout pour mettre en évidence des structures 1 J'utilise donc ici le mot "rare" dans un sens purement technique, limité à la matrice de données traitée par l'analyse. 6 Daniel Borcard LEVP concrétisées par des variations d'abondance d'espèces communes et des successions de taxa partagés par des sous-ensembles non négligeables du jeu de données. Ces structures sont souvent délicates à mettre en évidence, en particulier si on subit l'interférence de la partie la plus "bruyante" des données. Comment procéder dans la pratique? La démarche proposée ici découle du raisonnement ci-dessus, et consiste à vérifier par étapes l'influence des espèces rares sur les structures dominantes de la matrice de données. Bien que la séquence d'analyses ci-dessous puisse se faire par ACC, je recommande de procéder par AFC, sans contrainte aucune. 1. Lors de la préparation de la matrice de données, ne pas oublier d'ordonner l e s espèces par fréquence absolue2 décroissante (et non par ordre décroissant d'abondance!). Ainsi, il sera facile dans Canoco d'"éplucher" les données en retirant d'un coup toutes les espèces présentes une seule fois, puis deux, etc. 2. Faire une première AFC en gardant toutes les espèces, et en évitant toute forme de pondération (type downweighting of rare species). Si le contexte demande de transformer les données [p.ex. ln (y+1)], on peut le faire sans problème, à condition de s'en tenir toujours à la même transformation dans les analyses ultérieures! Noter l'inertie totale et les quelques premières valeurs propres (et non les pourcentages de variance expliquée!). Le nombre de valeurs propres à noter dépend de leur valeur et de l'appréciation de l'usager: il s'agit ici de garder le contrôle sur les structures principales dégagées par l'analyse. 3. Faire une deuxième AFC en donnant un poids de zéro à toutes les espèces présentes une seule fois. Noter à nouveau l'inertie totale et les quelques premières valeurs propres. Cette première étape va permettre de différencier les situations évoquées plus haut: espèces rares concentrées dans quelques échantillons ou dispersés dans toute la matrice. 3a. Dans le premier cas, l'inertie totale baisse, ainsi que les premières valeurs propres. C'est la signature de la présence d'un ou quelques échantillons clairement différents des autres en raison d'un cortège d'espèces qui leur sont propres. On trouve alors le ou les échantillons concernés à l'extrémité d'un des premiers axes factoriels. Lorsque la présence de ces échantillons engendre des déformations (effet Guttman), on peut les retirer des données (en les considérant comme un groupe à part), ce qui retire du même coup leurs espèces propres, et reprendre l'analyse du reste de la matrice. 3b. Le retrait d'espèces rares réparties dans toute la matrice a généralement pour effet de faire baisser l'inertie totale, mais pas (ou très peu) les premières valeurs propres. Ainsi, on a diminué le "bruit" de la matrice sans toucher aux structures principales! Bien entendu, le pourcentage de variance expliquée a augmenté. On remarquera que dans les deux cas on finit par retirer les espèces rares de la matrice, mais avec un sous-entendu différent. En 3a, on estime avoir saisi leur signification (caractéristiques d'un ou quelques échantillons très différents du reste), et en 3b on retire des espèces dont on ne peut tirer aucune information comparative: en effet, la présence d'une espèce dans un seul échantillon n'ajoute à l'analyse qu'un point-espèce superposé à celui de l'échantillon, mais sans variance propre, et donc sans moyen de diagnostic sur la distribution de l'espèce dans le milieu concerné. "Un seul témoin = pas de témoin"! 4. Faire une troisième AFC en retirant les espèces présentes une ou deux f o i s dans la matrice. Noter à nouveau l'inertie totale et les quelques premières valeurs propres. A ce stade, l'opération peut avoir le même effet que la première (baisse de l'inertie totale, mais (presque) pas des premières valeurs propres). Dans ce cas, on peut poursuivre avec 3 présences, etc. Si les premières valeurs propres commencent à baisser notablement, voir en 5. 2 Fréquence absolue: nombre d'échantillons où l'espèce est présente. Si l'on divise cette fréquence absolue par le nombre total d'échantillons, on obtient la fréquence relative ou constance. Interprétation d'une ACC 7 5. Le critère d'arrêt dépend alors du problème. Il y a forcément une part d'arbitraire. Pour aider à la décision, je calcule le pourcentage de baisse de l'inertie totale et je le compare aux pourcentages de baisse de chacune des valeurs propres notées. Ces pourcentages doivent être calculés à chaque étape par rapport à la première étape (et non l'étape précédente!). Dans le cas de données entomologiques, lors des deux ou trois premières étapes, l'inertie totale baisse généralement de façon sensible (20% et plus), alors que les premières valeurs propres sont peu affectées (5% pour la première, un peu plus pour les suivantes). Lorsque la plus faible des valeurs propres retenues pour examen commence à "souffrir", on arrête l'opération une étape plus haut. Cette méthode repose sur l'idée que les structures importantes (au sens de l'AFC ou de l'ACC: les tendances centrales!) de la matrice de données ne reposent pas sur les espèces rares. Ces structures ressortiront d'autant mieux qu'elles seront plus épurées du "bruit" ou d'échantillons isolés. Le résultat devrait donc être une matrice de données débarrassée d'une partie de sa variation inutilisable dans le cadre d'AFC ou d'ACC. Souvent, on réutilisera cette même matrice épurée pour des groupements, ce qui permettra une comparaison directe de ces deux approches. Par contre, il est bien clair que des analyses de diversité reposent sur un tout autre raisonnement, et peuvent précisément tirer parti de toutes les espèces pour glaner de l'information que les ordinations ou groupements ne peuvent pas fournir! On s'efforcera donc de jouer sur cette complémentarité, tout en se servant dans chaque approche de la partie des données la mieux adaptée aux techniques d'analyse mises en oeuvre. Notons qu'on peut toujours projeter les espèces rares a posteriori dans une AFC ou ACC en les affectant d'un poids de 0.01, si l'on tient à les faire figurer dans les diagrammes d'ordination. Echantillons isolés Une autre épine dans le pied de l'analyste de données se nomme "échantillon isolé" (singleton, outlier...). Dans des données dont les tendances sont le plus souvent formées de continuums, comment définir un seuil au-delà duquel un échantillon peut ou doit être mis de côté? Là encore, il n'y a pas de réponse unique. Quelques programmes proposent des procédures de détection. Je me borne ici à quelques considérations générales. Les cas les plus aisés sont ceux où un échantillon reste isolé dans un groupement, et produit un axe à lui tout seul dans une ordination (c'est-à-dire que l'objet se trouve isolé d'un côté de l'axe avec une coordonnée nettement supérieure [ou inférieure] aux autres). Quelle que soient les caractéristiques qui l'ont démarqué, un tel échantillon peut être retiré de la suite des opérations pour deux raisons: 1. Sa présence peut provoquer des distorsions des axes factoriels subséquents, et 2. L'analyse a rempli son but, puisque l'échantillon en question a été détecté! La situation devient d'autant plus délicate que l'échantillon suspect se rapproche plus des autres. Personnellement, comme je suis issu de l'entomologie où les échantillons sont souvent peu nombreux et coûteux, mais les espèces notoirement mobiles, je suis vite enclin à éliminer des espèces, mais je répugne à retirer des échantillons. Lorsque l'échantillon est clairement perturbé (incomplet par suite de mauvais traitements divers), pas de problème. Lorqu'il provient de façon sûre d'un milieu différent des autres (p.ex. une bouse de vache au milieu d'un pâturage), je peux éventuellement le retirer si je ne suis pas intéressé a priori au rapport de ce milieu avec mon sujet principal. Mais si un échantillon diffère fortement des autres pour des raisons inconnues, je préfère commencer par l'examiner à la fois sous l'angle de ses espèces et de ses descripteurs environnementaux. Il arrive que je trouve la raison dans une anomalie de distribution d'une espèce abondante, ou encore dans l'occurrence d'une caractéristique environnementale unique. Dans ce cas, je note mon interprétation, et je conserve éventuellement l'échantillon s'il ne perturbe pas trop l'analyse sur le plan technique (p.ex. génération d'un axe d'ordination important). Si la perturbation est forte, je retire l'échantillon isolé et le projette passivement dans l'ordination, ce qui me permet de le situer par rapport au reste du jeu de données, mais uniquement sur la base des espèces que cet 8 Daniel Borcard LEVP échantillon partage avec le reste des données. Enfin, le cas (plus fréquent en botanique) d'un échantillon contenant plusieurs espèces qui lui sont propres a été évoqué plus haut. Lorsque le jeu de données contient non pas un, mais plusieurs échantillons très différents de la majorité, il faut d'abord vérifier si ces échantillons forment un groupe à part ayant une homogénéité interne. Dans ce cas, on a peut-être affaire à un ensemble de données dichotomique, qu'on peut partager en deux pour l'analyse (voir plus haut). Si ce n'est pas le cas, c'est-à-dire si les échantillons isolés diffèrent autant les uns des autres que du groupe d'échantillons principal, le cas de chaque singleton doit être examiné individuellement. Nombre de variables explicatives Il arrive malheureusement que le coût d'un échantillon (en temps ou autre ressource) soit très élevé, de sorte que des études doivent être conduites sur la base d'un nombre très faible d'échantillons. Il importe alors d'être attentif au nombre de variables explicatives (et donc d'hypothèses) dont on veut tester l'effet, pour des raisons à la fois méthodologiques et techniques. Sur le plan de la méthode, il est toujours préférable de bâtir des prémodèles conceptuels économiques en hypothèses. Techniquement, on sait qu'il faut veiller à ne pas multiplier le nombre de tests, les corrections du seuil de probabilité pour tests multiples conduisant rapidement à une perte totale de puissance avec un petit échantillonnage. On peut aussi se souvenir que lorsqu'on atteint un nombre de variables explicatives égal à la plus petite dimension de la matrice de données moins 1, une ACC n'est plus contrainte et on réalise en fait l'équivalent d'une AFC avec variables explicatives a posteriori! En effet, on fournit alors assez de variables explicatives pour accommoder tous les degrés de liberté de la matrice de données. Canoco affiche donc 100% de variation expliquée, mais cela ne signifie rien du tout: on aurait réalisé le même score avec des variables explicatives constituées exclusivement de bruit! De plus, en régression, on "explique" toujours quelque chose dans les données, quelles que soient les variables explicatives introduites dans le modèle. Cet effet est facile à mettre en évidence. Lors d'un essai avec des données d'abondance d'Oribates, j'ai fabriqué 20 variables "explicatives" aléatoires (chaque variable était donc faite de bruit uniquement). A l'aide d'ACC incluant différents nombres de variables explicatives, j'ai pu constater que le pourcentage de variation "expliquée" par mes descripteurs aléatoires était plus ou moins égal au nombre de variables explicatives divisé par la plus petite dimension de la matrice de données. Par exemple: 50 échantillons 60 espèces 20 variables explicatives => 20/50 = 40% var. expl. 50 échantillons 30 espèces 20 variables explicatives => 20/30 = 67% var. expl. 20 échantillons 30 espèces 10 variables explicatives => 10/20 = 50% var. expl. Notons tout de même que les tests sur les axes canoniques réalisés de la sorte ne sont pas significatifs. Il est donc important de tester ces axes, ne serait-ce que pour s'assurer qu'on n'a pas affaire à cet effet pervers de la régression linéaire. Sélection pas-à-pas des variables explicatives (Forward selection of environmental variables) Deux questions me sont souvent posées au sujet de cette méthode: quand l'appliquer et quel seuil de probabilité utiliser? Quand appliquer la sélection pas à pas? On applique la sélection pas à pas lorsqu'on veut réduire le nombre de variables explicatives dans un modèle régressif. La raison de cette volonté varie selon les études, mais deux cas me sont fréquemment soumis: (1) certaines variables explicatives sont Interprétation d'une ACC 9 fortement corrélées entre elles et on désire éliminer quelques-unes des variables trop corrélées, ou (2) le nombre de variables explicatives est trop important par rapport à la taille de la matrice de données. Malheureusement, ces deux cas sont fréquemment des situations où l'on veut faire de la "statistique-pompier", c'est-à-dire où on demande à la statistique de pallier a posteriori les déficiences du plan de travail et des données... Dans le premier cas, dans Canoco, on décèle la trop forte collinéarité des variables explicatives au moyen des "inflation factors". Selon ter Braak, aucun de ces facteurs ne doit dépasser 20 3 . Mais attention: si une ou plusieurs variables dépassent cette valeur, ce ne sont pas forcément (toutes) celles-là qu'il faut éliminer aveuglément de l'analyse! Il est préférable d'examiner les corrélations entre toutes les variables explicatives et de décider sur des critères biologiques lesquelles sont moins indispensables. La décision dépend du contexte. Par exemple, dans le cas d'une étude de communautés où l'altitude et la température moyenne sont très corrélées, on peut être intéressé à l'effet direct de la température, qu'on retiendra donc pour l'analyse, mais on peut aussi chercher une bonne variable synthétique des conditions climatiques générales, auquel cas l'altitude sera plus appropriée. Dans le cas du nombre trop grand de variables explicatives, il est aussi préférable de privilégier une approche écologique. Vérifier pour chaque variable l'intérêt de l'hypothèse, éliminer les variables mesurées "pour-si-jamais-des-fois", puis faire comme ci-dessus, calculer les corrélations entre toutes les paires de variables restantes et éliminer les variables moins intéressantes en cas de collinéarité. Si on passe ensuite à la régression pas à pas, il faut se rappeler que cette méthode comporte quelques inconvénients (discutés par Legendre et Legendre (1984), tome 1, pp.104-105): rien ne garantit que le sous-ensemble de variables sélectionnées est celui qui explique le plus complètement les données, et, en cas de collinéarité des variables explicatives, et si deux variables collinéaires rentrent tout de même dans le modèle, le coefficient de régression de la deuxième sera probablement sous-estimé. En tous les cas, l'introduction d'une variable donnée dans un modèle conditionne toute la suite de la sélection pas à pas. Non seulement le sous-ensemble de variables séectionnées peut changer, mais les coefficients de régression (et donc l'estimation de l'importance relative) des variables retenues peut varier fortement. Quel seuil de probabilité utiliser lors d'une sélection pas à pas? Deux philosophies s'affrontent: soit on considère cette approche comme un cas particulier de la régression multiple et, conceptuellement, on réalise un test, soit on estime que la répétition de tests à chaque étape est une situation de tests multiples. Dans le premier cas, on choisit un seuil convenable, généralement 1% ou 5%, et on conserve ce seuil pour chaque test. Dans l'autre cas, on apporte une correction du seuil de probabilité pour tests multiples. L'idée générale est qu'en proposant plusieurs variables, on multiplie les chances que l'une d'entre elles soit significative au seuil choisi. La parade la plus simple, appelée correction de Bonferroni, consiste à diviser le seuil de rejet par le nombre de tests à réaliser. Par exemple, pour un seuil global de 5% et 6 tests à faire, on ne retiendra que les variables qui "passent" à 5% / 6 = 0.83% Cette correction simple présente toutefois l'inconvénient d'être trop conservatrice lorsqu'il y a plus qu'une variable explicative réellement significative en lice. La tendance est actuellement de nuancer la correction de Bonferroni en la rendant séquentielle, c'est à dire en recalculant le seuil de rejet après chaque test sur la base du nombre de variables 3 Une exception est le cas de la régression polynomiale, où les variables explicatives sont des polynômes bâtis sur certaines variables du modèle, par exemple les coordonnées x et y des échantillons. Dans ce cas, les nouvelles variables sont forcément collinéaires et les inflation factors très élevés. En l'occurrence, cela importe peu tant qu'on interprète le résultat de l'analyse sur le plan global, sans mettre l'accent sur les coefficients canoniques individuels. 10 Daniel Borcard LEVP restantes. Pour un seuil global de 5% et 6 variables explicatives, la procédure est la suivante: 1. Premier test: 6 variables en lice. Correction du seuil: 5% / 6 = 0.83% 2. Si aucune variable n'est significative à 0.83%, on arrête la procédure. Si une variable peut être introduite dans le modèle, on passe au point 3. 3. Deuxième test: il reste 5 variables en lice. Correction: 5% / 5 = 1% 4. Si aucune variable n'est significative à 1%, on arrête la procédure. Si une variable peut être introduite dans le modèle, on passe au point 5. 5. Troisième test: il reste 4 variables en lice. Correction: 5% / 4 = 1.25% etc. Divers Je passe ici en revue quelques "FAQ" 4 de l'interprétation d'AFC ou d'ACC. Nombre de permutations dans les tests La première évidence qu'il faut (tout de même...) rappeler est que la précision du résultat dépend du nombre de permutations. Il est clair qu'avec 99 permutations + la vraie valeur, la précision sera de 1%. On ne pourrait donc pas réaliser l'exemple ci-dessus, où le premier seuil est de 0.83%, avec 100 permutations seulement. Un autre aspect est la fiabilité. Le principe d'un test de Monte Carlo est qu'on échantillonne les réalisations de l'hypothèse nulle pour les confronter avec la vraie valeur. Donc, plus l'échantillonnage (= le nombre de permutations) sera élevé, plus on cernera avec précision la distribution de référence. En général, lorsque j'explore mes données, et si le seuil exigé le permet, je travaille avec 99 permutations tant que la vraie valeur F est très supérieure aux valeurs aléatoires, et je passe à 999 permutations lorsque cet écart diminue. Pour l'analyse finale, celle qu'on conservera, il vaut toujours mieux travailler avec au moins 1000 répétitions (la vraie valeur + 999 permutations aléatoires). Faut-il utiliser les "Sample scores" ou les "Sample scores which are linear combinations of environmental variables" dans les diagrammes? Les "Sample scores" (tout court) sont les coordonnées des objets dans l'espace des espèces. Ce sont donc celles-ci qu'on utilise pour les projeter avec les espèces et les variables explicatives. Les "Sample scores which are linear combinations of environmental variables" sont le résultat de la régression des "Sample scores" ci-dessus sur les variables explicatives. Il s'agit donc, réellement, du modèle ajusté par Canoco. Pour chaque axe canonique, la corrélation entre les deux séries de coordonnées est la Species-environment correlation de Canoco. Permutations limitées avec Canoco Lorsqu'on a réalisé une ACC avec des covariables, Canoco demande lors des tests si l'on veut conditionner les permutations sur les covariables. Cette variante est à conseiller si les covariables définissent un petit nombre de blocs dans les données (p.ex. 3 classes de sol). Il faur avoir pris soin de placer les covariables correspondantes en tête de fichier, car Canoco demande si on conditionne les permutations sur les 1, 2, 3 ... n premières covariables. Les permutations sont alors réalisées à l'intérieur de chaque bloc de données, évitant ainsi des réalisations triviales de l'hypothèse nulle. D'autres types de permutations limitées s'imposent aussi lorsque les données sont organisées en une série spatiale ou temporelle, afin d'éviter de détruire la structure d'autocorrélation des données lors du test. 4 FAQ = frequently asked questions Interprétation d'une ACC 11 Enfin, lorsque certains plans d'échantillonnage requièrent des algorithmes de permutations plus sophistiqués, Canoco offre la possibilité d'introduire son propre fichier de permutations. Remerciements Je remercie très chaleureusement les personnes qui ont permis la réalisation de ce document: Jean-Michel Gobat, qui m'a aimablement accueilli dans son laboratoire, François Gillet, Alexandre Buttler, Romain Douard et Sylvie Barbalat, qui ont relu et amélioré ce texte grâce à leurs précieuses remarques, et tous les collègues et amis avec lesquels j'ai travaillé durant ces années. Daniel Borcard, le 31 juillet 1997