analyse qualitative de tests de classement en ligne pour les langues
Transcription
analyse qualitative de tests de classement en ligne pour les langues
L’évaluation des compétences en milieu scolaire et en milieu professionnel ANALYSE QUALITATIVE DE TESTS DE CLASSEMENT EN LIGNE POUR LES LANGUES : ACCEPTANCE ET ROLE DE L’AUTOEVALUATION Catherine Blons-Pierre*, Patricia Kohler**, Cornelia Gick***, Sergio Hoein****, Hervé Platteaux***** * Université de Fribourg (Suisse), [email protected] ** Université de Fribourg (Suisse), [email protected] *** Université de Fribourg (Suisse), [email protected] **** Université de Fribourg (Suisse), [email protected] ***** Université de Fribourg (Suisse), [email protected] Mots-clés : tests de classement en ligne, coefficient Kappa de Cohen, analyse qualitative, acceptance Résumé. Le Centre de langues de l’université bilingue de Fribourg en Suisse a mis en place avec la collaboration du Centre Nouvelles Technologies et Enseignement des tests de classement (placement tests) en ligne et adaptatifs pour l’allemand, l’anglais, le français et l’italien, langues étrangères. Ces tests font régulièrement l’objet d’analyses quantitatives et qualitatives. L’étude présente est destinée, d’une part, à réfléchir sur les avantages et les contraintes liés à l’automatisation des tests et de l’inscription et, d’autre part, à présenter une analyse statistique des tests pour le français et l’allemand faite à l’aide du coefficient Kappa de Cohen, qui permet d’évaluer le degré d’accord entre l’autoévaluation effectuée par les testés et le résultat de l’évaluation proposé par le test de classement. Cette analyse statistique est complétée par une analyse qualitative de ces tests (acceptance), effectuée à l’aide des données recueillies auprès d’un échantillon d’étudiants au moyen d’entretiens. 1. Introduction En 2008, le Centre de langues de l’Université de Fribourg (Suisse) a décidé de développer un dispositif de tests de classement (placement tests) en ligne et adaptatifs, destinés à constituer des groupes classes homogènes. Ces tests en ligne ont été implémentés sur la plateforme d’enseignement Moodle et complétés par un système d’inscription en ligne, qui automatise complètement le processus d’inscription et d’admission aux cours de langues. Un certain nombre de questions ont été prises en considération par le Centre de langues, le Rectorat et le Centre Nouvelles Technologies et Enseignement avant de se lancer dans l’aventure organisationnelle, pédagogique et technologique que représente le passage du test papier progressif au test en ligne adaptatif, comme par exemple : Quels peuvent être les avantages d’une telle (r-)évolution au regard de l’institution académique, de l’administration, du personnel enseignant et également de l’usager ? Y a-t-il des limites ou du moins des contraintes liées à la mise en place d’un tel dispositif ? Comment peut-on mesurer la qualité des tests et évaluer leur acceptance auprès des étudiants ? L’autoévaluation des étudiants pourrait-elle suffire pour constituer des classes de niveaux homogènes rendant ainsi les tests de classement inutiles ? 1 L’évaluation des compétences en milieu scolaire et en milieu professionnel Ce sont ces questions primordiales, qui touchent à la qualité du dispositif et à la validité de nos tests en ligne, que nous allons traiter dans cette contribution. 2. Avantages et contraintes liés à l’automatisation des tests et des inscriptions Les avantages du test en ligne par rapport au test papier sont, pour l’institution, la rapidité du processus et la disponibilité des personnels enseignants et administratifs, qui se trouvent déchargés, grâce à l’automatisation du processus, de l’organisation lourde liée à la passation des tests de classement papier : manutention du matériel, présence de surveillants, corrections des tests et traitement des inscriptions en différé, après les corrections manuelles. Pour les enseignants et les étudiants, sur un plan pédagogique, le test en ligne donne l’assurance que les étudiants bénéficient exactement des mêmes modalités d’évaluation. Pour les étudiants, s’ajoute l’avantage du choix du moment et de l’endroit où ils décident de passer ce test. Néanmoins, pour que l’évaluation soit valide et fidèle, il convient de mettre en place des processus capables de mesurer les différents paramètres en œuvre dans les tests en ligne et permettant de faire évoluer la qualité de cette évaluation. Depuis le début, nos tests sont analysés à l’aide de statistiques quantitatives et d’analyses qualitatives. La validité et la fidélité des items des différents tests sont analysées à l’aide de la théorie de réponse aux items (modèle de Rasch). Ces analyses nous ont permis de faire évoluer les banques d’items et d’assurer ainsi une progression de la qualité à ce niveau1. L’aspect de la qualité des tests pose également d’autres questionnements, qui requièrent des types d’analyses différents. Les deux points importants à examiner lorsque l’on passe des tests papier aux tests en ligne paraissent être, d’une part, l’acceptance de ce nouveau dispositif par les usagers : ergonomie du test, conditions de passation, et, d’autre part, la mesure de l’écart entre l’autoévaluation et l’évaluation faite par le test en ligne. Il existe, en effet, depuis le développement du Cadre européen commun de référence pour les langues (CECR), des descripteurs permettant aux individus désireux d’apprendre une langue d’évaluer leur niveau de façon autonome. Dès lors, il est légitime de s’interroger sur l’utilité de faire des tests de classement si l’autoévaluation est suffisamment fiable ; il est donc important de vérifier quelle est l’intensité de l’accord constaté entre l’autoévaluation et le résultat des tests. L’étude qui suit est destinée à présenter l’analyse de ces tests faite à l’aide du coefficient Kappa de Cohen, qui permet d’évaluer le degré d’accord entre l’autoévaluation faite par les testés et le résultat de l’évaluation proposé par le test de classement pour la compréhension orale, la compréhension écrite ainsi que le lexique et les structures de la langue. Cette analyse statistique sera, dans un deuxième temps, complétée par une évaluation d’acceptance de ces tests de classement, effectuée à l’aide des données recueillies auprès des étudiants au moyen d’entretiens. Ces deux types d’analyse sont présentés pour les tests de classement utilisés pour le français langue étrangère et l’allemand langue étrangère. Ils sont complémentaires. 3. Analyse qualitative des tests en ligne à l’aide de l’indice Kappa de Cohen 3.1 Méthodologie pour mesurer l’écart entre autoévaluation et résultats obtenus aux tests Nous sommes partis du recueil des données du semestre d’automne 2010 complétés par les données du recueil du semestre de printemps 2011 pour les tests de français (FLE) et allemand 1 Voir in L’évaluation des compétences en milieu scolaire et en milieu professionnel, Analyse de validité des tests de classement en ligne pour les langues à l’aide du modèle de Rasch, Gick, Platteaux, Hoein, BlonsPierre, Kohler. 2 L’évaluation des compétences en milieu scolaire et en milieu professionnel (DaF) langues étrangères. Ces données permettent de comparer les résultats de l’autoévaluation avec les résultats des tests. Dans notre cas, on est amené à comparer deux jugements : celui de l’étudiant qui s’autoévalue et celui du test. Pour ce faire nous avons choisi d’utiliser l’indice Kappa de Cohen car nous traitons des variables nominales et non des variables ordinales2. Il convient en outre de préciser que la fonction de l’autoévaluation diffère dans les tests pour le français (FLE) et pour l’allemand (DaF). Dans le test FLE, l’autoévaluation joue le rôle de pré-test proposé au début de chaque sous-test (compréhension orale, compréhension écrite, lexique et structure) alors que, dans le test DaF, le pré-test est assuré par un sous-test de lexique et structure et l’autoévaluation se trouve à la fin du test. 3.2 Les différentes étapes de l’analyse Il s’agit tout d’abord de préparer les données en repérant les valeurs manquantes ou aberrantes. Il faut ensuite créer la matrice de confusion ou tableau de contingence. Cette matrice s’obtient en utilisant un tableau croisé dynamique. Par exemple, si l’on considère les données permettant de croiser les résultats obtenus par les étudiants pour la compréhension écrite au test de français du semestre d’automne 2011 (SA 2011) avec leur autoévaluation pour cette même compétence, on obtient le tableau suivant : Niveau CE A1 test A2 test B1 test B2 test C1 test Total A1 autoév. A2 16 2 18 B1 B2 15 37 2 2 3 49 23 3 1 79 56 C1 0 20 24 11 2 57 Total 0 3 2 1 1 7 34 111 51 17 4 217 Tableau 1 : Tableau de contingence CE SA 2011 test FLE D’après le tableau 1, on constate que sur les 217 étudiants qui ont passé le sous-test de compréhension écrite pour le français au semestre d’automne 2011 : 88 se sont autoévalués en accord avec le niveau identifié par le test 117 se sont surévalués par rapport au test 12 se sont sous-évalués. Les données présentées ci-dessus sont globalement équivalentes à un pourcentage de 40.55% d’autoévaluations en accord avec le sous-test de compréhension écrite et à un pourcentage de 59.45% d’autoévaluations en désaccord avec le sous-test. On peut également ajouter que la majorité des autoévaluations en désaccord avec le sous-test présente un écart égal en valeur absolue à 1 (voir tableau 2). Sous-évalués -1 -2 -3 Total Nombre Sur-évalués +1 +2 +3 9 3 0 12 Nombre 89 25 3 117 Tableau 2 : Nombre de sous-évalués et sur-évalués pour CE SA 2011 test FLE 2 Pour les variables ordinales, on utilisera, par exemple, l’indice W de Kendall. 3 L’évaluation des compétences en milieu scolaire et en milieu professionnel Comme le montre le tableau 2, les désaccords entre autoévaluation et résultat du sous-test de CE pour la session du SA 2011 se répartissent principalement en N+1 = 89 et N-1 = 9, soit un total de 98 pour l’écart 1 en valeur absolue et un pourcentage de 76% par rapport au nombre total des écarts constatés entre autoévaluation et résultat du sous-test. Cependant, cette première analyse, si elle donne des indications précieuses quant à la surévaluation et à la sous-évaluation, ne tient pas compte de la proportion d’accord qui peut être imputée au seul fait du hasard. Il est donc important de recourir à un type d’analyse statistique prenant en compte l’aléatoire. Le calcul du coefficient Kappa de Cohen permet cette prise en compte. En effet, ce coefficient est un indice statistique variant entre 1 et – 1, qui est utilisé pour évaluer le degré d’accord (concordance) entre deux juges par rapport à une variable nominale et non ordinale. L’accord maximal est obtenu lorsque l’indice est égal à 1, le désaccord total lorsqu’il est égal à -1. Ce coefficient peut s’interpréter comme la proportion d’éléments classés de la même manière par deux juges, ici, l’étudiant et le test ; ce qui le différencie du simple calcul d’une proportion, c’est qu’il introduit une correction pour prendre en compte le fait qu’une certaine proportion d’accord peut être imputée au hasard. Le coefficient κ se calcule en appliquant la formule suivante : Κ = (P[A] - P[H]) / (1- P[H]) avec : P[A] = proportion d’accords P[H] = proportion de cas où selon la théorie des probabilités, on peut s’attendre à un accord simplement dû au hasard3. 3.3 Les résultats de l’analyse avec le coefficient K de Cohen Pour analyser les résultats obtenus avec le coefficient K de Cohen, on peut se référer à la table de Landis et Koch (voir tableau 3), qui étalonne les résultats de ce coefficient de la manière suivante4 : Intensité de l’accord Coefficient Kappa Excellent >0,80 Bon 0,80-0,61 Modéré 0,60-0,41 Médiocre 0,40-0,21 Mauvais 0,20-0,0 Très mauvais <0,0 Tableau 3 : table de Landis et Koch Par exemple, si l’on applique le calcul du coefficient K de Cohen et la grille de lecture de Landis et Koch au test pour le français, on obtient les résultats suivants : K semestre automne 2010 Κ semestre printemps 2011 CO 0.22 0.26 compréhension orale médiocre médiocre CE 0.21 0.22 compréhension écrite médiocre médiocre LS 0.40 0.31 lexique et structure médiocre médiocre Tableau 4 : Coefficient Kappa pour test FLE semestres automne et printemps 2011 3 Pour plus d’informations sur Κ, voir http://www.irdp.ch/edumetrie/lexique/coef_kappa.htm. 4 Pour la table de Landis et Koch, voir http:/kappa.chez-alice.fr/Kappa_2juges_Def.htm 4 L’évaluation des compétences en milieu scolaire et en milieu professionnel D’après les données présentées dans le tableau 4, on peut dire que l’accord entre les variables « autoévaluation » et « résultat du test » pour le test FLE est médiocre pour la compréhension orale, la compréhension écrite et lexique et structure, de façon constante, pour les deux sessions de test : semestre d’automne 2010 et semestre de printemps 2011. Etant donné que l’autoévaluation figure dans le test FLE au début des sous-tests CO, CE et LS, on pourrait faire l’hypothèse que, n’étant pas suffisamment sensibilisé à la description des niveaux de langue, l’étudiant ne consacre pas suffisamment de temps à s’autoévaluer car il n’en perçoit pas clairement les enjeux. Cette attitude paraît, du reste, être corroborée par le fait que, au fur et à mesure de l’avancée dans le test, les étudiants ont tendance à s’autoévaluer de plus en plus rapidement, ils s’appuient en fait sur l’autoévaluation qu’ils ont faite pour le sous-test précédent et la reconduisent de sous-test en sous-test, alors même que les descripteurs sont différents pour chacun des sous-tests proposés. En effet, les habiletés et connaissances attendues diffèrent selon les niveaux et les compétences testées. Ainsi, un étudiant peut avoir un degré de compétence élevé pour la compréhension orale et un degré de compétence moindre pour la compréhension écrite et lexique et structure. Ce que le test cherche à établir c’est un profil moyen du testé, il est donc important de proposer au début de chaque sous-test une nouvelle autoévaluation qui sert d’entrée dans le sous-test adaptatif. Ceci étant posé, il paraît maintenant intéressant d’examiner si l’on obtient les mêmes écarts entre autoévaluation et résultats du test pour le test DaF, qui, lui, utilise l’autoévaluation en fin de passation du test avec un statut facultatif et, uniquement, pour la compréhension orale et la compréhension écrite. Pour ce faire, il est possible de faire une analyse comparative des coefficients K de Cohen obtenus pour les tests FLE et DaF, à l’aide du tableau suivant. CE SA 2010 CO SA 2010 CE SP 2011 CO SP 2011 Coefficient K Test FLE 0.21 0.22 0.22 0.26 Coefficient K Test DaF 0.14 0.21 0.25 0.35 Tableau 5 : coefficient K pour test FLE et test DaF Si l’on compare, d’après le tableau 5, la qualité de l’accord entre autoévaluation et résultats des tests pour les deux sessions du SA 2010 et SP 2012, on constate que le test FLE montre des résultats stables pour les deux semestres, en revanche, les variations sont plus importantes pour le test DaF : l’accord qui était jugé mauvais d’après l’indice K pour la CE au SA 2010 devient médiocre pour le SP 2011 alors que l’accord pour la CO qui se situait plutôt à la limite mauvais/médiocre au SA 2010 devient clairement médiocre pour le SP 2011. Globalement, cela traduit une légère augmentation de la qualité de l’accord entre autoévaluation et résultats du test DaF entre les deux sessions. Toutefois, que ce soit pour le test FLE ou le test DaF, l’accord entre l’autoévaluation des étudiants et les tests ne dépasse jamais le degré de qualité médiocre, ce qui signifie qu’en aucun cas on ne pourrait, à l’heure actuelle, se baser uniquement sur l’autoévaluation pour placer les étudiants dans les groupes classes si l’on a l’objectif de constituer des groupes relativement homogènes. Il semble donc important, afin de pouvoir mieux utiliser l’autoévaluation, par exemple, dans la perspective de raccourcir le temps de passation des tests adaptatifs qui ont comme point d’entrée l’autoévaluation, de réfléchir à la manière de permettre à l’étudiant de mieux s’autoévaluer. L’analyse statistique réalisée à l’aide du coefficient K de Cohen nous a permis de dresser un constat prenant en compte la part de l’aléatoire, il nous faut maintenant recourir à un autre type d’approche, l’analyse qualitative, qui a pour fonction d’analyser finement les mécanismes à l’œuvre dans le processus d’autoévaluation à travers les témoignages de ceux qui la pratiquent. 5 L’évaluation des compétences en milieu scolaire et en milieu professionnel 4. L’analyse qualitative des tests 4.1 Méthodologie utilisée pour évaluer l’acceptance des tests Nous avons procédé à des entretiens de type semi-directifs en décembre 2011 auprès d’étudiants qui avaient passé le test FLE en septembre 2011. Comme le modèle de test proposé au semestre d’automne 2010 n’a subi que de faibles modifications d’ordre formel par rapport à celui proposé en automne 2011, il nous a été ainsi possible de recueillir des données actualisées. L’objectif reste de mesurer le degré d’acceptance de l’évaluation des trois compétences (compréhension orale, compréhension écrite, lexique et structure) donnée par le test par rapport à l’autoévaluation. Quels sont les ressentis de l’usager face à l’offre de cours qui découle du résultat du test de positionnement et les représentations qu’il a de son niveau à travers l’autoévaluation ? L’étudiant est au centre de notre dispositif, en tant qu’acteur dont nous observons les réactions dans la construction des stratégies d’apprentissage à travers le discours qu’il porte sur les représentations de son niveau et les écarts entre niveau effectif et niveau ressenti, ou autoévaluation. Nous partons donc du postulat que l’étudiant possède des compétences d’agir et de réagir par rapport à l’environnement du test en ligne et qu’il convient de les rechercher à des fins d’analyse et d’amélioration du dispositif d’évaluation et d’apprentissage. Cette interaction fait de l’étudiant bien plus qu’un agent, mais un médiateur dans la mesure où il participe d’emblée à la co-construction de son pré-contexte d’étude. Cette analyse, de type qualitatif, s’effectue sur un échantillon restreint de population concernée par le seul test FLE afin de révéler les marqueurs précis des manifestations des ressentis et de rendre transparents la complexité des pratiques d’apprentissage et le rôle de l’implicite. L’échantillon des personnes interviewées est composé d’un groupe de trente-trois étudiants volontaires répartis comme suit : 10 étudiants qui suivent un cours objectif A1.1, 8 étudiants en cours objectif A1.2, 11 au niveau objectif B1 et 4 au niveau objectif B2. Dix à douze semaines après la passation du test en ligne, ces étudiants ont été invités à se présenter à l’entretien d’une durée d’environ 30 minutes, et ce, individuellement ou en groupe. La langue de l’entretien a pu varier en fonction des niveaux car il était plus facile pour l’intervieweur de laisser l’interviewé choisir entre l’anglais, l’allemand et le français afin de récolter des données les plus fiables possibles dans l’expression du ressenti des participants majoritairement anglophones ou germanophones. Les débutants n’auront ainsi jamais fait recours au français tandis que les niveaux avancés auront facilement pratiqué le passage d’une langue à l’autre ou code-switching. Le canevas d’entretien a mis l’accent sur les trois thématiques suivantes : le déroulement du test (lieu, durée, conditions-cadre), l’utilisation et la lecture des grilles d’autoévaluation (lecture, compréhension, utilisation, utilité), et le degré d’acceptance du niveau du cours suivi et déterminé par le test en ligne, par rapport à celui de l’autoévaluation. Bien que déjà globalement émises lors d’analyses antérieures (Kohler, P., Platteaux, H., & BlonsPierre, C., 2012), nos hypothèses sont déterminées par la volonté d’éviter tout biais méthodologique que constituerait l’influence des recherches déjà ou parallèlement menées, afin de mettre en lumière le seul point de vue de l’étudiant à un moment donné. Nous avons donc formulé les trois hypothèses suivantes : - Les étudiants auraient tendance à sous-évaluer ou surévaluer leur niveau de langue par rapport au niveau effectif révélé par le test en ligne. - Le niveau de césure entre la sous-autoévaluation et la sur-autoévaluation par l’étudiant de son niveau de langue par rapport au niveau effectif révélé par le test en ligne, serait lié à une représentation du savoir langagier. 6 L’évaluation des compétences en milieu scolaire et en milieu professionnel 4.2 Les stratégies de lecture des descripteurs détermineraient l’utilisation, et donc la fiabilité de l’autoévaluation dans un dispositif de test de classement en ligne pour les langues. Résultats Les entretiens ont permis de dégager des résultats portant sur les deux principaux groupes, d’une part les débutants A1.1 et faux-débutants A1.2, et d’autre part les intermédiaires B1 et B2. Ces résultats peuvent être répertoriés en deux grandes catégories que constitue le double degré d’acceptance par l’étudiant, tout d’abord celui de l’autoévaluation et de l’utilisation des descripteurs du CECR, et, d’autre part, celui de la corrélation entre cette autoévaluation et le niveau effectif attribué par le test en ligne. Comment tout d’abord l’étudiant réagit-il à l’autoévaluation et à l’utilisation des descripteurs du CECRL ? Contre toute attente, c’est l’étudiant débutant qui se livre à toute une série de réflexions sur la durée du test et le seuil de césure : « The test for beginners is too short. » « The test for beginners may not be able to distinguish A1.1 and A1.2. » Si le manque de descripteurs pour les débutants est également relevé par plusieurs étudiants, ces derniers n’hésitent pas non plus à s’exprimer sur la place où devrait se situer une éventuelle autoévaluation dans le test proposé : « It’s important to have a self-assessment test to know in what level we are. » « I would like a little of self-assessment. » « Some short assessment is nice.” « I missed the feed-back directly after the test. » Ces réflexions indiquent combien il est important de valoriser l’apprenant-agent de son apprentissage dès le test puisqu’il réclame de façon implicite le même traitement que tout autre étudiant. Il prétendrait ainsi posséder des compétences que le test ne lui aurait pas permis de mettre en œuvre ni dans l’autoévaluation, ni dans l’évaluation. Il resterait à identifier la nature de ces compétences nouvelles et à en produire le mode d’évaluation adéquate, au-delà des catégories préexistantes. Le développement de nouvelles pratiques qui se construisent par les réalités sociales de l’apprenant permettraient-elles de trouver la clé de ces nouveaux savoir-faire langagiers ? D’autre part, les remarques sur la durée du test pour les débutants confirment certains résultats antérieurement obtenus (Kohler, 2011) . Le sérieux du test serait proportionnel à sa longueur et à sa durée qui contribuent à son degré de fiabilité et d’acceptance. Nous pouvons nous interroger sur les motivations réelles d’une telle demande de la part de débutants complets dont le savoir en français reste entièrement à construire et n’a donc pas nécessairement besoin d’être autoévalué. Mais si l’étudiant le revendique, c’est qu’il semble imprégné des valeurs véhiculées par la société du savoir à laquelle il appartient, le mode d’apprentissage de ces savoirs et de leur évaluation dans la course au « capital linguistique» (Bourdieu, 2001). Le lien entre ces deux derniers résultats chez les débutants, soit la demande d’évaluation de nouveaux savoir-faire langagiers à l’intérieur d’un test plus long, reste néanmoins inattendu. Cela prouve l’importance et le rôle de l’écoute de l’usager dans l’élaboration de nouveaux outils d’évaluation comme un test en ligne afin de prendre en compte ces implicites où se réfugient des croyances socioculturelles impliquant des pratiques d’apprentissage. 7 L’évaluation des compétences en milieu scolaire et en milieu professionnel Si nous considérons maintenant le groupe des interviewés faux débutants dont nous présupposons une auto-sous-évaluation, leurs témoignages révèlent un autre élément très nouveau sur le processus même par lequel va se déconstruire ou reconstruire le capital linguistique de l’étudiant. Si la représentation de la langue étrangère se trouve réduite au seul bagage lexical, l’école est souvent citée comme le lieu d’acquisition du savoir, mais ce mot-clé est fréquemment associé à l’oubli sous la forme d’une concession rectificative : « A l’école, j’ai eu du français, mais j’ai oublié tout. » « I have learned it at school over three years but I have forgotten a lot of vocabulary. » Pour d’autres étudiants qui ne font pas référence au passé, le test en ligne est perçu comme une ouverture valorisante qui permet la reconnaissance de savoirs jusque-là méconnus de l’apprenant lui-même, surpris de sa réussite : « Je suis entrée débutant complet, mais je suis A1.2. » (sourire) « Je suis entré débutant complet mais suis inscrire pour A1.2. » (sourire) « Although I didn’t take any french course, I know some basic words A1.2. » Ce dispositif déclenche une attitude de confiance et de satisfaction visible (sourires, bonne humeur etc.). Cette base de départ peut favoriser le développement de nouvelles stratégies d’apprentissage telles que des réflexions sur le savoir et le savoir-faire, sur les interactions entre l’apprenant et l’ordinateur, la découverte de nouvelles façons d’apprendre et les nouveaux rôles complémentaires attribués à l’enseignant comme facilitateur et médiateur dans la fabrication des items de l’évaluation. Concernant notre deuxième groupe d’étudiants pour lesquels les résultats obtenus ont été significatifs, soit ceux obtenus par les intermédiaires B1/B2, plusieurs pistes méritent d’être retenues : tout d’abord, seules deux étudiantes avaient connaissance de ces outils d’autoévaluation que constituent les descripteurs. Les autres étudiants qui les consultaient pour la première fois, n’ont été aucunement gênés dans leur consultation. D’autre part, tous les étudiants de ce groupe se sont surévalués dès le départ, en compréhension orale. L’origine de ce phénomène semble essentiellement liée à leur mode d’apprentissage du français, fondé sur les approches communicatives. Enfin, ils ont été sollicités à trois reprises pour l’autoévaluation, correspondant à la phase préliminaire de chaque palier du test, soit avant la compréhension orale, la compréhension écrite, et le test de lexique et structure de la langue. Or, la durée moyenne que les étudiants interviewés consacrent à la lecture des descripteurs avant chacune de ces phases, est de plus en plus courte : environ 50 secondes pour la compréhension orale pour passer à seulement 11 secondes en lexique et structure. Cette lecture des descripteurs est donc biaisée par le phénomènetremplin déjà observé depuis 2010 (Kohler, Platteaux, Blons-Pierre, 2012). Ils ne lisent pas réellement les descripteurs proposés pour l’autoévaluation dont ils retiennent les premières et dernières lignes par compétence, sans oublier l’effet-balayage d’une lecture syntagmatique : « Ich habe überflogen… » « c’est trop compliqué… » Certains interviewés, replacés en situation de consultation des descripteurs devant l’écran d’ordinateur, citent les expressions qu’ils lisent vraiment et qui leur apparaissent comme fondamentales pour déterminer leur niveau : « basic words », « radio-télévision », « AlltagsBerufssprache », « Reisen ». Les mots-clés retenus sont donc directement liés au mode de vie et de communication de l’usager du test en ligne. 8 L’évaluation des compétences en milieu scolaire et en milieu professionnel Tous les étudiants, depuis le niveau A1.2 jusqu’à B2, ont manifesté leur satisfaction d’avoir été consultés avant le début du test par l’autoévaluation dont ils ont bien compris les enjeux et l’utilité dans le dispositif : ils gagnent du temps et ils maîtrisent leur apprentissage. Malgré la surévaluation constatée pour la totalité des étudiants B1/B2 interrogés, ils n’ont pas été insensibles à la réflexion sur leurs apprentissages, déclenchée par l’autoévaluation. Le seul point reste la difficulté de lecture de descripteurs parfois trop longs, et qui mériteraient d’être adaptés pour un meilleur déroulement du test en ligne. Il convient donc de retenir trois points fondamentaux concernant le degré d’acceptance de l’auto-évaluation en début de test de classement en ligne pour les langues : avant toute lecture, l’étudiant possède déjà un « capital linguistique » qui a construit ses choix et représentations de son niveau de langue. La lecture des descripteurs va donc s’opérer en fonction de la recherche de ses repères préconstruits que la présentation à l’écran participe à reproduire visuellement sous la forme d’un choix préétabli entre trois degrés, débutants, intermédiaires et avancés. Ces comportements induits chez l’étudiant vont être renforcés par le dispositif lui-même, mais aussi par des mécanismes comme la lecture « balayage » où les mots-clés sont également déterminés par des codes étroitement liés à des pratiques culturelles. Certains éléments sur les représentations d’une sous-évaluation des niveaux faux débutants et celles d’une surévaluation des niveaux intermédiaires, dépendraient aussi des pratiques d’apprentissage en relation avec la société du savoir à laquelle appartient l’étudiant. Enfin, tous les étudiants semblent séduits par la démarche de l’auto-évaluation dans le processus de classement et la convivialité du système proposé : avant le cours, ils feraient partie d’une communauté d’apprentissage par Internet. 5. Conclusion En conclusion, on peut dire que les analyses faites avec le coefficient Kappa de Cohen ont permis de constater que le degré d’accord entre les autoévaluations et les résultats des tests de classement en ligne ne dépassait jamais la qualité d’un accord médiocre pour les tests français et allemand, et ce, pour deux sessions de tests. Ce constat conduit à considérer que l’autoévaluation faite sur la base des descripteurs du CECR ne peut, dans l’état actuel, se substituer au test de classement. Les raisons de l’écart entre autoévaluation et résultat des tests sont à chercher du côté des personnes testées, qui sont à même d’expliciter les stratégies mises en œuvre dans l’autoévaluation et dans le test en ligne. Une première analyse qualitative faite sur la base d’entretiens sur une population très réduite a livré quelques pistes. Il convient, cependant, d’en noter les limites puisque cette analyse s’est effectuée sur un faible échantillonnage. Cette analyse qualitative ainsi que les analyses statistiques menées à l’aide du coefficient Kappa de Cohen mériteraient d’être étendues à des populations plus importantes et sur plusieurs sessions de tests de façon à pouvoir vérifier les variations du coefficient Kappa de Cohen et la pertinence des hypothèses émises dans l’analyse qualitative. Il reste également à mettre en place des stratégies et des techniques visant à améliorer l’accord entre autoévaluation et résultats des tests et à vérifier leur efficience sur le terrain. Références et bibliographie Bétrancourt, M. (2007). L’ergonomie des TICE : quelles recherches pour quels usages sur le terrain ? In Charlier, B. et Peraya, D. (Eds), Regards croisés sur la recherche en technologie de l’éducation. Bruxelles : De Boeck, tecfa.unige.ch/perso/mireille/papers/Betrancourt08_REF.pdf. Blons-Pierre, C. (2010). Tensions between change and quality assurance : A dynamic necessary for innovation in university language centres/Tensions entre politique du changement et assurance qualité : 9 L’évaluation des compétences en milieu scolaire et en milieu professionnel une dynamique nécessaire pour l’évolution des centres de langues universitaires. Paper presented at the 11th International CercleS Conference, Helsinki, 2-4 September. Blons-Pierre, C. (2011). L’impact du CECR/GeR/CEFR sur le fonctionnement d’un centre de langues dans une université bilingue suisse. Paper presented at the 4th International ALTE Conference, 7-9 July. Bourdieu P. (2001). Langage et pouvoir symbolique, Paris: Seuil. Conseil de l’Europe. (2001). Cadre européen commun de référence pour les langues : apprendre, enseigner, évaluer. Paris: Didier. Gick, C. (2011). Online Einstufungstest und Online-Einschreibung in studienbegleitende Deutschkurse: Entwicklungsschritte und Stand der Dinge. Paper presented at the Bremer Symposion 2011 (Fremdsprachenzentrum der Hochschulen im Land Bremen), Bremen 4-5 März. Gick, C. (2012). Einstufungstests im Spannungsfeld von Bologna-Reform, Referenzrahmen für Sprachen, Fachwissenschaft und Nutzern. In C. Blons-Pierre (éd. / Hrsg.), Apprendre, enseigner et évaluer les langues dans le contexte de Bologne et du CECR / Sprachen lernen, lehren und beurteilen im Kontext von Bologna und dem GER (pp. 189-217). Bern : Peter Lang. Kohler, P., Platteaux, H., & Blons-Pierre, C. (2012). Un test de classement en ligne pour évaluer les niveaux de compétence et constituer des groupes classes. Revue RIPES - Numéro Spécial "Innover dans l’évaluation des apprentissages : pourquoi et comment ?", 27(2), http://ripes.revues.org/532. Kohler, P. (2012). Gestion de l'auto-évaluation dans un dispositif de test en ligne: limites et perspectives. In C. Blons-Pierre (éd. / Hrsg.), Apprendre, enseigner et évaluer les langues dans le contexte de Bologne et du CECR / Sprachen lernen, lehren und beurteilen im Kontext von Bologna und dem GER (pp. 219-240). Bern : Peter Lang. Platteaux, H., & Hoein, S. (2010). Tests de positionnement en langues étrangères sur Moodle. Paper presented at the Moodle Moot 2010, Troyes 28-30 juin. 10