analyse qualitative de tests de classement en ligne pour les langues

Transcription

analyse qualitative de tests de classement en ligne pour les langues
L’évaluation des compétences en milieu scolaire et en milieu professionnel
ANALYSE QUALITATIVE DE TESTS DE CLASSEMENT EN LIGNE POUR LES
LANGUES : ACCEPTANCE ET ROLE DE L’AUTOEVALUATION
Catherine Blons-Pierre*, Patricia Kohler**, Cornelia Gick***, Sergio Hoein****,
Hervé Platteaux*****
* Université de Fribourg (Suisse), [email protected]
** Université de Fribourg (Suisse), [email protected]
*** Université de Fribourg (Suisse), [email protected]
**** Université de Fribourg (Suisse), [email protected]
***** Université de Fribourg (Suisse), [email protected]
Mots-clés : tests de classement en ligne, coefficient Kappa de Cohen, analyse qualitative,
acceptance
Résumé. Le Centre de langues de l’université bilingue de Fribourg en Suisse a mis en place avec
la collaboration du Centre Nouvelles Technologies et Enseignement des tests de classement
(placement tests) en ligne et adaptatifs pour l’allemand, l’anglais, le français et l’italien, langues
étrangères. Ces tests font régulièrement l’objet d’analyses quantitatives et qualitatives.
L’étude présente est destinée, d’une part, à réfléchir sur les avantages et les contraintes liés à
l’automatisation des tests et de l’inscription et, d’autre part, à présenter une analyse statistique
des tests pour le français et l’allemand faite à l’aide du coefficient Kappa de Cohen, qui permet
d’évaluer le degré d’accord entre l’autoévaluation effectuée par les testés et le résultat de
l’évaluation proposé par le test de classement. Cette analyse statistique est complétée par une
analyse qualitative de ces tests (acceptance), effectuée à l’aide des données recueillies auprès
d’un échantillon d’étudiants au moyen d’entretiens.
1.
Introduction
En 2008, le Centre de langues de l’Université de Fribourg (Suisse) a décidé de développer un
dispositif de tests de classement (placement tests) en ligne et adaptatifs, destinés à constituer des
groupes classes homogènes. Ces tests en ligne ont été implémentés sur la plateforme
d’enseignement Moodle et complétés par un système d’inscription en ligne, qui automatise
complètement le processus d’inscription et d’admission aux cours de langues.
Un certain nombre de questions ont été prises en considération par le Centre de langues, le
Rectorat et le Centre Nouvelles Technologies et Enseignement avant de se lancer dans l’aventure
organisationnelle, pédagogique et technologique que représente le passage du test papier progressif
au test en ligne adaptatif, comme par exemple :
Quels peuvent être les avantages d’une telle (r-)évolution au regard de l’institution
académique, de l’administration, du personnel enseignant et également de l’usager ?
Y a-t-il des limites ou du moins des contraintes liées à la mise en place d’un tel dispositif ?
Comment peut-on mesurer la qualité des tests et évaluer leur acceptance auprès des
étudiants ?
L’autoévaluation des étudiants pourrait-elle suffire pour constituer des classes de niveaux
homogènes rendant ainsi les tests de classement inutiles ?
1
L’évaluation des compétences en milieu scolaire et en milieu professionnel
Ce sont ces questions primordiales, qui touchent à la qualité du dispositif et à la validité de nos
tests en ligne, que nous allons traiter dans cette contribution.
2.
Avantages et contraintes liés à l’automatisation des tests et des
inscriptions
Les avantages du test en ligne par rapport au test papier sont, pour l’institution, la rapidité du
processus et la disponibilité des personnels enseignants et administratifs, qui se trouvent
déchargés, grâce à l’automatisation du processus, de l’organisation lourde liée à la passation des
tests de classement papier : manutention du matériel, présence de surveillants, corrections des tests
et traitement des inscriptions en différé, après les corrections manuelles. Pour les enseignants et les
étudiants, sur un plan pédagogique, le test en ligne donne l’assurance que les étudiants bénéficient
exactement des mêmes modalités d’évaluation. Pour les étudiants, s’ajoute l’avantage du choix du
moment et de l’endroit où ils décident de passer ce test.
Néanmoins, pour que l’évaluation soit valide et fidèle, il convient de mettre en place des processus
capables de mesurer les différents paramètres en œuvre dans les tests en ligne et permettant de
faire évoluer la qualité de cette évaluation. Depuis le début, nos tests sont analysés à l’aide de
statistiques quantitatives et d’analyses qualitatives. La validité et la fidélité des items des différents
tests sont analysées à l’aide de la théorie de réponse aux items (modèle de Rasch). Ces analyses
nous ont permis de faire évoluer les banques d’items et d’assurer ainsi une progression de la
qualité à ce niveau1.
L’aspect de la qualité des tests pose également d’autres questionnements, qui requièrent des types
d’analyses différents. Les deux points importants à examiner lorsque l’on passe des tests papier
aux tests en ligne paraissent être, d’une part, l’acceptance de ce nouveau dispositif par les usagers :
ergonomie du test, conditions de passation, et, d’autre part, la mesure de l’écart entre
l’autoévaluation et l’évaluation faite par le test en ligne. Il existe, en effet, depuis le
développement du Cadre européen commun de référence pour les langues (CECR), des
descripteurs permettant aux individus désireux d’apprendre une langue d’évaluer leur niveau de
façon autonome. Dès lors, il est légitime de s’interroger sur l’utilité de faire des tests de classement
si l’autoévaluation est suffisamment fiable ; il est donc important de vérifier quelle est l’intensité
de l’accord constaté entre l’autoévaluation et le résultat des tests.
L’étude qui suit est destinée à présenter l’analyse de ces tests faite à l’aide du coefficient Kappa de
Cohen, qui permet d’évaluer le degré d’accord entre l’autoévaluation faite par les testés et le
résultat de l’évaluation proposé par le test de classement pour la compréhension orale, la
compréhension écrite ainsi que le lexique et les structures de la langue. Cette analyse statistique
sera, dans un deuxième temps, complétée par une évaluation d’acceptance de ces tests de
classement, effectuée à l’aide des données recueillies auprès des étudiants au moyen d’entretiens.
Ces deux types d’analyse sont présentés pour les tests de classement utilisés pour le français
langue étrangère et l’allemand langue étrangère. Ils sont complémentaires.
3.
Analyse qualitative des tests en ligne à l’aide de l’indice Kappa de Cohen
3.1
Méthodologie pour mesurer l’écart entre autoévaluation et résultats obtenus aux tests
Nous sommes partis du recueil des données du semestre d’automne 2010 complétés par les
données du recueil du semestre de printemps 2011 pour les tests de français (FLE) et allemand
1 Voir in L’évaluation des compétences en milieu scolaire et en milieu professionnel, Analyse de validité des
tests de classement en ligne pour les langues à l’aide du modèle de Rasch, Gick, Platteaux, Hoein, BlonsPierre, Kohler.
2
L’évaluation des compétences en milieu scolaire et en milieu professionnel
(DaF) langues étrangères. Ces données permettent de comparer les résultats de l’autoévaluation
avec les résultats des tests. Dans notre cas, on est amené à comparer deux jugements : celui de
l’étudiant qui s’autoévalue et celui du test. Pour ce faire nous avons choisi d’utiliser l’indice
Kappa de Cohen car nous traitons des variables nominales et non des variables ordinales2.
Il convient en outre de préciser que la fonction de l’autoévaluation diffère dans les tests pour le
français (FLE) et pour l’allemand (DaF). Dans le test FLE, l’autoévaluation joue le rôle de pré-test
proposé au début de chaque sous-test (compréhension orale, compréhension écrite, lexique et
structure) alors que, dans le test DaF, le pré-test est assuré par un sous-test de lexique et structure
et l’autoévaluation se trouve à la fin du test.
3.2
Les différentes étapes de l’analyse
Il s’agit tout d’abord de préparer les données en repérant les valeurs manquantes ou aberrantes. Il
faut ensuite créer la matrice de confusion ou tableau de contingence. Cette matrice s’obtient en
utilisant un tableau croisé dynamique. Par exemple, si l’on considère les données permettant de
croiser les résultats obtenus par les étudiants pour la compréhension écrite au test de français du
semestre d’automne 2011 (SA 2011) avec leur autoévaluation pour cette même compétence, on
obtient le tableau suivant :
Niveau CE
A1 test
A2 test
B1 test
B2 test
C1 test
Total
A1 autoév.
A2
16
2
18
B1
B2
15
37
2
2
3
49
23
3
1
79
56
C1
0
20
24
11
2
57
Total
0
3
2
1
1
7
34
111
51
17
4
217
Tableau 1 : Tableau de contingence CE SA 2011 test FLE
D’après le tableau 1, on constate que sur les 217 étudiants qui ont passé le sous-test de
compréhension écrite pour le français au semestre d’automne 2011 :
88 se sont autoévalués en accord avec le niveau identifié par le test
117 se sont surévalués par rapport au test
12 se sont sous-évalués.
Les données présentées ci-dessus sont globalement équivalentes à un pourcentage de 40.55%
d’autoévaluations en accord avec le sous-test de compréhension écrite et à un pourcentage de
59.45% d’autoévaluations en désaccord avec le sous-test. On peut également ajouter que la
majorité des autoévaluations en désaccord avec le sous-test présente un écart égal en valeur
absolue à 1 (voir tableau 2).
Sous-évalués
-1
-2
-3
Total
Nombre
Sur-évalués
+1
+2
+3
9
3
0
12
Nombre
89
25
3
117
Tableau 2 : Nombre de sous-évalués et sur-évalués pour CE SA 2011 test FLE
2 Pour les variables ordinales, on utilisera, par exemple, l’indice W de Kendall.
3
L’évaluation des compétences en milieu scolaire et en milieu professionnel
Comme le montre le tableau 2, les désaccords entre autoévaluation et résultat du sous-test de CE
pour la session du SA 2011 se répartissent principalement en N+1 = 89 et N-1 = 9, soit un total de
98 pour l’écart 1 en valeur absolue et un pourcentage de 76% par rapport au nombre total des
écarts constatés entre autoévaluation et résultat du sous-test.
Cependant, cette première analyse, si elle donne des indications précieuses quant à la
surévaluation et à la sous-évaluation, ne tient pas compte de la proportion d’accord qui peut être
imputée au seul fait du hasard.
Il est donc important de recourir à un type d’analyse statistique prenant en compte l’aléatoire. Le
calcul du coefficient Kappa de Cohen permet cette prise en compte. En effet, ce coefficient est un
indice statistique variant entre 1 et – 1, qui est utilisé pour évaluer le degré d’accord (concordance)
entre deux juges par rapport à une variable nominale et non ordinale. L’accord maximal est obtenu
lorsque l’indice est égal à 1, le désaccord total lorsqu’il est égal à -1. Ce coefficient peut
s’interpréter comme la proportion d’éléments classés de la même manière par deux juges, ici,
l’étudiant et le test ; ce qui le différencie du simple calcul d’une proportion, c’est qu’il introduit
une correction pour prendre en compte le fait qu’une certaine proportion d’accord peut être
imputée au hasard. Le coefficient κ se calcule en appliquant la formule suivante :
Κ = (P[A] - P[H]) / (1- P[H])
avec :
P[A] = proportion d’accords
P[H] = proportion de cas où selon la théorie des probabilités, on peut s’attendre à un
accord simplement dû au hasard3.
3.3
Les résultats de l’analyse avec le coefficient K de Cohen
Pour analyser les résultats obtenus avec le coefficient K de Cohen, on peut se référer à la table de
Landis et Koch (voir tableau 3), qui étalonne les résultats de ce coefficient de la manière
suivante4 :
Intensité de l’accord Coefficient Kappa
Excellent
>0,80
Bon
0,80-0,61
Modéré
0,60-0,41
Médiocre
0,40-0,21
Mauvais
0,20-0,0
Très mauvais
<0,0
Tableau 3 : table de Landis et Koch
Par exemple, si l’on applique le calcul du coefficient K de Cohen et la grille de lecture de Landis
et Koch au test pour le français, on obtient les résultats suivants :
K semestre automne 2010 Κ semestre printemps 2011
CO
0.22
0.26
compréhension orale médiocre
médiocre
CE
0.21
0.22
compréhension écrite médiocre
médiocre
LS
0.40
0.31
lexique et structure
médiocre
médiocre
Tableau 4 : Coefficient Kappa pour test FLE semestres automne et printemps 2011
3 Pour plus d’informations sur Κ, voir http://www.irdp.ch/edumetrie/lexique/coef_kappa.htm.
4 Pour la table de Landis et Koch, voir http:/kappa.chez-alice.fr/Kappa_2juges_Def.htm
4
L’évaluation des compétences en milieu scolaire et en milieu professionnel
D’après les données présentées dans le tableau 4, on peut dire que l’accord entre les variables
« autoévaluation » et « résultat du test » pour le test FLE est médiocre pour la compréhension
orale, la compréhension écrite et lexique et structure, de façon constante, pour les deux sessions de
test : semestre d’automne 2010 et semestre de printemps 2011.
Etant donné que l’autoévaluation figure dans le test FLE au début des sous-tests CO, CE et LS, on
pourrait faire l’hypothèse que, n’étant pas suffisamment sensibilisé à la description des niveaux de
langue, l’étudiant ne consacre pas suffisamment de temps à s’autoévaluer car il n’en perçoit pas
clairement les enjeux. Cette attitude paraît, du reste, être corroborée par le fait que, au fur et à
mesure de l’avancée dans le test, les étudiants ont tendance à s’autoévaluer de plus en plus
rapidement, ils s’appuient en fait sur l’autoévaluation qu’ils ont faite pour le sous-test précédent et
la reconduisent de sous-test en sous-test, alors même que les descripteurs sont différents pour
chacun des sous-tests proposés. En effet, les habiletés et connaissances attendues diffèrent selon
les niveaux et les compétences testées. Ainsi, un étudiant peut avoir un degré de compétence élevé
pour la compréhension orale et un degré de compétence moindre pour la compréhension écrite et
lexique et structure. Ce que le test cherche à établir c’est un profil moyen du testé, il est donc
important de proposer au début de chaque sous-test une nouvelle autoévaluation qui sert d’entrée
dans le sous-test adaptatif.
Ceci étant posé, il paraît maintenant intéressant d’examiner si l’on obtient les mêmes écarts entre
autoévaluation et résultats du test pour le test DaF, qui, lui, utilise l’autoévaluation en fin de
passation du test avec un statut facultatif et, uniquement, pour la compréhension orale et la
compréhension écrite. Pour ce faire, il est possible de faire une analyse comparative des
coefficients K de Cohen obtenus pour les tests FLE et DaF, à l’aide du tableau suivant.
CE SA 2010
CO SA 2010
CE SP 2011
CO SP 2011
Coefficient K Test FLE
0.21
0.22
0.22
0.26
Coefficient K Test DaF
0.14
0.21
0.25
0.35
Tableau 5 : coefficient K pour test FLE et test DaF
Si l’on compare, d’après le tableau 5, la qualité de l’accord entre autoévaluation et résultats des
tests pour les deux sessions du SA 2010 et SP 2012, on constate que le test FLE montre des
résultats stables pour les deux semestres, en revanche, les variations sont plus importantes pour le
test DaF : l’accord qui était jugé mauvais d’après l’indice K pour la CE au SA 2010 devient
médiocre pour le SP 2011 alors que l’accord pour la CO qui se situait plutôt à la limite
mauvais/médiocre au SA 2010 devient clairement médiocre pour le SP 2011. Globalement, cela
traduit une légère augmentation de la qualité de l’accord entre autoévaluation et résultats du test
DaF entre les deux sessions.
Toutefois, que ce soit pour le test FLE ou le test DaF, l’accord entre l’autoévaluation des étudiants
et les tests ne dépasse jamais le degré de qualité médiocre, ce qui signifie qu’en aucun cas on ne
pourrait, à l’heure actuelle, se baser uniquement sur l’autoévaluation pour placer les étudiants dans
les groupes classes si l’on a l’objectif de constituer des groupes relativement homogènes.
Il semble donc important, afin de pouvoir mieux utiliser l’autoévaluation, par exemple, dans la
perspective de raccourcir le temps de passation des tests adaptatifs qui ont comme point d’entrée
l’autoévaluation, de réfléchir à la manière de permettre à l’étudiant de mieux s’autoévaluer.
L’analyse statistique réalisée à l’aide du coefficient K de Cohen nous a permis de dresser un
constat prenant en compte la part de l’aléatoire, il nous faut maintenant recourir à un autre type
d’approche, l’analyse qualitative, qui a pour fonction d’analyser finement les mécanismes à
l’œuvre dans le processus d’autoévaluation à travers les témoignages de ceux qui la pratiquent.
5
L’évaluation des compétences en milieu scolaire et en milieu professionnel
4.
L’analyse qualitative des tests
4.1
Méthodologie utilisée pour évaluer l’acceptance des tests
Nous avons procédé à des entretiens de type semi-directifs en décembre 2011 auprès d’étudiants
qui avaient passé le test FLE en septembre 2011. Comme le modèle de test proposé au semestre
d’automne 2010 n’a subi que de faibles modifications d’ordre formel par rapport à celui proposé
en automne 2011, il nous a été ainsi possible de recueillir des données actualisées. L’objectif reste
de mesurer le degré d’acceptance de l’évaluation des trois compétences (compréhension orale,
compréhension écrite, lexique et structure) donnée par le test par rapport à l’autoévaluation. Quels
sont les ressentis de l’usager face à l’offre de cours qui découle du résultat du test de
positionnement et les représentations qu’il a de son niveau à travers l’autoévaluation ?
L’étudiant est au centre de notre dispositif, en tant qu’acteur dont nous observons les réactions
dans la construction des stratégies d’apprentissage à travers le discours qu’il porte sur les
représentations de son niveau et les écarts entre niveau effectif et niveau ressenti, ou
autoévaluation. Nous partons donc du postulat que l’étudiant possède des compétences d’agir et
de réagir par rapport à l’environnement du test en ligne et qu’il convient de les rechercher à des
fins d’analyse et d’amélioration du dispositif d’évaluation et d’apprentissage. Cette interaction fait
de l’étudiant bien plus qu’un agent, mais un médiateur dans la mesure où il participe d’emblée à la
co-construction de son pré-contexte d’étude.
Cette analyse, de type qualitatif, s’effectue sur un échantillon restreint de population concernée par
le seul test FLE afin de révéler les marqueurs précis des manifestations des ressentis et de rendre
transparents la complexité des pratiques d’apprentissage et le rôle de l’implicite. L’échantillon des
personnes interviewées est composé d’un groupe de trente-trois étudiants volontaires répartis
comme suit : 10 étudiants qui suivent un cours objectif A1.1, 8 étudiants en cours objectif A1.2, 11
au niveau objectif B1 et 4 au niveau objectif B2. Dix à douze semaines après la passation du test
en ligne, ces étudiants ont été invités à se présenter à l’entretien d’une durée d’environ 30 minutes,
et ce, individuellement ou en groupe. La langue de l’entretien a pu varier en fonction des niveaux
car il était plus facile pour l’intervieweur de laisser l’interviewé choisir entre l’anglais, l’allemand
et le français afin de récolter des données les plus fiables possibles dans l’expression du ressenti
des participants majoritairement anglophones ou germanophones. Les débutants n’auront ainsi
jamais fait recours au français tandis que les niveaux avancés auront facilement pratiqué le passage
d’une langue à l’autre ou code-switching. Le canevas d’entretien a mis l’accent sur les trois
thématiques suivantes : le déroulement du test (lieu, durée, conditions-cadre), l’utilisation et la
lecture des grilles d’autoévaluation (lecture, compréhension, utilisation, utilité), et le degré
d’acceptance du niveau du cours suivi et déterminé par le test en ligne, par rapport à celui de
l’autoévaluation.
Bien que déjà globalement émises lors d’analyses antérieures (Kohler, P., Platteaux, H., & BlonsPierre, C., 2012), nos hypothèses sont déterminées par la volonté d’éviter tout biais
méthodologique que constituerait l’influence des recherches déjà ou parallèlement menées, afin de
mettre en lumière le seul point de vue de l’étudiant à un moment donné. Nous avons donc formulé
les trois hypothèses suivantes :
-
Les étudiants auraient tendance à sous-évaluer ou surévaluer leur niveau de langue par
rapport au niveau effectif révélé par le test en ligne.
-
Le niveau de césure entre la sous-autoévaluation et la sur-autoévaluation par l’étudiant de
son niveau de langue par rapport au niveau effectif révélé par le test en ligne, serait lié à
une représentation du savoir langagier.
6
L’évaluation des compétences en milieu scolaire et en milieu professionnel
4.2
Les stratégies de lecture des descripteurs détermineraient l’utilisation, et donc la fiabilité
de l’autoévaluation dans un dispositif de test de classement en ligne pour les langues.
Résultats
Les entretiens ont permis de dégager des résultats portant sur les deux principaux groupes, d’une
part les débutants A1.1 et faux-débutants A1.2, et d’autre part les intermédiaires B1 et B2. Ces
résultats peuvent être répertoriés en deux grandes catégories que constitue le double degré
d’acceptance par l’étudiant, tout d’abord celui de l’autoévaluation et de l’utilisation des
descripteurs du CECR, et, d’autre part, celui de la corrélation entre cette autoévaluation et le
niveau effectif attribué par le test en ligne.
Comment tout d’abord l’étudiant réagit-il à l’autoévaluation et à l’utilisation des descripteurs du
CECRL ? Contre toute attente, c’est l’étudiant débutant qui se livre à toute une série de réflexions
sur la durée du test et le seuil de césure :
« The test for beginners is too short. »
« The test for beginners may not be able to distinguish A1.1 and A1.2. »
Si le manque de descripteurs pour les débutants est également relevé par plusieurs étudiants, ces
derniers n’hésitent pas non plus à s’exprimer sur la place où devrait se situer une éventuelle autoévaluation dans le test proposé :
« It’s important to have a self-assessment test to know in what level we are. »
« I would like a little of self-assessment. »
« Some short assessment is nice.”
« I missed the feed-back directly after the test. »
Ces réflexions indiquent combien il est important de valoriser l’apprenant-agent de son
apprentissage dès le test puisqu’il réclame de façon implicite le même traitement que tout autre
étudiant. Il prétendrait ainsi posséder des compétences que le test ne lui aurait pas permis de
mettre en œuvre ni dans l’autoévaluation, ni dans l’évaluation. Il resterait à identifier la nature de
ces compétences nouvelles et à en produire le mode d’évaluation adéquate, au-delà des catégories
préexistantes. Le développement de nouvelles pratiques qui se construisent par les réalités sociales
de l’apprenant permettraient-elles de trouver la clé de ces nouveaux savoir-faire langagiers ?
D’autre part, les remarques sur la durée du test pour les débutants confirment certains résultats
antérieurement obtenus (Kohler, 2011) . Le sérieux du test serait proportionnel à sa longueur et à
sa durée qui contribuent à son degré de fiabilité et d’acceptance. Nous pouvons nous interroger sur
les motivations réelles d’une telle demande de la part de débutants complets dont le savoir en
français reste entièrement à construire et n’a donc pas nécessairement besoin d’être autoévalué.
Mais si l’étudiant le revendique, c’est qu’il semble imprégné des valeurs véhiculées par la société
du savoir à laquelle il appartient, le mode d’apprentissage de ces savoirs et de leur évaluation dans
la course au « capital linguistique» (Bourdieu, 2001).
Le lien entre ces deux derniers résultats chez les débutants, soit la demande d’évaluation de
nouveaux savoir-faire langagiers à l’intérieur d’un test plus long, reste néanmoins inattendu. Cela
prouve l’importance et le rôle de l’écoute de l’usager dans l’élaboration de nouveaux outils
d’évaluation comme un test en ligne afin de prendre en compte ces implicites où se réfugient des
croyances socioculturelles impliquant des pratiques d’apprentissage.
7
L’évaluation des compétences en milieu scolaire et en milieu professionnel
Si nous considérons maintenant le groupe des interviewés faux débutants dont nous
présupposons une auto-sous-évaluation, leurs témoignages révèlent un autre élément très nouveau
sur le processus même par lequel va se déconstruire ou reconstruire le capital linguistique de
l’étudiant. Si la représentation de la langue étrangère se trouve réduite au seul bagage lexical,
l’école est souvent citée comme le lieu d’acquisition du savoir, mais ce mot-clé est fréquemment
associé à l’oubli sous la forme d’une concession rectificative :
« A l’école, j’ai eu du français, mais j’ai oublié tout. »
« I have learned it at school over three years but I have forgotten a lot of
vocabulary. »
Pour d’autres étudiants qui ne font pas référence au passé, le test en ligne est perçu comme une
ouverture valorisante qui permet la reconnaissance de savoirs jusque-là méconnus de l’apprenant
lui-même, surpris de sa réussite :
« Je suis entrée débutant complet, mais je suis A1.2. » (sourire)
« Je suis entré débutant complet mais suis inscrire pour A1.2. » (sourire)
« Although I didn’t take any french course, I know some basic words A1.2. »
Ce dispositif déclenche une attitude de confiance et de satisfaction visible (sourires, bonne humeur
etc.). Cette base de départ peut favoriser le développement de nouvelles stratégies d’apprentissage
telles que des réflexions sur le savoir et le savoir-faire, sur les interactions entre l’apprenant et
l’ordinateur, la découverte de nouvelles façons d’apprendre et les nouveaux rôles complémentaires
attribués à l’enseignant comme facilitateur et médiateur dans la fabrication des items de
l’évaluation.
Concernant notre deuxième groupe d’étudiants pour lesquels les résultats obtenus ont été
significatifs, soit ceux obtenus par les intermédiaires B1/B2, plusieurs pistes méritent d’être
retenues : tout d’abord, seules deux étudiantes avaient connaissance de ces outils d’autoévaluation
que constituent les descripteurs. Les autres étudiants qui les consultaient pour la première fois,
n’ont été aucunement gênés dans leur consultation. D’autre part, tous les étudiants de ce groupe se
sont surévalués dès le départ, en compréhension orale. L’origine de ce phénomène semble
essentiellement liée à leur mode d’apprentissage du français, fondé sur les approches
communicatives. Enfin, ils ont été sollicités à trois reprises pour l’autoévaluation, correspondant à
la phase préliminaire de chaque palier du test, soit avant la compréhension orale, la compréhension
écrite, et le test de lexique et structure de la langue. Or, la durée moyenne que les étudiants
interviewés consacrent à la lecture des descripteurs avant chacune de ces phases, est de plus en
plus courte : environ 50 secondes pour la compréhension orale pour passer à seulement 11
secondes en lexique et structure. Cette lecture des descripteurs est donc biaisée par le phénomènetremplin déjà observé depuis 2010 (Kohler, Platteaux, Blons-Pierre, 2012). Ils ne lisent pas
réellement les descripteurs proposés pour l’autoévaluation dont ils retiennent les premières et
dernières lignes par compétence, sans oublier l’effet-balayage d’une lecture syntagmatique :
« Ich habe überflogen… »
« c’est trop compliqué… »
Certains interviewés, replacés en situation de consultation des descripteurs devant l’écran
d’ordinateur, citent les expressions qu’ils lisent vraiment et qui leur apparaissent comme
fondamentales pour déterminer leur niveau : « basic words », « radio-télévision »,
« AlltagsBerufssprache », « Reisen ». Les mots-clés retenus sont donc directement liés au mode de
vie et de communication de l’usager du test en ligne.
8
L’évaluation des compétences en milieu scolaire et en milieu professionnel
Tous les étudiants, depuis le niveau A1.2 jusqu’à B2, ont manifesté leur satisfaction d’avoir été
consultés avant le début du test par l’autoévaluation dont ils ont bien compris les enjeux et l’utilité
dans le dispositif : ils gagnent du temps et ils maîtrisent leur apprentissage. Malgré la
surévaluation constatée pour la totalité des étudiants B1/B2 interrogés, ils n’ont pas été insensibles
à la réflexion sur leurs apprentissages, déclenchée par l’autoévaluation. Le seul point reste la
difficulté de lecture de descripteurs parfois trop longs, et qui mériteraient d’être adaptés pour un
meilleur déroulement du test en ligne.
Il convient donc de retenir trois points fondamentaux concernant le degré d’acceptance de
l’auto-évaluation en début de test de classement en ligne pour les langues : avant toute lecture,
l’étudiant possède déjà un « capital linguistique » qui a construit ses choix et représentations de
son niveau de langue. La lecture des descripteurs va donc s’opérer en fonction de la recherche de
ses repères préconstruits que la présentation à l’écran participe à reproduire visuellement sous la
forme d’un choix préétabli entre trois degrés, débutants, intermédiaires et avancés. Ces
comportements induits chez l’étudiant vont être renforcés par le dispositif lui-même, mais aussi
par des mécanismes comme la lecture « balayage » où les mots-clés sont également déterminés par
des codes étroitement liés à des pratiques culturelles. Certains éléments sur les représentations
d’une sous-évaluation des niveaux faux débutants et celles d’une surévaluation des niveaux
intermédiaires, dépendraient aussi des pratiques d’apprentissage en relation avec la société du
savoir à laquelle appartient l’étudiant.
Enfin, tous les étudiants semblent séduits par la démarche de l’auto-évaluation dans le processus
de classement et la convivialité du système proposé : avant le cours, ils feraient partie d’une
communauté d’apprentissage par Internet.
5.
Conclusion
En conclusion, on peut dire que les analyses faites avec le coefficient Kappa de Cohen ont permis
de constater que le degré d’accord entre les autoévaluations et les résultats des tests de classement
en ligne ne dépassait jamais la qualité d’un accord médiocre pour les tests français et allemand, et
ce, pour deux sessions de tests. Ce constat conduit à considérer que l’autoévaluation faite sur la
base des descripteurs du CECR ne peut, dans l’état actuel, se substituer au test de classement.
Les raisons de l’écart entre autoévaluation et résultat des tests sont à chercher du côté des
personnes testées, qui sont à même d’expliciter les stratégies mises en œuvre dans l’autoévaluation
et dans le test en ligne. Une première analyse qualitative faite sur la base d’entretiens sur une
population très réduite a livré quelques pistes. Il convient, cependant, d’en noter les limites
puisque cette analyse s’est effectuée sur un faible échantillonnage. Cette analyse qualitative ainsi
que les analyses statistiques menées à l’aide du coefficient Kappa de Cohen mériteraient d’être
étendues à des populations plus importantes et sur plusieurs sessions de tests de façon à pouvoir
vérifier les variations du coefficient Kappa de Cohen et la pertinence des hypothèses émises dans
l’analyse qualitative. Il reste également à mettre en place des stratégies et des techniques visant à
améliorer l’accord entre autoévaluation et résultats des tests et à vérifier leur efficience sur le
terrain.
Références et bibliographie
Bétrancourt, M. (2007). L’ergonomie des TICE : quelles recherches pour quels usages sur le terrain ? In
Charlier, B. et Peraya, D. (Eds), Regards croisés sur la recherche en technologie de l’éducation.
Bruxelles : De Boeck, tecfa.unige.ch/perso/mireille/papers/Betrancourt08_REF.pdf.
Blons-Pierre, C. (2010). Tensions between change and quality assurance : A dynamic necessary for
innovation in university language centres/Tensions entre politique du changement et assurance qualité :
9
L’évaluation des compétences en milieu scolaire et en milieu professionnel
une dynamique nécessaire pour l’évolution des centres de langues universitaires. Paper presented at the
11th International CercleS Conference, Helsinki, 2-4 September.
Blons-Pierre, C. (2011). L’impact du CECR/GeR/CEFR sur le fonctionnement d’un centre de langues dans
une université bilingue suisse. Paper presented at the 4th International ALTE Conference, 7-9 July.
Bourdieu P. (2001). Langage et pouvoir symbolique, Paris: Seuil.
Conseil de l’Europe. (2001). Cadre européen commun de référence pour les langues : apprendre, enseigner,
évaluer. Paris: Didier.
Gick, C. (2011). Online Einstufungstest und Online-Einschreibung in studienbegleitende Deutschkurse:
Entwicklungsschritte und Stand der Dinge. Paper presented at the Bremer Symposion 2011
(Fremdsprachenzentrum der Hochschulen im Land Bremen), Bremen 4-5 März.
Gick, C. (2012). Einstufungstests im Spannungsfeld von Bologna-Reform, Referenzrahmen für Sprachen,
Fachwissenschaft und Nutzern. In C. Blons-Pierre (éd. / Hrsg.), Apprendre, enseigner et évaluer les
langues dans le contexte de Bologne et du CECR / Sprachen lernen, lehren und beurteilen im Kontext von
Bologna und dem GER (pp. 189-217). Bern : Peter Lang.
Kohler, P., Platteaux, H., & Blons-Pierre, C. (2012). Un test de classement en ligne pour évaluer les niveaux
de compétence et constituer des groupes classes. Revue RIPES - Numéro Spécial "Innover dans l’évaluation
des apprentissages : pourquoi et comment ?", 27(2), http://ripes.revues.org/532.
Kohler, P. (2012). Gestion de l'auto-évaluation dans un dispositif de test en ligne: limites et perspectives. In
C. Blons-Pierre (éd. / Hrsg.), Apprendre, enseigner et évaluer les langues dans le contexte de Bologne et
du CECR / Sprachen lernen, lehren und beurteilen im Kontext von Bologna und dem GER (pp. 219-240).
Bern : Peter Lang.
Platteaux, H., & Hoein, S. (2010). Tests de positionnement en langues étrangères sur Moodle. Paper
presented at the Moodle Moot 2010, Troyes 28-30 juin.
10