Version du 10 décembre 2004
Petit lexique pour l'évaluation et la mesure en éducation
160 termes ou expressions d’usage courant
|
DIPCO 2004
Brève présentation du document
Liste des termes et expressions avec l'indication des pages (éventuellement l'équivalent anglais)
DB : Il faudrait éviter autant que possible éviter de mettre entre guillemets des termes qui pourraient être acceptés tels quels (par exemple "experts" ou "juges"), sauf si l’auteur du lexique tient absolument à faire des réserves sur ces termes, à s’en distancer formellement (par exemple "expliquer"), ou lorsqu’il s’agit d’expressions particulières (par exemple "split-half"). Sauf exception, je suggère de les supprimer tous.
absolue (mesure, différenciation)
|
| Voir différencier.
Pour erreur absolue : Voir erreur absolue
|
accord (concordance) entre juges (évaluateurs, correcteurs, observateurs, etc.)
|
| Dans des situation d'évaluation ou de recherche il est fréquent qu'un ensemble d'individus ou d'objets soient classés dans un ensemble de catégories, définies sur la base d’un certain critère et qui constituent généralement les modalités d’une variable nominale ou ordinale. Pour vérifier l'objectivité de la démarche, celle-ci est parfois réalisée de manière indépendante par deux (ou plusieurs) "juges", considérés comme étant également aptes à effectuer l'opération. On dispose alors de deux (plusieurs) classements des mêmes éléments, dont on souhaite déterminer le degrés de concordance ou (ce qui revient au même) le degré d’accord entre les juges qui les ont produits (accord inter-juges ou "fidélité" inter-juges).
Ce problème est souvent résolu en appliquant des méthodes corrélationnelles (calcul de coefficients de corrélation), dont le choix dépend du nombre de classements dont on dispose (deux ou plusieurs) ainsi que des caractéristiques métriques des échelles utilisées pour effectuer ces classements (nominales, ordinales ou, éventuellement, quantitatives). Dans le cas de deux classements on aura recours, suivant les cas, au coefficient Kappa de Cohen (échelles nominales), au coefficient rhô de Spearman (échelles ordinales) ou au coefficient r de Bravais-Pearson (échelles quantitatives). Si le nombre de classements est supérieur à deux, il existe des méthodes qui généralisent les précédentes, comme par exemple le coefficient de concordance de Kendall ou le coefficient de corrélation intra-classe.
DB : pour le cas de plusieurs juges, mentionner la possibilité d’appliquer une analyse de généralisabilité vérifiant si les données différencient les juges et permettant par une analyse de facette d’identifier le ou les juges évaluant différemment des autres.
Autre remarque : dans les situations scolaires habituelles, la concordance des classements ne suffit pas ; les notes devraient être à peu près de même valeur (notamment suffisantes ou insuffisantes) pour les différents juges. Le coefficient de généralisabilité absolue prend ce cas en considération. Voir aussi : objectivité
|
aléatoire (échantillon)
|
| Lorsqu'on envisage une démarche d'évaluation ou de mesure, il arrive souvent que l'on soit amené à constituer des échantillons aléatoires : soit des échantillons d'individus ou de groupes d'individus (élèves, classes, établissements, etc.), soit des échantillons d'items, de conditions d'observations, de moments, etc. De tels échantillons sont généralement constitués en tirant au hasard un certain nombre d'éléments (nombre fixé en fonction de divers critères) dans une population (univers) de référence ou d'origine. Pour que l'échantillon puisse être considéré comme aléatoire, plusieurs règles doivent être respectées : il faut en particulier qu'à priori, tous les éléments de la population possèdent (idéalement) la même probabilité d'être sélectionnés.
Le recours à des procédés aléatoires est principalement dicté par une exigence de représentativité : dans de nombreuses situations il est en effet nécessaire que l'on dispose d'échantillons représentatifs d'une population donnée (par exemple tous les élèves de 4e primaire, toutes les classes présentes dans une circonscription scolaire, tous les items auxquels on pourrait théoriquement avoir recours pour évaluer la maîtrise d'une notion particulière, etc.). C'est en effet dans de telles conditions qu'à l'aide de méthodes statistiques appropriées on pourra :
|
| a)
| estimer l'importance de certains phénomènes susceptibles de se produire au cours de la démarche et, parfois d'en contaminer les résultats (les erreurs de mesure notamment);
|
| b)
| envisager une généralisation des conclusions obtenues sur un échantillon particulier (d'individus ou d'items par exemple) à l'ensemble de la population de référence.
|
aléatoire (événement / phénomène)
|
| On dit d'un événement qu'il est aléatoire lorsque son apparition, son comportement ou son évolution sont soumis aux "lois du hasard". Ces événements (ainsi que leurs caractéristiques) ne peuvent donc pas être prédites en ayant recours aux modèles déterministes usuels. Une forme de prédiction est néanmoins possible lorsqu'on connaît les régularités et les lois qui régissent l'apparition, le comportement ou l'évolution de certains phénomènes. En ayant recours aux modèles probabilistes qui conviennent, on peut alors évaluer la probabilité que tel événement se produise, ou qu'il se produise sous telle forme plutôt que sous telle autre.
|
aléatoires (facettes)
|
| Voir facettes aléatoires
|
aléatoires (fluctuations)
|
| Voir fluctuations aléatoires
|
analyse de facettes
|
| Dans des études qui font appel à la théorie de la généralisabilité, on souhaite parfois vérifier si une ou plusieurs modalités d'une facette exerce(nt) une influence particulière sur l'instabilité et l'imprécision de la mesure. L'analyse de facettes permet précisément de procéder à une étude de cette nature, dont le rôle est souvent important au cours de la phase dite d'optimisation (modification des caractéristiques d'un dispositif instrumental pour améliorer la fiabilité des résultats qu'il produit).
|
analyse des items
|
| Etude critique des items qui composent un instrument d'évaluation ou de mesure pour identifier ceux dont les caractéristiques paraissent inadéquates ou qui présentent des défauts et des faiblesses techniques exigeant des modifications plus ou moins importantes. Cette démarche intervient généralement après une première passation de l'instrument (passation pilote ou passation "à blanc") et concerne aussi bien le fond que la forme des items. Quant au fond, les problèmes qui peuvent se poser ont trait principalement à la validité de contenu (adéquation du contenu de l'item par rapport aux objectifs de la démarche). Concernant la forme, en revanche, on considérera tout particulièrement la formulation même de l'item (clarté, précision, univocité, etc.; pertinence ou plausibilité des distracteurs; etc.).
Par ailleurs, il existe des procédés statistiques qui permettent de calculer des indices dits de difficulté ou de discrimination; d'évaluer la corrélation entre chaque items et l'ensemble du test; de vérifier quel est l'effet dû à la présence de l'item sur l'homogénéité de l'instrument, etc. Enfin, des analyses plus complexes peuvent également être envisagées en ayant recours à la théorie de la généralisabilité d'une part (analyse de facettes) ou à la théorie des réponses aux items d'autre part (calcul des paramètres de difficulté, de discrimination et de pseudo-chance).
|
analyse de régression
|
| Méthode statistique qui repose sur l'étude de la corrélation entre variables quantitatives et qui est souvent utilisée comme outil au service de la prédiction. Dans le cas le plus simple, on étudie la relation linéaire entre une variable indépendante (ou prédicteur) et une variable dépendante (critère) afin de déterminer si la connaissance des résultats relatifs à la première permettent de prédire avec un degré de précision satisfaisant les résultats que l'on devrait observer à propos de la deuxième. Ainsi par exemple, on pourrait se demander si la maîtrise plus ou moins élevée grande de "pré-requis" au début d'une année scolaire permet de prévoir le niveau de connaissances auquel parviendront ces mêmes élèves au terme de l'année. De même, on pourrait vérifier dans quelle mesure l'évolution du nombre de diplômes de maturité délivrés au cours des 20 dernières années permet d'estimer le nombre probable de diplômes qui seront attribués au cours des trois ou des cinq prochaines années.
Ce type de prédiction est réalisé à l'aide d'une équation (dite équation de régression), dont les paramètres sont définis en fonction des caractéristiques statistiques (moyennes, écarts-types, et coefficient de corrélation) des deux variables considérées.
L'analyse de régression présente d'innombrables applications en sciences humaines et sociales. Dans le domaine qui nous intéresse plus particulièrement, on signalera notamment le fait qu'elle peut être utilisée pour étudier la validité prédictive d'un instrument d'évaluation ou de mesure.
DB : Une des questions que risquent de se poser certaines lecteurs sera : quel rapport entre régression et corrélation ?
|
analyse de la variance $£_10
|
| Méthode statistique très fréquemment utilisée en sciences humaines et sociales, dont l'objectif principal est de permettre la comparaison de groupes dans des situations caractérisées par des degrés de complexité très divers. On peut ainsi étudier l'effet d'une ou de plusieurs variables indépendantes (facteurs en langage technique) sur une ou plusieurs variables dépendantes. Par ailleurs, il est possible d'étudier non seulement l'influence de chaque facteur considéré séparément, mais également l'effet conjoint (ou combiné) de plusieurs facteurs (interactions).
Sur le plan technique, cette méthode permet de réaliser une opération d'une grande importance en statistique, qui consiste de à décomposer la variabilité totale (ou variance totale) d'un phénomène en un certain nombre de sources susceptibles de l'"expliquer". Il devient alors possible d'apprécier le rôle joué par différents facteurs, ou interactions entre facteurs, sur les résultats de l'analyse.
C'est précisément parce qu'elle rend possible ce type d'opération que la théorie de la généralisabilité y a recours. Dans le cadre de cette méthode, l'analyse de la variance constitue en effet la première étape d'une démarche dont le but essentiel est d'identifier les sources d'erreur qui peuvent affecter la fiabilité (la précision) d'un dispositif d'évaluation ou de mesure.
DB : Mentionner peut-être que cette méthode est utilisée généralement dans des études expérimentales vs quasi-expérimentales ; elles supposent en principe un contrôle a priori des facteurs en jeu et des plans équilibrés ; elle est plus difficile à appliquer dans de bonnes conditions (sans biais) à des données d’observation comme celles récoltées sur le terrain.
|
analyse factorielle
|
| Ce terme désigne une famille de méthodes statistiques dont un des objectifs est de révéler la structure latente (l'organisation sous-jacente, non manifeste) qui régit les inter-relations (corrélations) entre une série de variables (les items présents dans un instrument d'évaluation ou de recherche par exemple). Cette caractéristique de la méthode est parfois exploitée lorsqu'on souhaite vérifier le degré d'homogénéité (de consistance interne) d'un dispositif instrumental, car celui-ci dépend précisément des relations existantes entre les éléments (items) qui le composent. Par ailleurs, la méthode permet également de déterminer si (et éventuellement comment) ces éléments peuvent être "regroupés" en un ou plusieurs ensembles (dimensions, facteurs) homogènes .
DB : Serait-ce hors de propos du lexique de faire une allusion à la différence entre analyse factorielle exploratoire et confirmatoire ?
|
appréciation
|
| Résultat de l'interprétation du travail fourni dans le cadre d'une démarche d'évaluation, qui exprime la qualité d'une performance, un degré de réussite, un niveau de maîtrise, l'écart par rapport à un seuil ou à un critère, etc. L'appréciation est généralement formulée en adoptant deux grandes catégories de procédures (mutuellement exclusives dans certains cas, mais pouvant être combinées dans d'autres), selon que l'évaluation est à référence normative ou à référence critérielle (critériée).
Sur le plan pratique l'appréciation peut assumer des formes très diverses : une note chiffrée ou exprimée de toute autre manière (des lettres de A à C ou de A à F); la simple distinction entre réussite et échec, des expressions du type "insuffisant" "satisfaisant" "excellent"; un rang sur cent; etc.
| |