Title: La mise
1La mise à lessai dune plate-forme dévaluation
sur mesure webQuiz
- Komi SODOKÉ
- Martin RIOPEL
- Université du Québec à Montréal
ACFAS Université McGill 16 Mai 2006
2PLAN DE PRESENTATION
- I- Introduction et mise en contexte
- - Définition et explication
- - Objectif et cadre de la présentation
- - Tests classiques Structure et limites
- II- La Théorie de la Réponse à lItem
- - Définition et fondements
- - Modélisation utilisée
- - Estimation des paramètres
- III- Le testing adaptatif
- - Comparaison du déroulement des tests
- - Algorithme de fonctionnement utilisé
- IV- Présentation du travail effectué
- - WebQuiz
- - PersonFit
3I- Introduction et Mise en contexte
Définition et explication
Adapter signifie Mettre en accord, ajuster. Dans
le contexte de lévaluation ou de
lapprentissage, ladaptation consiste à produire
un cheminement, une suite de contenus ou de
questions qui tiennent compte des paramètres
associés à lapprenant (culture, niveau
dhabileté etc.) et des données associées au
déroulement de la session (maîtrise du sujet,
temps de réponse, état émotionnel etc.)
Ladaptation donc peut se faire en fonction de
plusieurs critères dont le contenu relatif, la
pondération, le format de présentation ou des
ressources.
Pourquoi adapter ?
- Nécessité de partage de ressource dévaluation
ou dapprentissage, faire des équivalences et
de comparaison (cas du TIMMS). - Différents paramètres, dont la culture, le goût,
les couleurs et les caractéristiques des
personnes, peuvent influencer la compréhension ou
biaiser le résultat dune évaluation. - Avoir de meilleures performances lors des
évaluations. - Donner une éducation personnalisée.
4I- Introduction et Mise en contexte
Objectif et cadre de la présentation
Nous allons nous intéresser dans la suite à une
adaptation selon contenu
Au niveau du contenu, un test (évaluation
certificative) adaptatif désigne un test sur
mesure dont les questions présentées à chaque
répondant sont tributaires de sa maîtrise du
sujet et de ses réponses aux questions
préalablement administrées.
Dans le domaine des sciences de léducation
Plusieurs solutions ont été proposées comme les
tests de Binet, à deux étapes, à niveaux
flexibles, pyramidaux et stratifiés ayant
chacune leurs forces et faiblesses.
Au niveau informatique
Différentes études ont été menées sur des
systèmes de recommandation de question lors dune
évaluation. Nouvelles générations de plate formes
de téléformation qui bénéficient des expertises
de plusieurs disciplines, dont lIntelligence
Artificielle, les Sciences de léducation, la
Psychologie cognitive ? STI Système Tutoriel
Intelligent
5Tests classiques Structure et limites
I- Introduction et Mise en contexte
- Même test pour tous les répondants.
- Nombre fixe de questions.
- Différents degrés de difficulté des questions.
- Durée fixe et prédéterminée.
- Note du répondant qui correspond généralement à
la somme des scores obtenus à toutes les
questions.
Ce format de test que nous appellerons test
classique couvre la majorité des épreuves
dévaluations actuelles, y compris les
évaluations en ligne (e-évaluation).
6I- Introduction et Mise en contexte
Tests classiques Structure et limites
- Le niveau de difficulté des questions auxquelles
doit répondre le répondant ne correspond pas
toujours au niveau de connaissance de ce dernier
? manque de motivation. - Lestimateur du niveau de connaissance de
lapprenant nest pas précis surtout dans les
points extrêmes de léchelle dhabileté.
INTERROGATIONS RELATIVES À CES CONSTATS
N'y aurait-il pas un moyen dadministrer un test
individualisé contenant
et en nombre non superflu?
dans un ordre approprié,
uniquement des questions pertinentes,
SOLUTION
Conception de tests adaptatifs tests sur mesure
personnalisés selon le profil et le niveau de
connaissance de chaque répondant.
Nous présenterons une plate forme de test
adaptatif par ordinateur basée sur la sur la
Théorie de la Réponse à lItem.
7Théorie de la Réponse à lItem
Définition et fondements
La Théorie de la Réponse à lItem (TRI) est un
ensemble de modèles permettant une
représentation mathématique probabiliste des
caractéristiques des questions en vue de leur
utilisation pour déterminer un niveau dhabilité
ou un trait considéré latent dun répondant à un
test. Le niveau dhabilité désigne le degré
daptitude particulier dun individu dans un
domaine précis.
Deux considérations servent de fondement à la TRI
- Chaque répondant à un test a un niveau
dhabilité ? donné auquel on pourrait - associer une valeur numérique à sur un
échelle dhabileté.
- Chaque répondant de niveau dhabileté ? a une
probabilité P(?) de trouver la - bonne réponse à une question.
5 Postulats
- Hétérogénéité de la variance.
- Unidimensionnalité du trait (multidimensionnalité
toutefois possible).
- Indépendance locale (Indépendance de la réponse
dun item à un autre).
- Invariance du niveau de difficulté par rapport
aux sujets.
- Invariance du niveau dhabileté par rapport aux
items.
8Théorie de la Réponse à lItem
Modélisation utilisée
Il existe plusieurs modèles. Actuellement nous
travaillons avec le modèle dichotomique à quatre
paramètres
Le paramètre de discrimination de litem noté a
Le paramètre de difficulté de litem, noté b
Le paramètre de pseudo-chance de litem noté c
Lasymptote maximale de litem notée d
9Théorie de la Réponse à lItem
Estimation des paramètres
1- Paramètres ditems a,b, c et d en supposant
? connu
- La distribution des P(u1?) en fonction des
valeurs de ? pour tous les répondants est
obtenue. - Lobjectif serait donc de trouver les quatre
paramètres ditem de la courbe correspondante
2- Paramètre de sujet ? (thêta) en supposant
a,b,c,d connus
- Maximum de vraisemblance MLE
- Maximum a posteriori (MAP ou BME)
- Maximum de vraisemblance pondéré (WLE)
- Espérance a posteriori (EAP)
- Espérance a posteriori empirique (EEAP)
3- Estimation simultanée de a,b,c et d et de ?
- Cas concret qui se produit lorsque quon veut
transformer une épreuve dévaluation classique en
une épreuve dévaluation à modélisation. - Ce processus de calcul des paramètres sappelle
la calibration du test. - Vue la complexité des calculs à faire, nous nous
servons dun logiciel spécialisé conçu à cet
effet BILOG.
10Comparaison du déroulement des tests
Le testing adaptatif
Tests adaptatifs
Tests classiques
1. Règle de départ
1. Règle de départ
Répondre à une première question, généralement
la question 1.
un estimateur provisoire du niveau d'habileté du
répondant est déterminé.
2. Règle de suite
2. Règle de suite
un nouvel estimateur provisoire de son niveau
d'habileté est alors calculé et une nouvelle
question est administrée.
Répondre à une prochaine question, généralement
la suivante.
3. Règle d'arrêt
3. Règle d'arrêt
- mettre fin à l'administration du test lorsqu'un
niveau prédéterminé de précision de lestimateur
du niveau d'habileté est atteint ou un nombre
limite préfixée de question a été administrée.
- Terminer le test lorsqu'une réponse a été donnée
à la dernière question ou lorsquon ne peut plus
répondre aux autres questions ou le temps
impartit au test est expiré.
11Algorithme de fonctionnement utilisé
Le testing adaptatif
Début du test
1. Règle de départ
2. départ
3. Calcul de lestimateur a priori du niveau
dhabileté
4. Sélection dun item en fonction de
lestimateur provisoire du dhabileté
maximisation de linformation ou minimisation de
lespérance de lerreur-type a posteriori
5. Administration de litem
6. Calcul de lestimateur provisoire du niveau
dhabileté EAP, WLE, MAP, MLE
7. Est-ce que la règle darrêt est satisfaire
Non
Oui
8. Calcul de lestimateur final du niveau
dhabileté EAP, WLE, MAP, MLE
Fin de test
12Présentation du travail effectué
- WebQuiz plate-forme de télé formation permettant
la conception et ladministration de tests
adaptatifs par ordinateur. - PersonFit logiciel utilitaire (Raîche, 2003
Sodoké 2005) permettant de réaliser les tâches
de calculs relatives à la TRI une simulation
de patrons de réponses selon les modèles
logistiques à 1, 2, 3 ou 4 paramètres et selon
différents méthodes destimation la
détection de patrons de réponses inappropriés à
partir des indices Lz, Infit, Outfit et Zeta
la création des fichiers de données et de
traitements nécessaires pour webQuiz la
création et simulation de test adaptatif en local
(en cours de développement).
Fig.1 Architecture actuelle
13Conclusion et développements futurs
- Migration vers un agent de recommandation de
questions QuestionRecommender.
- Amélioration des stratégies de sélection du
prochain item grâce aux stratégies - dIntelligence Artificielle.
- Norme XML pour générer de nouvelles questions à
partir des questions existantes.
Fig.2 Architecture prévue
Connaissance du domaine
Modèle apprenant
État cognitif
QuestionRecommender
Agent Tuteur
État affectif
Caractéristique
Modèle pédagogique
Item Administré
Béhaviorisme
Cognitiviste
Socio-constructivisme
Merci et Questions ?
14Références
- Baker F. (2001). The Basics of Item Response
Theory. ERIC Clearinghouse on Assessment and
Evaluation, University of Maryland - Blanchard, E., Razaki, R., Frasson, C. (2005b).
Cross-Cultural Adaptation of eLearning Contents
a Methodology. International Conference on
E-Learning, Vancouver, Canada. - Brusilovsky, P. and Peylo, C. (2003) Adaptive and
intelligent Web-based educational systems. In P.
Brusilovsky and C. Peylo (eds.) International
Journal of Artificial Intelligence in Education
13 (2-4), Special Issue on Adaptive and
Intelligent Web-based Educational Systems,
159-172. - Gay, G. (2000). Culturally responsive teaching
Theory, research and practice. New York Teachers
College Press. - Hage H., Aïmeur, E. (2005). Exam Question
Recommender System. Proceedings of the 12th
International Conference on Artificial
Intelligence in Education, Amsterdam, july 2005. - Wainer, H. (1990). Computerized Adaptive
Testing A primer. New York Lawrence Erlbaum
Associates. - Raîche G. (2004). Modèles de mesure l'apport
de la théorie des réponses aux items. Le testing
adaptatif. Dans R. Bertrand et J.-G. Blais (Dirs)
Montréal Presses de l'Université du Québec