La recherche de Mohamed s’est portée sur l’analyse de l’apprentissage basée sur les données collectées sur des plateformes LMS (Learning Management System) afin d’étudier les comportements des apprenants et anticiper un éventuel échec.
C’est en collaborant avec les équipes pédagogiques du Centre de Formation Campus26 qu’il a compris l’importance de leur apporter des solutions informatiques afin d’anticiper l’échec des apprenants et obtenir un meilleur accompagnement.
Ce travail de recherche fait écho à la modernisation constante de l’apprentissage et la montée en puissance du e-learning.
Résumé de thèse
La formation professionnelle est un levier important permettant aux individus d’acquérir le savoir et le savoir-faire nécessaires à l’exercice d’un métier ou d’une activité professionnelle. Avec l’essor des technologies éducatives, notamment les environnements numériques d’apprentissage, la formation
professionnelle se détache du modèle pédagogique classique en présentiel et permet d’envisager des
formations à grande échelle.
Un des avantages de ces environnements est qu’ils permettent de collecter des ensembles de données riches : les traces des activités de l’apprenant et notamment de ses interactions avec les contenus pédagogiques.
Ces ensembles de données peuvent être analysés dans le but de comprendre et d’optimiser l’apprentissage et son contexte.
Ce travail de recherche s’intéresse plus particulièrement aux formations professionnelles en ligne en
France. Il est réalisé dans le cadre d’un partenariat entre le laboratoire SYMME de l’université Savoie
Mont Blanc et l’entreprise Logipro représentée par l’équipe pédagogique de sa filiale Campus26. Cette
équipe souhaite disposer d’un tableau de bord d’aide au suivi lui permettant d’appréhender le
comportement des apprenants.
Une approche centrée sur l’utilisateur (UCD), qui implique l’équipe pédagogique dans toutes les phases du projet, a permis d’identifier trois objectifs de suivi :
- la détection le plus tôt possible des apprenants en difficulté,
- le suivi de l’engagement des apprenants,
- le suivi de leur progression.
Ce travail de recherche traite le premier objectif considéré comme prioritaire par l’équipe pédagogique.
Les résultats initiaux des expérimentations de plusieurs modèles prédictifs sur les données d’un scénario
d’apprentissage libre caractérisé par l’absence de la notion d’échec et la courte durée des activités e-learning ont permis de démontrer que le modèle des forêts aléatoires était le meilleur mais que ses
performances prédictives devaient être améliorées pour atteindre un seuil minimal satisfaisant pour
l’équipe pédagogique qui correspond à un score F1 ≥ 70%.
Ainsi, la contribution de ce travail porte en tout premier lieu sur la proposition d’une approche permettant d’améliorer la détection, le plus tôt possible, des apprenants en difficulté. Cette approche est composée de cinq étapes séquentielles qui ont comme objectif d’identifier les problèmes qui peuvent impacter négativement les prédictions puis de proposer des solutions à ces problèmes. Ces problèmes peuvent être liés aux données étudiées ou au modèle prédictif.
Les cinq étapes de l’approche se résument ainsi :
- La première étape de l’approche proposée consiste à analyser les corrélations entre les indicateurs de suivi et les apprenants en difficulté pour s’assurer de la nécessité du modèle prédictif dans le cas étudié et pour éliminer les problèmes de colinéarité.
- La deuxième étape se focalise sur le traitement des données déséquilibrées en proposant un mécanisme de perturbation permettant de renforcer le poids des observations les plus difficiles à classer et de réduire le problème de sur-apprentissage qui peut être causé par les différentes techniques de sur-échantillonnage. Cette étape permet également d’identifier automatiquement la technique de sur-échantillonnage la plus adaptée à l’ensemble de données étudié et le taux de perturbation à appliquer sur ces données.
- La troisième étape vise l’optimisation des hyper-paramètres du modèle prédictif en proposant une solution pour identifier les hyper-paramètres les plus impactants afin de réduire la complexité des méthodes d’optimisation et par conséquent réduire leur temps d’exécution.
- La quatrième étape propose une méthode pour analyser les raisons des classifications erronées du modèle prédictif. Cette méthode se base sur les règles de classification construites avec les indicateurs les plus importants pour le modèle afin de permettre à l’utilisateur de comprendre les raisons principales de ces classifications erronées. Cela peut l’aider à rajouter ou supprimer des indicateurs de son modèle, à changer la gestion des valeurs manquantes ou encore à normaliser les valeurs des indicateurs.
- La cinquième et dernière étape de l’approche proposée évalue la stabilité du modèle prédictif issu des quatre premières étapes en l’appliquant sur un nouvel ensemble de données inconnu du modèle. Cette étape permet de valider ou d’invalider la pertinence du modèle. Cette étape a aussi servi à valider l’approche elle-même.