Pour préparer le contenu d’un cours de manière structurée et compréhensible, les enseignants s’arment de plusieurs ressources éducatives libres (REL) qu’ils trouvent désormais majoritairement sur le web. Il s’agit souvent d’articles, d’images ou de vidéos qui appuient les principes enseignés et soutiennent l’apprentissage. De nombreux moteurs de recherche permettent aisément de trouver des REL en relation avec le sujet d’étude mais une pluralité d’entre elles restent méconnues car peu connectées. Second problème observé, les licences des REL peuvent être incompatibles entre elles, rendant complexe ou impossible l’utilisation combinée de plusieurs REL tout en respectant la législation.
Ainsi, la recherche de ressources à la fois pertinentes pour le sujet d’étude et compatibles d’un point de vue légal devient une tâche chronophage pour les enseignants. Jusqu’à présent, aucun outil n’intégrait ces deux critères de recherche, à savoir la pertinence et la compatibilité des licences, pour simplifier l’accès aux REL.
Sur les licences des ressources éducatives
Les différents supports pédagogiques utilisés sont protégés par des licences qui règlementent leur utilisation. Différentes licences aux spécificités variées existent. La famille de licences Creative Commons permet aux auteurs d’octroyer des droits et d’imposer certaines interdictions pour préserver le contenu que les licences protègent. Certaines licences permettent de réutiliser le contenu en créditant l’auteur, de le reproduire ou de le modifier. D’autres, à l’opposé, ne le permettent pas et sont réservés à un usage plus restrictif imposant une distribution limitée sans modifications permises. Certaines licences libres moins connues existent, mais elles sont plus rarement mises en avant par les algorithmes des moteurs de recherche.
Le respect des conditions imposées par les licences est primordial dans le cadre de l’enseignement car il permet d’octroyer une éthique, une intégrité et une licéité aux contenus communiqués par les enseignants en respectant la propriété intellectuelle.
Le Clara Search Engine, un outil pour trouver rapidement des REL pertinentes et compatibles.
Les chercheurs du projet CLARA ont abouti à la création d’un moteur de recherche permettant aux professeurs de trouver facilement des REL pertinentes et sûres en lien avec les notions et concepts abordés dans leurs cours [1]. Le CLARA Search Engine, de son nom, permet ainsi de mettre en lien des ressources éducatives libres autour d’une ou plusieurs thématiques et de les accorder selon leurs licences pour permettre aux enseignants de partager à leur tour le cours créé.
Connecter les REL en fonction des concepts qu’elles abordent.
Le Clara Search Engine permet aux utilisateurs de rechercher des ressources éducatives reliées à un ou plusieurs concepts. Cela ne se limite pas seulement à retrouver des ressources traitant de sujets particuliers : l’objectif est également de proposer aux enseignants d’explorer des ressources additionnelles et d’élargir leur champ de recherche.
Pour ce faire, les chercheurs impliqués dans CLARA s’orientent vers les technologies du web sémantique, notamment les ontologies et les graphes de connaissances, pour connecter les ressources éducatives à travers les concepts qu’elles partagent.
Le web sémantique se présente comme une évolution du web traditionnel car il donne une sémantique, c’est-à-dire une signification, aux relations entre les entités. Dans le web sémantique, chaque entité est identifiée de manière unique, souvent par un URI, et les relations entre ces entités sont également nommées. Grâce au web sémantique, CLARA permet aux utilisateurs de naviguer entre les ressources éducatives puisque si deux entités font référence au même URI, elles sont connectées par défaut. Ces entités peuvent être des institutions, des concepts, des auteurs, des langues, etc.
Chaque entité est décrite de manière précise à l’aide de ce que l’on appelle une taxonomie ou une ontologie. Dans CLARA, chaque ressource éducative est décrite avec des auteurs, un format, une date, une licence, un langage, etc. (notés en bleu sur l’image ci-dessous). Les ontologies permettent de structurer ces informations de manière formelle et de relier les ressources éducatives de façon cohérente.
Le graphe de connaissances met en lumière ces méta-informations et connecte également chaque ressource éducative à des concepts. Par exemple, dans l’illustration ci-dessous, les concepts recherchés de « gène » ou de « machine learning » relient plusieurs ressources entre elles. Cela permet une navigation intuitive entre les ressources à travers les concepts qu’elles partagent.
Dans CLARA, les utilisateurs peuvent rechercher par concepts, ce qui leur permet de retrouver toutes les ressources traitant d’un ou plusieurs sujets particuliers.Ce moteur de recherche permet également aux enseignants de découvrir des ressources additionnelles en fonction des concepts partagés mais également d’approfondir d’autres concepts en explorant ceux mis en avant par chaque REL connectée. En effet, les ronds bleus reliés à chaque ressource éducative explicitent les concepts les plus importants. En double cliquant sur ces ronds, l’enseignant peut ajouter ce concept à la barre de recherche, facilitant la découverte de nouvelles ressources.
Le web sémantique permet ainsi de connecter des ressources éducatives non seulement par leur contenu, mais également par leurs auteurs, leurs institutions, leurs formats, et même les licences sous lesquelles elles sont publiées. Cela facilite ainsi la navigation entre plusieurs ressources éducatives, connectées par ce qui les définit.
Sur les annotations.
Dans le projet CLARA, les métadonnées des ressources éducatives sont obtenues grâce à deux types d’annotations sémantiques : les annotations manuelles et automatiques. Les annotations manuelles apportent des informations spécifiques à chaque ressource éducative comme le nom de l’auteur, le titre, le niveau d’éducation, la méthode d’enseignement, etc. Ces annotations manuelles permettent une précision contextuelle et sont réalisées par des enseignants. Quant aux annotations automatiques, elles sont générées par des algorithmes d’intelligence artificielle qui identifient et classent les concepts clés de chaque ressource éducative. Ces algorithmes produisent de bons résultats dans ce type de tâche ce qui permet de traiter une grande quantité de données en un temps limité.
Améliorer la pertinence des résultats de recherche.
Lorsque l’on effectue une recherche dans CLARA, les ressources éducatives apparaissent dans un ordre de pertinence basé sur les concepts saisis dans la barre de recherche.
Actuellement, le graphe de connaissances CLARA relie 45 000 ressources éducatives à 135 000 sujets, collectés dans le cadre du projet européen X5GON. Chaque ressource éducative peut traiter de plusieurs sujets, dont l’importance varie au sein de cette dernière. Pour évaluer la pertinence des sujets associés à chaque ressource, un système de pondération est utilisé.
La relation entre un sujet et une ressource est annotée avec un score de pertinence, ce qui est rendu possible grâce à un processus de réification au niveau des énoncés. L’utilisation de scores permet ainsi d’ordonner la pertinence des sujets abordés par chaque ressource éducative.
Ce score, compris entre 0 et 1, reflète l’importance relative du sujet pour la ressource : un sujet central pourra ainsi recevoir un score élevé (par exemple 0,9), tandis qu’un sujet secondaire obtiendra un score plus faible (par exemple 0,4). Dans le projet CLARA, ce calcul est automatisé à travers un processus de wikification qui identifie et hiérarchise les concepts clés d’une ressource éducative. Plus précisément, c’est le service d’annotation sémantique Wikifier qui est utilisé pour attribuer une note de pertinence à chaque sujet. Ce système permet non seulement d’annoter automatiquement les concepts dans les ressources, mais aussi de classer et de relier ces ressources aux sujets qu’elles abordent.
Grâce aux processus de réification et de wikification il est possible de générer un classement structuré des ressources éducatives selon leur pertinence par rapport à un concept, facilitant ainsi la recherche de ressources pour les enseignants.
Déterminer automatiquement la compatibilité des licences pour une utilisation facilitée des REL.
Afin de respecter les conditions de partage des ressources éducatives choisies, les enseignants doivent s’assurer que les licences sous lesquelles elles sont partagées sont compatibles entre elles mais également avec le nouveau cours partagé par ce-dernier. Ainsi, les professeurs doivent être particulièrement vigilants et maitriser les subtilités des différentes licences existantes avant de partager un nouveau contenu.
Pour faciliter cette étape de la création d’un cours, CLARA propose une solution organisée en un graphe de compatibilité de licences [2] accessible directement sur le moteur de recherche. Cela permet aux utilisateurs de comprendre rapidement quelles ressources peuvent être intégrées ensemble.
Une fois les ressources pertinentes sauvegardées par l’enseignant, le moteur de recherche génère un graphe de compatibilité des licences sous lesquelles sont partagées ces dernières. Chaque licence est représentée avec un nœud dans le graphe. Un nœud vert signale une compatibilité, c’est-à-dire l’existence d’une licence susceptible de préserver les autres. Cette licence est celle qui peut protéger la nouvelle ressource fusionnant les autres.
Les licences sont ordonnées par restrictivité. Elles octroient des permissions, attribuent des obligations et peuvent imposer des interdictions. Dans les faits, par exemple, la licence CC BY-NC-ND est plus restrictive que CC BY-NC, qui est elle-même plus restrictive que CC BY. Une licence plus restrictive peut protéger une ressource combinant des ressources sous des licences moins restrictives. A l’inverse, au moins deux licences sont incompatibles lorsqu’aucune licence existante ne peut les préserver. Dans ce cas-là, le graphe de compatibilité indique à l’utilisateur une raison de l’incompatibilité.
L’utilisateur comprend alors que l’une des ressources sélectionnées devra être retirée afin de garantir un « mashup » des REL en accord avec les droits de la propriété intellectuelle.
Bien que CLARA se concentre principalement sur les licences de la famille Creative Commons, le moteur de recherche est conçu de manière à pouvoir inclure d’autres types de licences en fonction des ressources éducatives ajoutées.
Cette classification automatique des licences est rendue possible grâce au modèle CaLi (Classification of Licences) [3], qui ordonne automatiquement les licences selon leur compatibilité en s’appuyant sur les relations de restriction. Les contraintes imposées par chacune des licences sont ainsi prises en compte pour permettre d’expliciter leurs relations de compatibilité. L’utilisation de ce modèle permet de simplifier le processus de réutilisation des ressources sous licence.
Les perspectives du projet CLARA.
Les solutions élaborées durant le projet CLARA, bientôt clôturé, se poursuivront à travers le projet PARTAGE. L’objectif du projet PARTAGE sera de rendre réutilisable le pipeline développé dans le projet CLARA, permettant ainsi à des institutions comme l’Académie de Nantes, partenaire du projet, d’intégrer leurs propres données et ressources éducatives pour créer leur graphe de connaissances. L’idée globale sera ainsi de proposer un livrable, un pipeline exécutable réutilisable, qui puisse permettre à n’importe quelle institution de créer son graphe de connaissances et d’y ajouter ses ontologies et annotations. Ce projet vise également à explorer la possibilité de récupérer une version informatique des programmes de l’Éducation Nationale afin de les intégrer dans un système d’annotations sémantiques, facilitant ainsi l’accès à des ressources éducatives en fonction des programmes scolaires étudiés et du niveau attendu.
Références
[1] Manoé Kieffer, Hugo Chabane, Matthéo Lécrivain, Patricia Serrano-Alvarado. CLARA Search Engine: Linking Licensed Educational Resources. 21st Extended Semantic Web Conference (ESWC) demos&poster, May 2024, Hersonissos, Greece. hal-04586246
[2] Patricia Serrano-Alvarado. De la Réutilisation de Données sous Licence dans le Web des Données. Stéphane Tirard (dir.), avec la collaboration de Sonia Desmoulin, Guillaume Durand, Karine Le Jeune, Maël Lemoine. Médecine personnalisée et données en grand nombre, 2, Regards pluriels, Paris, Editions Hermann, A paraître. hal-04626118J.
[3] Benjamin Moreau, Patricia Serrano-Alvarado, Matthieu Perrin, Emmanuel Desmontils. A License-Based Search Engine.In 16th Extended Semantic Web Conference (ESWC2019), juin 2019, Portoroz, Slovénie. hal-02097027v1
Pour en savoir plus sur le projet CLARA, rendez-vous sur le site web du projet.