IA et étudiants : Savoir citer ses sources est indispensable à la formation intellectuelle – et ne pas le faire est passible de sanctions

Par Mônica Macedo-Rouet, CY Cergy Paris Université

La fin de l’année universitaire est un moment propice à la réflexion sur les usages de l’intelligence artificielle (IA) dans les travaux académiques. C’est le moment où les enseignants-chercheurs évaluent les écrits des étudiants. Les réclamations qui s’ensuivent nous donnent l’occasion de discuter avec eux de leur rapport à la lecture, aux sources d’information et à la connaissance.

Si peu d’étudiants savent que ne pas citer ses sources dans les règles de l’art est une faute qui peut avoir des conséquences graves pour leur scolarité, il convient de décider comment l’on pourrait tirer parti de cette technologie incroyablement puissante sans renoncer à nos principes éthiques ni à nos ambitions de formation intellectuelle des étudiants.

Je lis les écrits d’étudiants en Master depuis plus de vingt ans. Cette année, j’ai constaté une augmentation massive du nombre de travaux qui comportaient des passages entiers stylistiquement proches des textes produits par l’IA générative. J’ai passé de nombreuses heures à scruter les rapports du logiciel Compilatio (un outil conçu au départ pour lutter contre le plagiat, progressivement adapté à l’IA), à vérifier l’authenticité des références bibliographiques, à faire des recherches en ligne et parfois même dans des ouvrages imprimés, afin de savoir si mes étudiants avaient rédigé eux-mêmes leurs textes.

En effet, à l’heure actuelle, aucun outil ne permet de déterminer avec certitude si un texte a été produit par l’IA générative. Parmi les cas suspects, j’ai décelé des citations à des auteurs et des références bibliographiques introuvables sur le Net ou à la bibliothèque universitaire. Ces occurrences connues sous le nom d’« hallucinations » justifiaient pleinement une demande d’explications à mes étudiants. Leurs réponses m’ont laissée perplexe.

Si les étudiants ont majoritairement reconnu avoir utilisé l’IA, ils ne voyaient pas où était le problème. Tous m’ont envoyé les articles qu’ils avaient « lu » et « traité » dans le cadre de leur travail. Ils ont justifié l’utilisation de l’IA générative comme un moyen de « reformuler [leurs] propos », « structurer [leurs] idées », « améliorer la syntaxe », « illustrer les idées de chaque auteur », « gagner du temps plutôt que de retourner dans chaque article », ou encore « faire la bibliographie à [leur] place ». Tout cela leur paraissait tout à fait normal et acceptable.

Plus grave pour moi, dont le métier est d’éduquer à l’évaluation de l’information, quand je leur ai demandé pourquoi le nom d’un auteur ou le titre d’une revue cité dans leur texte étaient différents de ceux qui figuraient dans la première page de l’article qu’ils m’avaient transmis, il y a eu un haussement d’épaules.

D’où venait leur perception que la citation des sources était un détail dans la rédaction d’un écrit sur un sujet de recherche ?

Le rôle des sources dans les écrits scientifiques… et dans les textes générés par l’IA

L’attitude des étudiants, faite d’un mélange de surprise (certes possiblement feinte) et de frustration vient, à mon avis, du bouleversement apporté par l’IA générative au statut des sources d’information dans les textes.

Dans un texte scientifique, le rôle des sources d’information est fondamental. La source correspond à l’ensemble des paramètres qui renseignent le lecteur sur l’origine de l’information, tels que l’auteur, la date de publication, ou le média. Elle donne des indications sur l’affiliation institutionnelle et disciplinaire d’un auteur, le processus éditorial préalable à la publication d’une information, et d’autres indices qui permettent d’interpréter les propos et d’en juger la fiabilité.

Or, si les chercheurs s’appuient constamment sur ces critères pour évaluer la crédibilité d’un texte, c’est l’objet d’un processus d’apprentissage pour les étudiants. Dans un article précurseur sur le sujet, Wineburg a comparé le raisonnement d’historiens et d’élèves de terminale sur un ensemble de documents à propos d’un évènement historique controversé. La source était le premier critère utilisé par les historiens pour évaluer la pertinence et la fiabilité d’un document, alors qu’il n’apparaissait qu’en troisième position pour les lycéens, qui se focalisaient davantage sur le contenu et la lisibilité des textes. Ces résultats ont été répliqués dans de nombreuses études.

Récemment, tout un chacun a pu mesurer leur importance dans le contexte de la diffusion des fausses informations sur la Covid-19. Sans la source, la crédibilité d’une information scientifique peut difficilement être évaluée.

L’IA peut contredire ses sources : elle n’est pas conçue pour y être fidèle

Dans les textes générés par l’IA, le rôle des sources est sensiblement différent.

À la base de cette technologie, il y a bien un corpus de sources gigantesque qui permet à des modèles statistiques du langage d’apprendre et de générer des textes cohérents et vraisemblablement similaires aux textes produits par les humains.

Mais les sources ne servent que d’input durant l’entraînement et ne sont pas utilisées comme critère explicite de fiabilité lors de la génération d’une réponse. Le modèle prédit la suite la plus probable d’un texte, mot à mot, selon les régularités apprises, sans évaluer la véracité de l’information par rapport à des documents authentifiés.

Ainsi, l’on peut se retrouver avec un texte généré par l’IA parfaitement cohérent et néanmoins erroné. Même lorsque l’on demande à ChatGPT de résumer un article scientifique, il est nécessaire de vérifier que les informations correspondent à celles de l’article original. Sans une vérification scrupuleuse des textes produits par l’IA, il y a un risque de reproduction d’informations imprécises ou incorrectes, et d’attribution de certaines idées à de faux auteurs, ce qui constitue une fraude passible de sanctions.

Ne pas citer ses sources (correctement) est passible de sanctions

Les étudiants n’ont pas forcément l’impression de tricher lorsqu’ils utilisent l’IA comme une aide à la rédaction, car les textes générés par l’IA ne constituent pas un plagiat au sens propre. En France, le ministère de l’Enseignement supérieur et de la Recherche s’est prononcé sur ce sujet dans une réponse à la question d’un sénateur en 2023 (page 5289) :

« Les œuvres créées par des IA ne sont pas protégées en elles-mêmes sauf si elles reproduisent des œuvres de l’esprit au sens du code de la propriété intellectuelle[…][donc] recopier un texte produit par ChatGPT ne peut être sanctionné au regard des dispositions des articles L. 122-4 et L. 335-2 du code de la propriété intellectuelle. »

Cependant, la même réponse précise que :

« L’indication des sources est une obligation juridique, académique et éthique. D’un point de vue académique, notamment, elle doit permettre d’apprécier la valeur pédagogique du travail original réalisé par son auteur. Ne pas mentionner les sources pour faire sien un travail réalisé par autrui ou par une IA est, en conséquence, constitutif d’une fraude susceptible d’être poursuivie et sanctionnée, pour les usagers de l’enseignement supérieur, en application des dispositions des articles R. 811-1 et suivants du code de l’éducation. »

Autrement dit, le fait d’utiliser un texte généré par l’IA ne dispense pas l’étudiant de citer correctement ses sources. Les sanctions peuvent aller jusqu’à l’exclusion de l’université et le retrait du diplôme, et ce sans délai de prescription.

En somme, ne pas citer ses sources dans les règles de l’art est une faute qui peut avoir des conséquences graves pour la scolarité d’un étudiant, sans parler du fait que la simple copie d’un texte produit par l’IA ne garantit pas l’apprentissage. Car celui-ci requiert un traitement actif de l’information de la part de l’apprenant.

Chacun doit donc s’assurer que les sources utilisées dans son travail sont correctement citées, selon les normes bibliographiques et scientifiques en vigueur. Hélas, ces normes sont enseignées parfois trop brièvement ou superficiellement – quand elles le sont – dans les cours de méthodologie de la recherche à l’université.

Une première piste : améliorer la détection des textes produits par l’IA

Une première piste serait d’améliorer la détection des textes produits par l’IA.

Les logiciels de détection automatique deviennent de plus en plus performants dans cette tâche, mais les modèles d’IA générative s’améliorent également dans l’application de stratégies de paraphrase et « d’humanisation » des textes, qui rendent plus difficile la détection automatique. Par ailleurs, certains chercheurs s’évertuent à construire des modèles visant à empêcher directement la détection automatique des textes générés par l’IA.

C’est donc un rapport de forces extrême et inégal qui est en train de se jouer et risque de se reproduire en permanence, rendant difficile la mise à disposition des enseignants d’outils performants de détection automatique.

Pour améliorer la détection des textes générés par l’IA, une étude non encore publiée, déposée dans la plateforme ArXiv, propose de faire appel à des experts de l’usage de l’IA. Les chercheurs ont en effet observé que ces experts sont capables d’utiliser plusieurs critères d’évaluation de manière flexible : « vocabulaire de l’IA », présence de structures syntaxiques et documentaires stéréotypées, absence de fautes orthographiques et grammaticales, entre autres. Ces résultats nécessitent évidemment d’être confirmés par une publication et répliqués, mais ils suggèrent qu’il peut être utile de former les enseignants à l’application de ces critères.

Former – toujours former ! – à l’évaluation des sources d’information

Au-delà de l’aspect purement « détectionnel » des textes, ce sont des connaissances sur la structure et la rhétorique des textes générés par l’IA qu’il convient d’expliciter dans le but de les intégrer dans la pédagogie universitaire.

L’IA peut aider les enseignants et les étudiants dans de nombreuses tâches, mais elle ne peut pas se substituer complètement au jugement humain. L’usage éthique de l’IA ne se résume pas à interdire certains procédés ni à promouvoir les compétences techniques des étudiants et des enseignants (par exemple, « Comment faire un bon prompt ? »). Elle va au-delà des aspects normatifs et techniques, et inclut les questions d’épistémologie, de connaissances documentaires, et de métacognition indispensables à toute démarche maîtrisée de recherche d’informations.

Je suis sûre que l’on gagnerait à avoir des discussions plus ouvertes avec les étudiants au sujet des usages de l’IA dans les travaux universitaires, ce que cela signifie pour eux et pour nous, enseignants et chercheurs, et comment l’on pourrait tirer parti de cette technologie incroyablement puissante sans renoncer à nos principes éthiques ni à nos ambitions de formation intellectuelle des étudiants. Ce serait un débat au nom du savoir, de l’apprentissage et de la vérité, un débat dont notre université et notre démocratie ont tant besoin.

Mônica Macedo-Rouet, Professeure des universités en psychologie de l'éducation, CY Cergy Paris Université

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Technomedia

Rechercher dans ce blog

Blanchiment d’argent et cryptomonnaie : l’illusion de la transparence de la blockchain