Accéder au contenu principal

IA et étudiants : Savoir citer ses sources est indispensable à la formation intellectuelle – et ne pas le faire est passible de sanctions

Par  Mônica Macedo-Rouet , CY Cergy Paris Université La fin de l’année universitaire est un moment propice à la réflexion sur les usages de l’intelligence artificielle (IA) dans les travaux académiques. C’est le moment où les enseignants-chercheurs évaluent les écrits des étudiants. Les réclamations qui s’ensuivent nous donnent l’occasion de discuter avec eux de leur rapport à la lecture, aux sources d’information et à la connaissance. Si peu d’étudiants savent que ne pas citer ses sources dans les règles de l’art est une faute qui peut avoir des conséquences graves pour leur scolarité, il convient de décider comment l’on pourrait tirer parti de cette technologie incroyablement puissante sans renoncer à nos principes éthiques ni à nos ambitions de formation intellectuelle des étudiants. Je lis les écrits d’étudiants en Master depuis plus de vingt ans. Cette année, j’ai constaté une augmentation massive du nombre de travaux qui comportaient des passages entie...

IA et étudiants : Savoir citer ses sources est indispensable à la formation intellectuelle – et ne pas le faire est passible de sanctions

IA


Par Mônica Macedo-Rouet, CY Cergy Paris Université

La fin de l’année universitaire est un moment propice à la réflexion sur les usages de l’intelligence artificielle (IA) dans les travaux académiques. C’est le moment où les enseignants-chercheurs évaluent les écrits des étudiants. Les réclamations qui s’ensuivent nous donnent l’occasion de discuter avec eux de leur rapport à la lecture, aux sources d’information et à la connaissance.

Si peu d’étudiants savent que ne pas citer ses sources dans les règles de l’art est une faute qui peut avoir des conséquences graves pour leur scolarité, il convient de décider comment l’on pourrait tirer parti de cette technologie incroyablement puissante sans renoncer à nos principes éthiques ni à nos ambitions de formation intellectuelle des étudiants.


Je lis les écrits d’étudiants en Master depuis plus de vingt ans. Cette année, j’ai constaté une augmentation massive du nombre de travaux qui comportaient des passages entiers stylistiquement proches des textes produits par l’IA générative. J’ai passé de nombreuses heures à scruter les rapports du logiciel Compilatio (un outil conçu au départ pour lutter contre le plagiat, progressivement adapté à l’IA), à vérifier l’authenticité des références bibliographiques, à faire des recherches en ligne et parfois même dans des ouvrages imprimés, afin de savoir si mes étudiants avaient rédigé eux-mêmes leurs textes.

En effet, à l’heure actuelle, aucun outil ne permet de déterminer avec certitude si un texte a été produit par l’IA générative. Parmi les cas suspects, j’ai décelé des citations à des auteurs et des références bibliographiques introuvables sur le Net ou à la bibliothèque universitaire. Ces occurrences connues sous le nom d’« hallucinations » justifiaient pleinement une demande d’explications à mes étudiants. Leurs réponses m’ont laissée perplexe.

Si les étudiants ont majoritairement reconnu avoir utilisé l’IA, ils ne voyaient pas où était le problème. Tous m’ont envoyé les articles qu’ils avaient « lu » et « traité » dans le cadre de leur travail. Ils ont justifié l’utilisation de l’IA générative comme un moyen de « reformuler [leurs] propos », « structurer [leurs] idées », « améliorer la syntaxe », « illustrer les idées de chaque auteur », « gagner du temps plutôt que de retourner dans chaque article », ou encore « faire la bibliographie à [leur] place ». Tout cela leur paraissait tout à fait normal et acceptable.

Plus grave pour moi, dont le métier est d’éduquer à l’évaluation de l’information, quand je leur ai demandé pourquoi le nom d’un auteur ou le titre d’une revue cité dans leur texte étaient différents de ceux qui figuraient dans la première page de l’article qu’ils m’avaient transmis, il y a eu un haussement d’épaules.

D’où venait leur perception que la citation des sources était un détail dans la rédaction d’un écrit sur un sujet de recherche ?

Le rôle des sources dans les écrits scientifiques… et dans les textes générés par l’IA

L’attitude des étudiants, faite d’un mélange de surprise (certes possiblement feinte) et de frustration vient, à mon avis, du bouleversement apporté par l’IA générative au statut des sources d’information dans les textes.

Dans un texte scientifique, le rôle des sources d’information est fondamental. La source correspond à l’ensemble des paramètres qui renseignent le lecteur sur l’origine de l’information, tels que l’auteur, la date de publication, ou le média. Elle donne des indications sur l’affiliation institutionnelle et disciplinaire d’un auteur, le processus éditorial préalable à la publication d’une information, et d’autres indices qui permettent d’interpréter les propos et d’en juger la fiabilité.

Or, si les chercheurs s’appuient constamment sur ces critères pour évaluer la crédibilité d’un texte, c’est l’objet d’un processus d’apprentissage pour les étudiants. Dans un article précurseur sur le sujet, Wineburg a comparé le raisonnement d’historiens et d’élèves de terminale sur un ensemble de documents à propos d’un évènement historique controversé. La source était le premier critère utilisé par les historiens pour évaluer la pertinence et la fiabilité d’un document, alors qu’il n’apparaissait qu’en troisième position pour les lycéens, qui se focalisaient davantage sur le contenu et la lisibilité des textes. Ces résultats ont été répliqués dans de nombreuses études.

Récemment, tout un chacun a pu mesurer leur importance dans le contexte de la diffusion des fausses informations sur la Covid-19. Sans la source, la crédibilité d’une information scientifique peut difficilement être évaluée.

L’IA peut contredire ses sources : elle n’est pas conçue pour y être fidèle

Dans les textes générés par l’IA, le rôle des sources est sensiblement différent.

À la base de cette technologie, il y a bien un corpus de sources gigantesque qui permet à des modèles statistiques du langage d’apprendre et de générer des textes cohérents et vraisemblablement similaires aux textes produits par les humains.

Mais les sources ne servent que d’input durant l’entraînement et ne sont pas utilisées comme critère explicite de fiabilité lors de la génération d’une réponse. Le modèle prédit la suite la plus probable d’un texte, mot à mot, selon les régularités apprises, sans évaluer la véracité de l’information par rapport à des documents authentifiés.

Ainsi, l’on peut se retrouver avec un texte généré par l’IA parfaitement cohérent et néanmoins erroné. Même lorsque l’on demande à ChatGPT de résumer un article scientifique, il est nécessaire de vérifier que les informations correspondent à celles de l’article original. Sans une vérification scrupuleuse des textes produits par l’IA, il y a un risque de reproduction d’informations imprécises ou incorrectes, et d’attribution de certaines idées à de faux auteurs, ce qui constitue une fraude passible de sanctions.

Ne pas citer ses sources (correctement) est passible de sanctions

Les étudiants n’ont pas forcément l’impression de tricher lorsqu’ils utilisent l’IA comme une aide à la rédaction, car les textes générés par l’IA ne constituent pas un plagiat au sens propre. En France, le ministère de l’Enseignement supérieur et de la Recherche s’est prononcé sur ce sujet dans une réponse à la question d’un sénateur en 2023 (page 5289) :

« Les œuvres créées par des IA ne sont pas protégées en elles-mêmes sauf si elles reproduisent des œuvres de l’esprit au sens du code de la propriété intellectuelle[…][donc] recopier un texte produit par ChatGPT ne peut être sanctionné au regard des dispositions des articles L. 122-4 et L. 335-2 du code de la propriété intellectuelle. »

Cependant, la même réponse précise que :

« L’indication des sources est une obligation juridique, académique et éthique. D’un point de vue académique, notamment, elle doit permettre d’apprécier la valeur pédagogique du travail original réalisé par son auteur. Ne pas mentionner les sources pour faire sien un travail réalisé par autrui ou par une IA est, en conséquence, constitutif d’une fraude susceptible d’être poursuivie et sanctionnée, pour les usagers de l’enseignement supérieur, en application des dispositions des articles R. 811-1 et suivants du code de l’éducation. »

Autrement dit, le fait d’utiliser un texte généré par l’IA ne dispense pas l’étudiant de citer correctement ses sources. Les sanctions peuvent aller jusqu’à l’exclusion de l’université et le retrait du diplôme, et ce sans délai de prescription.

En somme, ne pas citer ses sources dans les règles de l’art est une faute qui peut avoir des conséquences graves pour la scolarité d’un étudiant, sans parler du fait que la simple copie d’un texte produit par l’IA ne garantit pas l’apprentissage. Car celui-ci requiert un traitement actif de l’information de la part de l’apprenant.

Chacun doit donc s’assurer que les sources utilisées dans son travail sont correctement citées, selon les normes bibliographiques et scientifiques en vigueur. Hélas, ces normes sont enseignées parfois trop brièvement ou superficiellement – quand elles le sont – dans les cours de méthodologie de la recherche à l’université.

Une première piste : améliorer la détection des textes produits par l’IA

Une première piste serait d’améliorer la détection des textes produits par l’IA.

Les logiciels de détection automatique deviennent de plus en plus performants dans cette tâche, mais les modèles d’IA générative s’améliorent également dans l’application de stratégies de paraphrase et « d’humanisation » des textes, qui rendent plus difficile la détection automatique. Par ailleurs, certains chercheurs s’évertuent à construire des modèles visant à empêcher directement la détection automatique des textes générés par l’IA.

C’est donc un rapport de forces extrême et inégal qui est en train de se jouer et risque de se reproduire en permanence, rendant difficile la mise à disposition des enseignants d’outils performants de détection automatique.

Pour améliorer la détection des textes générés par l’IA, une étude non encore publiée, déposée dans la plateforme ArXiv, propose de faire appel à des experts de l’usage de l’IA. Les chercheurs ont en effet observé que ces experts sont capables d’utiliser plusieurs critères d’évaluation de manière flexible : « vocabulaire de l’IA », présence de structures syntaxiques et documentaires stéréotypées, absence de fautes orthographiques et grammaticales, entre autres. Ces résultats nécessitent évidemment d’être confirmés par une publication et répliqués, mais ils suggèrent qu’il peut être utile de former les enseignants à l’application de ces critères.

Former – toujours former ! – à l’évaluation des sources d’information

Au-delà de l’aspect purement « détectionnel » des textes, ce sont des connaissances sur la structure et la rhétorique des textes générés par l’IA qu’il convient d’expliciter dans le but de les intégrer dans la pédagogie universitaire.

L’IA peut aider les enseignants et les étudiants dans de nombreuses tâches, mais elle ne peut pas se substituer complètement au jugement humain. L’usage éthique de l’IA ne se résume pas à interdire certains procédés ni à promouvoir les compétences techniques des étudiants et des enseignants (par exemple, « Comment faire un bon prompt ? »). Elle va au-delà des aspects normatifs et techniques, et inclut les questions d’épistémologie, de connaissances documentaires, et de métacognition indispensables à toute démarche maîtrisée de recherche d’informations.

Je suis sûre que l’on gagnerait à avoir des discussions plus ouvertes avec les étudiants au sujet des usages de l’IA dans les travaux universitaires, ce que cela signifie pour eux et pour nous, enseignants et chercheurs, et comment l’on pourrait tirer parti de cette technologie incroyablement puissante sans renoncer à nos principes éthiques ni à nos ambitions de formation intellectuelle des étudiants. Ce serait un débat au nom du savoir, de l’apprentissage et de la vérité, un débat dont notre université et notre démocratie ont tant besoin.The Conversation

Mônica Macedo-Rouet, Professeure des universités en psychologie de l'éducation, CY Cergy Paris Université

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté...

Quelle technologie choisir pour connecter les objets ?

Par Frédéric Salles, Président et co-fondateur de Matooma   En 2021, le nombre total d'objets connectés utilisés atteindra les 25 milliards selon Gartner. Il est ainsi légitime de se demander quelles sont les technologies principales permettant de connecter les objets, et quelle pourrait être celle la plus adaptée pour sa solution. Un projet de vidéosurveillance par exemple n'aura absolument pas les mêmes besoins qu'un projet basé sur le relevé de température au milieu du désert. Ainsi pour trouver la meilleure connectivité pour son objet, de nombreuses questions peuvent se poser : mon objet fonctionne-t-il sur batterie ou est-il alimenté ? Mon objet restera-t-il statique ou sera-t-il mobile ?  Mon objet est-il susceptible d'être dans un endroit difficile d'accès ou enterré ? A quelle fréquence mes données doivent-elles remonter ? Etc. Voici les différentes solutions actuellement disponibles sur le marché. Courte distance : RFID/Bluetooth/WiFi La RFID (Ra...

La fin du VHS

La bonne vieille cassette VHS vient de fêter ses 30 ans le mois dernier. Certes, il y avait bien eu des enregistreurs audiovisuels avant septembre 1976, mais c’est en lançant le massif HR-3300 que JVC remporta la bataille des formats face au Betamax de Sony, pourtant de meilleure qualité. Ironie du sort, les deux géants de l’électronique se retrouvent encore aujourd’hui face à face pour déterminer le format qui doit succéder au DVD (lire encadré). Chassée par les DVD ou cantonnée au mieux à une petite étagère dans les vidéoclubs depuis déjà quatre ans, la cassette a vu sa mort programmée par les studios hollywoodiens qui ont décidé d’arrêter de commercialiser leurs films sur ce support fin 2006. Restait un atout à la cassette VHS: l’enregistrement des programmes télé chez soi. Las, l’apparition des lecteurs-enregistreurs de DVD et, surtout, ceux dotés d’un disque dur, ont sonné le glas de la cassette VHS, encombrante et offrant une piètre qualité à l’heure de la TNT et des écrans pl...

6 questions sur Zone-telechargement

Quel était ce site ? Zone-telechargement.com était jusqu'à lundi soir l'un des plus gros sites web français proposant de télécharger des contenus numériques illégaux. En grande majorité des films parfois très récents ; des séries télé notamment américaines qui n'étaient pas diffusées en France ; de la musique ; des logiciels et des jeux vidéo. Les séries et les films étaient disponibles en différentes qualités et ceux en langue anglaise étaient sous-titrés grâce à des communautés d'utilisateurs capables de sous-titrer des épisodes de série 24 heures après leur diffusion aux États-Unis. Le site comptabilisait, selon la gendarmerie, en moyenne 140 millions de pages vues par mois et 11 000 téléchargements par jour. La société Alexa affichait Zone-Telechargement à la 11e place des sites les plus visités de France… devant Twitter ! Zone-Telechargement proposait 18 000 films, 2 500 séries télé ; 11 000 documentaires ; 20 943 émissions télé ; plus de 150 000 MP3 mais aus...

Deepfakes, vidéos truquées, n’en croyez ni vos yeux ni vos oreilles !

Par  Divina Frau-Meigs , Auteurs historiques The Conversation France Les spécialistes en fact-checking et en éducation aux médias pensaient avoir trouvé les moyens de lutter contre les « deepfakes » , ou hypertrucages , ces manipulations de vidéos fondées sur l’intelligence artificielle, avec des outils de vérification comme Invid-Werify et le travail des compétences d’analyse d’images (littératie visuelle), avec des programmes comme Youverify.eu . Mais quelques cas récents montrent qu’une nouvelle forme de cyberattaque vient de s’ajouter à la panoplie des acteurs de la désinformation, le deepfake audio. Aux États-Unis, en janvier 2024, un robocall généré par une intelligence artificielle et prétendant être la voix de Joe Biden a touché les habitants du New Hampshire, les exhortant à ne pas voter, et ce, quelques jours avant les primaires démocrates dans cet État. Derrière l’attaque, Steve Kramer, un consultant travaillant pour un adversaire de Biden, Dean ...

D’IBM à OpenAI : 50 ans de stratégies gagnantes (et ratées) chez Microsoft

  Paul Allen et Bill Gates en 1970 à Lakeside School (Seattle). Microsoft naîtra cinq ans plus tard. Auteur inconnu/Wikimedia Par  Frédéric Fréry , ESCP Business School Insubmersible. Même la vague des Gafa n’a pas vraiment atteint Microsoft. Cinquante ans après sa création, soit une éternité dans le monde de la tech, la firme de Bill Gates et Paul Allen est toujours là et bien là. Retour sur ce qu’on appelle outre-Atlantique, une success-story avec quelques échecs. Cette semaine, Microsoft fête ses 50 ans. Cet article a été écrit sur Microsoft Word, à partir d’un ordinateur équipé de Microsoft Windows, et il sera vraisemblablement publié sur des plateformes hébergées par Microsoft Azure, notamment LinkedIn, une filiale de Microsoft qui compte plus d’un milliard d’utilisateurs. C’est dire l’influence de cette entreprise qui, en 2024, a dégagé un bénéfice net de 88 milliards de dollars po...