Accéder au contenu principal

L’IA menace-t-elle l’apprentissage des langues ?

Les téléphones permettent de communiquer avec des personnes qui ne parlent pas notre langue et dont nous ne parlons pas la langue. Maxx-Studio / Shutterstock Par  Pascual Pérez-Paredes , Universidad de Murcia Est-il encore utile d’apprendre des langues étrangères quand on dispose de smartphones équipés de traducteurs automatiques ? Si cette hypothèse inquiète, il semblerait que l’intelligence artificielle ouvre aussi de nouvelles pistes pour s’initier à différentes langues. En 2024, la société Open AI , spécialisée dans l’intelligence artificielle, a présenté GPT4-o, un nouveau grand modèle de langage capable de « raisonner » et d’interagir avec du texte, des images et des sons. Dans l’une des vidéos diffusées après ce lancement, on voit deux personnes sur leur téléphone portable qui demandent à GPT4-o de les écouter et de traduire leurs échanges de l’anglais à l’espagnol ou de l’espagnol à l’anglais, de sorte que

Explorer les archives de Notre-Dame de Paris grâce à l’intelligence artificielle

 

La Trinité aux chanoines de Notre-Dame de Paris. Maître de Dunois , CC BY-SA
Par Élisabeth Lusset, Université Paris 1 Panthéon-Sorbonne

Depuis l’incendie qui a ravagé Notre-Dame de Paris le 15 avril 2019, des centaines de chercheurs sont mobilisés afin d’étudier les vestiges de la cathédrale et collaborer à sa restauration.

À côté des groupes de travail du chantier scientifique, centrés sur le bâtiment (pierres, vitraux, charpente) et son architecture, une trentaine d’historiens et de conservateurs, rassemblés au sein du projet ANR e-NDP, « Notre-Dame de Paris et son cloître », étudie spécifiquement la documentation textuelle de la cathédrale, les livres qui composaient sa bibliothèque et les archives manuscrites.

Coordonné par Julie Claustre et Darwin Smith, il réunit des chercheuses et chercheurs issus du Laboratoire de médiévistique occidentale de Paris (Université Paris 1 Panthéon-Sorbonne, CNRS), de l’École nationale des chartes, de la Bibliothèque nationale de France, de la Bibliothèque Mazarine (où se trouvent désormais les livres de Notre-Dame) et des Archives nationales (où est conservée une partie des archives de la cathédrale).

Registres capitulaires du chapitre cathédral de Notre-Dame (Archives nationales). Isabelle Bretthauer, Fourni par l'auteur

Une documentation très riche

Il existe une source essentielle pour connaître l’histoire de Notre-Dame : les registres rédigés, entre le XIVe et le XVIIIe siècle, par les chanoines, c’est-à-dire les clercs qui assistent l’évêque de Paris pour exercer le culte dans la cathédrale et pour gouverner le diocèse. Au nombre de 51, ces chanoines composent ce qu’on appelle le chapitre de Notre-Dame, en charge du Trésor et de la liturgie dans l’église cathédrale.

Au-delà du culte, les chanoines détiennent l’autorité sur le quartier de la cathédrale, ont la tutelle de l’Hôtel-Dieu, l’un des hôpitaux les plus importants du royaume, situé à quelques pas de la cathédrale, et administrent les villages et les terres détenus par la cathédrale en Île-de-France.

Le chapitre de Notre-Dame constitue donc une institution puissante, autonome de l’évêque de Paris et en lien direct avec les autres pouvoirs de l’époque (la municipalité de Paris, l’université, les nobles, les évêques, le roi de France, le pape).

Trois fois par semaine, les lundi, mercredi et vendredi, les chanoines se réunissent pour prendre des décisions relatives à la cathédrale et à son patrimoine. Le notaire du chapitre est chargé d’écrire dans un registre la date de la réunion, la liste des présents et les conclusions des délibérations. 26 registres ont été conservés pour la période médiévale, de 1326 à 1504, soit plus de 14 600 pages de texte manuscrit latin.

Les chanoines statuent sur des questions très diverses : administration de la cathédrale et de son patrimoine, réception des nouveaux chanoines, dons de livres, affaires de discipline, liturgie, gestion des possessions et des droits du chapitre… Ainsi, en 1476, la cloche Gabriel, endommagée, est refaite et remontée dans la tour Guillaume de la cathédrale. Pour sa réfection, le chapitre paye 11 écus d’or.

On estime que les chanoines prennent entre 500 et 1 500 décisions par an. Bien connue des spécialistes de l’histoire de la cathédrale, cette documentation est si massive et si mal indexée qu’elle restait sous-utilisée.

L’intelligence artificielle au service des historiens

Rechercher une information dans ces registres exigeait jusqu’à présent de lire la totalité des décisions ou de se contenter des extraits collectés par des archivistes du chapitre depuis le XVIIe siècle.

Afin d’exploiter de manière exhaustive cette documentation massive et hétéroclite, notre projet utilise les ressources de l’intelligence artificielle (IA), pour transcrire intégralement les registres et pour exploiter leur contenu afin d’éclairer le rôle économique, culturel et social du chapitre de Notre-Dame.

Les 26 registres médiévaux ont d’abord été numérisés (ils sont disponibles sur le site des Archives nationales. Puis l’équipe de recherche a mis au point une intelligence artificielle dite de « handwriting text recognition » (HTR), c’est-à-dire de reconnaissance des écritures manuscrites et de transcription automatique du texte. S’il existait déjà des modèles algorithmiques entraînés à lire des livres imprimés ou des écritures anciennes livresques, très lisibles car très normées et régulières, aucun modèle n’existait pour les écritures cursives de notaires qui prennent des notes à la volée, abrègent les mots latins et écrivent très mal !

Quatre étapes de travail : (1) numérisation du registre, (2) reconnaissance et segmentation des lignes de texte, (3) reconnaissance des zones de textes, (4) transcription automatique en utilisant le modèle via la plate-forme eScriptorium (AN, LL 117, p. 5). Fourni par l'auteur

Postdoctorant à l’École nationale des chartes et désormais chercheur à l’université de Luxembourg, Sergio Torres Aguilar a entraîné des modèles spécialement conçus pour les registres de Notre-Dame, l’un de reconnaissance des zones de texte (dont la mise en page varie au fil des registres), l’autre de lecture. Pour cela, il a utilisé des données préexistantes (des textes de la même époque déjà transcrits et associés à des images) et s’est appuyé sur une cinquantaine de pages de registres du chapitre, transcrites préalablement par les chercheurs. Cette base de textes avec des écritures des XIVe-XVe siècles a permis d’entraîner l’intelligence artificielle.

Au total, sept versions du modèle algorithmique de lecture ont été successivement développées à partir du travail collectif fourni par l’équipe de transcripteurs, réunissant une quinzaine d’historiens spécialistes de Paris, du livre, des institutions religieuses, de l’édition textuelle et des humanités numériques.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

L’équipe a testé, corrigé et éduqué l’IA à partir de la plate-forme de transcription automatique de documents eScriptorium, afin d’améliorer progressivement les performances de lecture et d’aboutir à la meilleure transcription possible.

L’IA bute sur des obstacles tels que la segmentation des mots (lorsque le passage d’une ligne à une autre oblige le notaire à couper un mot), l’hétérogénéité des manuscrits (différences de mises en pages ou d’écritures) ou l’état des manuscrits (pages déchirées, taches, humidité).

Au final, le modèle produit est parvenu à transcrire 90 % du texte des registres, le taux de reconnaissance oscillant selon les volumes entre 88 et 94 %. Le site du projet e-NDP (en construction) permettra d’explorer le corpus textuel acquis par l’IA, tout en le confrontant aux pages correspondantes des registres qui ont été numérisées. Le modèle facilite la lecture, car il aide l’œil humain à résoudre des difficultés de déchiffrement qui l’auraient beaucoup ralenti. Surtout, l’IA augmente les capacités de lecture et donc le nombre de données collectées. Le modèle sera réutilisable pour toutes les écritures des documents de la pratique de la fin du Moyen Âge.

Notre-Dame révélée

Le corpus textuel acquis par l’IA fait actuellement l’objet de post-traitements et d’un travail d’indexation, notamment par détection automatique des noms de lieux et de personnes.

On peut d’ores et déjà connaître plus précisément les 800 chanoines de Notre-Dame entre 1326 et 1504 et reconstituer leur carrière : présence ou absence aux réunions, responsabilités endossées, types de décisions prises, manquements. Par exemple, en 1392, les chanoines excommunient Robert de Hamelle, chanoine de l’église du Saint-Sépulcre de Paris, qui, en état d’ivresse, a frappé un clerc. Condamné à une amende, le chanoine se voit interdire de boire du vin qui ne serait pas coupé d’eau.

Au-delà des chanoines, les registres permettent de mieux connaître l’histoire des hommes et des femmes qui vivent et travaillent dans le quartier de la cathédrale (des officiers du chapitre aux invités de marque qui logent chez les chanoines, en passant par les servantes au service des clercs). On apprend ainsi qu’en 1420, la garde des enfants trouvés dans l’église de Paris est confiée à Isabelle, veuve de Jean Bruyère, ancien geôlier du chapitre, ou encore que, en 1480, les habitants de Larchant, un village dépendant du chapitre de Notre-Dame et situé à 80 km de Paris, ont détruit le pilori, symbole de la justice des chanoines.

Il est désormais possible d’effectuer des recherches dans des données textuelles massives (« topic modeling ») sur des sujets déjà étudiés ou, au contraire, mal connus, des fêtes liturgiques à l’emploi du plomb dans le bâti, en passant par les rapports entre le roi et les chanoines ou les finances du chapitre.

Le contenu des registres du chapitre pourra être exploité par d’autres projets liés à Notre-Dame, par exemple pour connaître la provenance du bois ou du métal servant à l’entretien de l’édifice. Notre-Dame de Paris comme on ne l’a encore jamais vue !The Conversation

Élisabeth Lusset, Chargée de recherche en histoire médiévale au CNRS, Université Paris 1 Panthéon-Sorbonne

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté

Quelle technologie choisir pour connecter les objets ?

Par Frédéric Salles, Président et co-fondateur de Matooma   En 2021, le nombre total d'objets connectés utilisés atteindra les 25 milliards selon Gartner. Il est ainsi légitime de se demander quelles sont les technologies principales permettant de connecter les objets, et quelle pourrait être celle la plus adaptée pour sa solution. Un projet de vidéosurveillance par exemple n'aura absolument pas les mêmes besoins qu'un projet basé sur le relevé de température au milieu du désert. Ainsi pour trouver la meilleure connectivité pour son objet, de nombreuses questions peuvent se poser : mon objet fonctionne-t-il sur batterie ou est-il alimenté ? Mon objet restera-t-il statique ou sera-t-il mobile ?  Mon objet est-il susceptible d'être dans un endroit difficile d'accès ou enterré ? A quelle fréquence mes données doivent-elles remonter ? Etc. Voici les différentes solutions actuellement disponibles sur le marché. Courte distance : RFID/Bluetooth/WiFi La RFID (Ra

Comment les machines succombent à la chaleur, des voitures aux ordinateurs

  La chaleur extrême peut affecter le fonctionnement des machines, et le fait que de nombreuses machines dégagent de la chaleur n’arrange pas les choses. Afif Ramdhasuma/Unsplash , CC BY-SA Par  Srinivas Garimella , Georgia Institute of Technology et Matthew T. Hughes , Massachusetts Institute of Technology (MIT) Les humains ne sont pas les seuls à devoir rester au frais, en cette fin d’été marquée par les records de chaleur . De nombreuses machines, allant des téléphones portables aux voitures et avions, en passant par les serveurs et ordinateurs des data center , perdent ainsi en efficacité et se dégradent plus rapidement en cas de chaleur extrême . Les machines génèrent de plus leur propre chaleur, ce qui augmente encore la température ambiante autour d’elles. Nous sommes chercheurs en ingénierie et nous étudions comment les dispositifs mécaniques, électriques et électroniques sont affectés par la chaleur, et s’il est possible de r

De quoi l’inclusion numérique est-elle le nom ?

Les professionnels de l'inclusion numérique ont pour leitmotiv la transmission de savoirs, de savoir-faire et de compétences en lien avec la culture numérique. Pexels , CC BY-NC Par  Matthieu Demory , Aix-Marseille Université (AMU) Dans le cadre du Conseil National de la Refondation , le gouvernement français a proposé au printemps 2023 une feuille de route pour l’inclusion numérique intitulée « France Numérique Ensemble » . Ce programme, structuré autour de 15 engagements se veut opérationnel jusqu’en 2027. Il conduit les acteurs de terrain de l’inclusion numérique, notamment les Hubs territoriaux pour un numérique inclusif (les structures intermédiaires ayant pour objectif la mise en relation de l’État avec les structures locales), à se rapprocher des préfectures, des conseils départementaux et régionaux, afin de mettre en place des feuilles de route territoriales. Ces documents permettront d’organiser une gouvernance locale et dé

La fin du VHS

La bonne vieille cassette VHS vient de fêter ses 30 ans le mois dernier. Certes, il y avait bien eu des enregistreurs audiovisuels avant septembre 1976, mais c’est en lançant le massif HR-3300 que JVC remporta la bataille des formats face au Betamax de Sony, pourtant de meilleure qualité. Ironie du sort, les deux géants de l’électronique se retrouvent encore aujourd’hui face à face pour déterminer le format qui doit succéder au DVD (lire encadré). Chassée par les DVD ou cantonnée au mieux à une petite étagère dans les vidéoclubs depuis déjà quatre ans, la cassette a vu sa mort programmée par les studios hollywoodiens qui ont décidé d’arrêter de commercialiser leurs films sur ce support fin 2006. Restait un atout à la cassette VHS: l’enregistrement des programmes télé chez soi. Las, l’apparition des lecteurs-enregistreurs de DVD et, surtout, ceux dotés d’un disque dur, ont sonné le glas de la cassette VHS, encombrante et offrant une piètre qualité à l’heure de la TNT et des écrans pl

L’Europe veut s’armer contre la cybercriminalité avec le Cyber Resilience Act

  Par  Patricia Mouy , Commissariat à l’énergie atomique et aux énergies alternatives (CEA) et Sébastien Bardin , Commissariat à l’énergie atomique et aux énergies alternatives (CEA) Assez des cyberattaques  ? La loi sur la cyberrésilience, ou Cyber Resilience Act a été adoptée par les députés européens le 12 mars dernier et arrive en application dans les mois à venir, avec l’ambition de changer la donne en termes de sécurité des systèmes numériques en Europe. Alors que les systèmes numériques sont littéralement au cœur des sociétés modernes, leurs potentielles faiblesses face aux attaques informatiques deviennent des sources de risques majeurs – vol de données privées, espionnage entre états ou encore guerre économique. Citons par exemple le cas de Mirai , attaque à grande échelle en 2016, utilisant le détournement de dispositifs grand public comme des caméras connectées pour surcharger des domaines Internet d’entreprise, attaque de type DDoS (déni de service distribué)