Accéder au contenu principal

Les droits d’auteur en danger ? Ce que l’affaire « Bartz contre Anthropic » risque de changer aux États-Unis… et ailleurs

  Par  Maximiliano Marzetti , IÉSEG School of Management Aux États-Unis, un premier jugement autorise l’usage d’œuvres légalement acquises pour l’apprentissage des modèles d’intelligence artificielle, mais le recours à des contenus piratés est, lui, explicitement condamné. Un coup d’arrêt pour les auteurs, et un bouleversement juridique aux enjeux internationaux ? En 2024, les auteurs Andrea Bartz, Charles Graeber et Kirk Wallace Johnson ont porté plainte contre Anthropic, l’un des géants de l’intelligence artificielle (IA), l’accusant d’avoir utilisé leurs ouvrages pour entraîner son modèle de langage Claude . Cette affaire s’inscrit dans une série de litiges similaires : au moins 47 procès ont déjà été engagés aux États-Unis, visant différentes entreprises consacrées à l’IA. La question principale ? Les modèles d’IA auraient été entraînés à partir d’œuvres protégées par le droit d’auteur, sans autorisation préalable des auteurs,...

Ouvrir les modèles d’IA pour qu’ils ne restent pas l’apanage des géants du Web

 

IA

Par Thierry Poibeau, École normale supérieure (ENS) – PSL

Les grands modèles de langue, comme celui derrière ChatGPT, sont « fermés » : on ne sait pas comment ils sont mis au point, sur quelles données et avec quels paramètres. Même les modèles dits ouverts ne le sont que très partiellement, ce qui pose des problèmes de transparence et de souveraineté évidents. Développer des modèles ouverts est une alternative réaliste et souhaitable à moyen terme.


De la traduction automatique à la génération de contenu, les modèles de langue (ou modèles de langage) reposent sur des ensembles massifs de données et des algorithmes complexes. L’une des grandes questions pour la communauté de l’Intelligence artificielle est de savoir si ces modèles doivent rester fermés – contrôlés uniquement par quelques grandes entreprises – ou être ouverts et accessibles au public – en particulier aux chercheurs, développeurs et institutions publiques.

Un modèle ouvert présente plusieurs avantages. Premièrement, il permet une plus grande transparence. Les utilisateurs peuvent voir comment le modèle a été formé, quelles données ont été utilisées et quelles décisions algorithmiques sous-tendent ses prédictions. Cela favorise la confiance dans les résultats produits et permet à la communauté scientifique de vérifier et de corriger les biais qui pourraient être présents. Deuxièmement, un modèle ouvert encourage l’innovation. En permettant à d’autres chercheurs, développeurs et entreprises de travailler avec ces modèles, on peut accélérer le développement de nouvelles applications et résoudre des problèmes complexes de manière plus collaborative.

Les modèles fermés quant à eux posent des problèmes importants. Leur opacité rend difficile l’identification des responsabilités juridiques, car il est presque impossible de déterminer quelles données ont été utilisées lors de l’entraînement ou comment les décisions du système ont été prises. Cette opacité crée donc des risques potentiels de discrimination algorithmique, de désinformation et d’utilisation abusive des données personnelles. En outre, ces modèles fermés renforcent les monopoles technologiques, laissant peu de place à la concurrence et limitant ainsi les possibilités de mise au point de solutions concurrentes.

Si, aujourd’hui, les modèles de langue réellement ouverts (open source) sont encore relativement marginaux, ils restent une option envisageable à moyen terme. Pour qu’ils se développent, il faudra non seulement surmonter des obstacles techniques, mais aussi repenser les modèles de financement et de régulation, afin de garantir que l’innovation ne soit pas réservée à une poignée de géants technologiques. Il en va de l’avenir de l’intelligence artificielle ouverte et de son potentiel à bénéficier à l’ensemble de la société.

Lobbying et stratégies d’entreprises

Un lobbying intensif est mené auprès des gouvernements et des instances de régulation pour avancer l’argument selon lequel l’ouverture complète des LLM pourrait mener à des dérives. La crainte d’un mauvais usage, qu’il s’agisse de diffusion massive de fausses informations ou de cyberattaques – voire le fantasme d’une prise de pouvoir par des machines supra-intelligentes, est mise en avant pour justifier la fermeture de ces modèles.

OpenAI, avec d’autres, proclame qu’ouvrir les modèles serait source de danger pour l’humanité. Le débat est en fait souvent difficile à suivre : certains parlent de danger, voire demandent un moratoire sur ce type de recherche, mais continuent d’investir massivement dans le secteur en parallèle.

Par exemple, Elon Musk a signé en mars 2023 la lettre du Future of Life Institute demandant une pause de six mois des recherches en IA, tout en lançant en juillet 2023 xAI, un concurrent d’OpenAI ; Sam Altman, qui dirige OpenAI, parle aussi fréquemment de danger tout en visant des levées de fonds de plusieurs milliards de dollars pour développer des modèles toujours plus puissants.

Si certains croient sans doute vraiment qu’il y a là un danger (mais il faudrait définir lequel exactement), d’autres semblent manœuvrer en fonction de leurs intérêts et des immenses sommes investies.

Des modèles dits « ouverts » qui ne le sont pas tant que ça

Face à cela, d’autres sociétés, comme Méta avec ses modèles Llama, ou Mistral en France, proposent des modèles dits « ouverts ». Mais ces modèles sont-ils réellement ouverts ?

L’ouverture se limite en effet le plus souvent à l’accès aux « poids » du modèle, c’est-à-dire aux milliards de paramètres qui se voient ajustés lors de son entraînement grâce à des données. Mais le code utilisé pour entraîner ces modèles, et les données d’entraînement (ces masses de données cruciales qui permettent au modèle d’analyser et de produire du texte) restent généralement des secrets bien gardés, hors de portée des utilisateurs et même des chercheurs, limitant ainsi la transparence de ces modèles. À ce titre, peut-on vraiment parler de modèle ouvert si seuls les poids sont disponibles et non les autres composantes essentielles ?

L’ouverture des poids offre toutefois des avantages certains. Les développeurs peuvent adapter le modèle sur des données particulières (à travers le « fine tuning ») et surtout, ces modèles offrent une meilleure maîtrise que des modèles complètement fermés. Ils peuvent être intégrés dans d’autres applications, sans qu’il s’agisse de boîte noire uniquement accessible par « prompt engineering », où la façon de formuler une requête peut influer sur les résultats, sans qu’on sache très bien pourquoi.

L’accès aux poids favorise également l’optimisation des modèles, notamment à travers des techniques comme la « quantisation », qui réduit la taille des modèles tout en préservant leur performance. Cela permet de les exécuter sur des machines plus modestes, des ordinateurs portables voire des téléphones.

En rendant les modèles partiellement ouverts, les sociétés propriétaires bénéficient ainsi de l’intérêt de milliers de développeurs, ce qui permet des progrès potentiellement plus rapides que pour les modèles fermés, mis au point par des équipes forcément plus réduites.

Vers des modèles réellement open source ?

Mais peut-on envisager demain la création de modèles de langage réellement open source, où non seulement les poids, mais aussi les données d’entraînement et les codes d’apprentissage seraient accessibles à tous ? Une telle approche soulève des défis techniques et économiques importants.

Le principal obstacle reste la puissance de calcul nécessaire pour entraîner ces modèles, qui est actuellement l’apanage des entreprises dotées de ressources colossales (Google, Meta, Microsoft, etc.) ; OpenAI, ou Mistral en France, ont recours à de la puissance de calcul proposée par différents acteurs, dont les géants de l’informatique suscités. C’est en partie pour couvrir ces coûts – l’accès la puissance de calcul – que ces entreprises doivent régulièrement lever des fonds importants. Le coût énergétique, matériel, et en ressources humaines est prohibitif pour la plupart des acteurs.

Pourtant, des initiatives existent. Des communautés de chercheurs et des organisations à but non lucratif cherchent à développer des modèles ouverts et éthiques, basés sur des jeux de données accessibles, ou du moins transparents.

Ainsi, Allen AI (centre de recherche privé à but non lucratif, financé à l’origine par Paul Allen, le cofondateur de Microsoft décédé en 2018) a mis au point les modèles Olmo et Molmo (modèle de langue et modèle multimodal), qui sont complètement ouverts.

SiloAI, une entreprise finlandaise, en collaboration avec l’Université de Turku a mis au point un modèle multilingue complètement ouvert, Poro, performant pour les langues scandinaves.

En France, Linagora et d’autres travaillent aussi à mettre au point des systèmes ouverts, dans la continuité de Bloom (un modèle complètement ouvert, mis au point par un collectif de chercheurs sous l’impulsion de la société Hugging Face en 2022).

Le modèle économique de ces initiatives reste à déterminer, de même que le retour sur investissement à terme des sommes colossales actuellement en jeu sur ce thème au niveau international.

En pratique, ces modèles sont souvent entraînés sur des infrastructures publiques (Lumi en Finlande pour Poro, Genci en France pour Bloom) : il s’agit souvent de collaborations entre universitaires et entreprises privées pouvant ensuite commercialiser les solutions développées, puisqu’un modèle ouvert n’est pas synonyme de complètement gratuit, et des services annexes comme l’adaptation des modèles pour des besoins particuliers peuvent contribuer au financement de telles initiatives.

Une autre piste se situe dans le développement de modèles de langue spécialisés, moins coûteux en termes de données et d’infrastructure, mais qui pourraient répondre à des besoins spécifiques, ce qui permettrait à des entreprises ou des acteurs plus modestes de tirer leur épingle du jeu.The Conversation

Thierry Poibeau, DR CNRS, École normale supérieure (ENS) – PSL

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté...

Quelle technologie choisir pour connecter les objets ?

Par Frédéric Salles, Président et co-fondateur de Matooma   En 2021, le nombre total d'objets connectés utilisés atteindra les 25 milliards selon Gartner. Il est ainsi légitime de se demander quelles sont les technologies principales permettant de connecter les objets, et quelle pourrait être celle la plus adaptée pour sa solution. Un projet de vidéosurveillance par exemple n'aura absolument pas les mêmes besoins qu'un projet basé sur le relevé de température au milieu du désert. Ainsi pour trouver la meilleure connectivité pour son objet, de nombreuses questions peuvent se poser : mon objet fonctionne-t-il sur batterie ou est-il alimenté ? Mon objet restera-t-il statique ou sera-t-il mobile ?  Mon objet est-il susceptible d'être dans un endroit difficile d'accès ou enterré ? A quelle fréquence mes données doivent-elles remonter ? Etc. Voici les différentes solutions actuellement disponibles sur le marché. Courte distance : RFID/Bluetooth/WiFi La RFID (Ra...

La fin du VHS

La bonne vieille cassette VHS vient de fêter ses 30 ans le mois dernier. Certes, il y avait bien eu des enregistreurs audiovisuels avant septembre 1976, mais c’est en lançant le massif HR-3300 que JVC remporta la bataille des formats face au Betamax de Sony, pourtant de meilleure qualité. Ironie du sort, les deux géants de l’électronique se retrouvent encore aujourd’hui face à face pour déterminer le format qui doit succéder au DVD (lire encadré). Chassée par les DVD ou cantonnée au mieux à une petite étagère dans les vidéoclubs depuis déjà quatre ans, la cassette a vu sa mort programmée par les studios hollywoodiens qui ont décidé d’arrêter de commercialiser leurs films sur ce support fin 2006. Restait un atout à la cassette VHS: l’enregistrement des programmes télé chez soi. Las, l’apparition des lecteurs-enregistreurs de DVD et, surtout, ceux dotés d’un disque dur, ont sonné le glas de la cassette VHS, encombrante et offrant une piètre qualité à l’heure de la TNT et des écrans pl...

6 questions sur Zone-telechargement

Quel était ce site ? Zone-telechargement.com était jusqu'à lundi soir l'un des plus gros sites web français proposant de télécharger des contenus numériques illégaux. En grande majorité des films parfois très récents ; des séries télé notamment américaines qui n'étaient pas diffusées en France ; de la musique ; des logiciels et des jeux vidéo. Les séries et les films étaient disponibles en différentes qualités et ceux en langue anglaise étaient sous-titrés grâce à des communautés d'utilisateurs capables de sous-titrer des épisodes de série 24 heures après leur diffusion aux États-Unis. Le site comptabilisait, selon la gendarmerie, en moyenne 140 millions de pages vues par mois et 11 000 téléchargements par jour. La société Alexa affichait Zone-Telechargement à la 11e place des sites les plus visités de France… devant Twitter ! Zone-Telechargement proposait 18 000 films, 2 500 séries télé ; 11 000 documentaires ; 20 943 émissions télé ; plus de 150 000 MP3 mais aus...

Deepfakes, vidéos truquées, n’en croyez ni vos yeux ni vos oreilles !

Par  Divina Frau-Meigs , Auteurs historiques The Conversation France Les spécialistes en fact-checking et en éducation aux médias pensaient avoir trouvé les moyens de lutter contre les « deepfakes » , ou hypertrucages , ces manipulations de vidéos fondées sur l’intelligence artificielle, avec des outils de vérification comme Invid-Werify et le travail des compétences d’analyse d’images (littératie visuelle), avec des programmes comme Youverify.eu . Mais quelques cas récents montrent qu’une nouvelle forme de cyberattaque vient de s’ajouter à la panoplie des acteurs de la désinformation, le deepfake audio. Aux États-Unis, en janvier 2024, un robocall généré par une intelligence artificielle et prétendant être la voix de Joe Biden a touché les habitants du New Hampshire, les exhortant à ne pas voter, et ce, quelques jours avant les primaires démocrates dans cet État. Derrière l’attaque, Steve Kramer, un consultant travaillant pour un adversaire de Biden, Dean ...

Comment savoir si je suis touché par un logiciel espion ?

Par Allan Camps, Senior Enterprise Account Executive chez Keeper Security Les logiciels espions sont des logiciels malveillants qui, installés à votre insu sur votre appareil, permettent aux cybercriminels de vous espionner et de voler vos informations privées. Ces informations peuvent ensuite être utilisées par des cybercriminels ou vendues sur le dark web pour commettre des fraudes ou des usurpations d'identité. Il est possible de repérer ces logiciels malveillants sur votre appareil en observant des signes particuliers tels que l'épuisement rapide de la batterie, la surchauffe, l'augmentation du nombre de fenêtres pop-up ou de l'utilisation des données, et la présence d'applications inconnues. Comment détecter un logiciel espion sur votre smartphone Android ou votre iPhone ? Recherchez les applications que vous n'avez pas téléchargées. Les applications que vous n'avez pas téléchargées peuvent se cacher dans votre bibliothèque et contenir des logiciels ...