Rapport de mission relative à la mise en œuvre du règlement européen établissant des règles harmonisées sur l’intelligence artificielle (« template »)
Comment concilier droits d’auteur et données d’entraînement des IA ?
Aujourd’hui, la majorité des modèles d’intelligence artificielle à usage général, déployés par des acteurs comme OpenAI et Microsoft, Google ou encore Meta, est entraînée sur d’énormes quantités de données « moissonnées » sur le web, parfois librement accessibles,
ou faisant l’objet de licences spécifiques, mais également sur des données récupérées sans autorisation explicite, et notamment des œuvres protégées, sans que les créateurs en soient informés. Le règlement européen sur l’intelligence artificielle (RIA) du 13 juin 2024 voudrait mettre fin à ces pratiques et créer « un cadre favorable à l’innovation et protéger les droits et valeurs de l’Union européenne », en contraignant les créateurs de modèles d’intelligence artificielle à prendre des mesures pour respecter le droit d’auteur et les droits voisins.
L’article 53, 1, d dudit règlement impose dorénavant à ces mêmes acteurs de rendre public un « résumé suffisamment détaillé » des données ayant servi à l’entraînement de leur modèle, afin de permettre aux auteurs et ayants droit de savoir si leurs œuvres ont été utilisées dans l’entraînement d’un modèle d’IA, de vérifier le respect du droit d’auteur, notamment lorsque ce dernier aura décidé d’exclure ses œuvres d’un traitement par une IA, ce qui n’est clairement pas le cas aujourd’hui, et également de faciliter les contrôles réglementaires par les autorités compétentes.
La mission du Conseil supérieur de la propriété littéraire et artistique relative à la mise en œuvre du règlement européen sur l’intelligence artificielle, présidée par Alexandra Bensamoun, avec l’appui de Lionel Ferreira et le soutien de Frédéric Pascal, dont le rapport a été publié le 11 décembre 2024, visait à « préciser la portée des dispositions de l’article 53, 1, d » et à proposer, au nom de la France, « un modèle de "résumé suffisamment détaillé" » conforme à celui fourni par ce nouveau service de la Commission européenne créé par le règlement européen : le Bureau de l’intelligence artificielle. Tout l’enjeu de l’article 53 du règlement européen consiste à trouver le savant équilibre entre l’insatiable appétit des IA en termes de données (voir La rem n°69-70, p.52), le secret des affaires, la facilité avec laquelle ces acteurs pourraient s’y conformer et le respect des droits d’auteur
et droits voisins, aujourd’hui largement foulés aux pieds par ces entreprises américaines.
Pour Alexandra Bensamoun, « une lecture finaliste et globale de l’article 53, 1, d donne toute sa portée à une expression qui semble être, de prime abord, un oxymore si l’on se concentre sur les seuls termes "résumé" et "détaillé". Le résumé est suffisamment détaillé s’il permet d’atteindre cet objectif. Autrement dit, le degré de détail s’apprécie au regard de l’objectif, avec une limite, celle du secret des affaires ». La finalité de l’article 53 est, avant tout, de « mettre les titulaires de droits en capacité de déterminer si leurs œuvres et objets protégés ont pu être utilisés. Peu importe si des milliards de lignes doivent être renseignées. Ce n’est pas techniquement impossible pour des acteurs du numérique habitués à manipuler des données massives et les titulaires de droits (à travers parfois leurs représentants) savent de plus en plus gérer de tels volumes », expliquent les auteurs du rapport. Ce « résumé détaillé » doit permettre « d’identifier l’utilisation potentielle d’une œuvre ou d’un contenu protégé, mais pas de détailler comment ce contenu a été utilisé » ; autrement dit, « la liste précise d’ingrédients peut être rendue publique, mais pas la recette ».
Les auteurs du rapport proposent quatre lignes directrices pour le modèle de résumé. Tout d’abord, le modèle de résumé suffisamment détaillé doit être « "simple et utile" pour permettre au fournisseur d’IA de l’élaborer ». Puis, « les principaux éléments de la politique de conformité doivent figurer en amont, puisqu’ils justifient, en aval, la présence ou l’absence de certains éléments », c’est-à-dire que les règles à respecter doivent être définies dès le départ. « S’agissant, ensuite, des informations relatives aux contenus, le degré de détail attendu est fonction du degré de fiabilité des sources. » Lorsque les contenus sont libres de droit, « il n’y a pas à exiger une granularité fine d’information », mais lorsque « les contenus relèvent d’arrangements contractuels », le fournisseur d’IA doit s’assurer du respect des droits d’auteur et voisins en mettant en place une politique interne pour s’assurer qu’ils ont été respectés. Enfin, « le modèle de résumé doit requérir en amont des informations contextuelles importantes » et notamment un point de contact pour toute demande ou procédure et mentionner si le modèle est créé ex nihilo ou à partir d’un autre modèle. La mission rappelle avec force que « de manière générale, la transparence est une condition de l’effectivité des droits […] et le préalable à l’émergence d’un marché éthique et compétitif, respectueux de la chaîne de valeur et rémunérant à ce titre les contenus sous droits ».
Rapport de mission relative à la mise en œuvre du règlement européen établissant des règles harmonisées sur l’intelligence artificielle (« template »), Alexandra Bensamoun, Lionel Ferreira, Frédéric Pascal, Conseil supérieur de la propriété littéraire et artistique (CSPLA), 9 décembre 2024.