Really Simple Licensing, la riposte des éditeurs face au pillage des contenus par les IA
Le Really Simple Licensing (RSL) est un nouveau standard permettant aux éditeurs et aux auteurs de spécifier, auprès des robots d’exploration déployés sur le web par les intelligences artificielles, les conditions de licence relatives à l’utilisation de leurs contenus. Toutefois, son succès dépendra exclusivement de la bonne volonté des IA à le respecter.
Google-Extended – le robot de Google utilisé pour entraîner ses modèles d’IA dont Gemini –, ChatGPT-User d’OpenAI, CCBot – le robot de l’organisation à but non lucratif Common Crawl dont les gigantesques archives du web sont utilisées par de très nombreuses entreprises d’IA – ou encore le robot Anthropic-AI de la société Anthropic, qui développe le grand modèle de langage Claude, sont parmi les « AI crawlers » les plus actifs sur la toile. Parcourant constamment le web, ces « robots d’exploration IA » aspirent de manière automatisée tout le contenu qu’ils y trouvent, avant que cette masse de données textuelles ne devienne le corpus à partir duquel leur modèle sera entraîné (voir La rem n°69-70, p.52). Jusqu’à présent, les robots d’exploration déployés par les géants de la tech s’exécutaient sans jamais demander l’autorisation aux éditeurs, ni offrir une quelconque compensation financière pour les auteurs et créateurs. Parfois même, en contrevenant ouvertement au droit d’auteur, ils se sont engagés dans une course effrénée à la donnée, d’autant que l’on sait depuis 2020 que « plus on dispose de données pour entraîner un grand modèle de langage, mieux il fonctionnera » (voir La rem n°69-70, p.52).
Face à ce moissonnage systématique de l’intégralité des contenus de qualité du web, les éditeurs et les auteurs n’ont pas tardé à réagir, mais les géants du web les ont mis devant le fait accompli. Cette stratégie de passer outre toute autorisation avant d’être attaqué en justice, puis de devoir négocier, a d’ailleurs été celle menée par Google, depuis 2001, contre les éditeurs de médias d’information en ligne. « La domination des acteurs du numérique continue à passer par l’asymétrie technique et économique dont ils usent pour imposer leurs conditions », analysent les chercheurs Charis Papaevangelou, Franck Rebillard et Nikos Smyrnaios (voir La rem n°71, p.107).
Getty Images, l’une des plus grandes banques d’images au monde, a été parmi les premiers, début 2023, à engager des poursuites à la fois à Londres et aux États-Unis contre Stability AI, la société à l’origine du générateur d’images Stable Diffusion, l’accusant d’avoir traité illégalement des millions d’images de sa banque de données, dont la plupart sont protégées par le droit d’auteur. The New York Times a porté plainte contre OpenAI et Microsoft en décembre 2023, accusant les deux géants de la tech d’avoir utilisé des millions d’articles du journal sans autorisation pour entraîner leur grand modèle de langage.
Plusieurs actions collectives ont également été engagées contre OpenAI, Meta et d’autres entreprises d’IA. L’une des plus notables est probablement celle intentée depuis septembre 2023 par The Authors Guild, le syndicat des auteurs américains contre les géants de la tech. Plus récemment, en août 2024, une autre action en justice a été engagée par des créateurs de contenus sur YouTube contre Google et OpenAI, après avoir découvert que ces derniers utilisaient, de façon illégale, un logiciel capable de transcrire l’audio des vidéos YouTube en texte, pour faire grossir leur corpus d’entraînement de contenus inédits (voir La rem n°69-70, p.52). La question fondamentale posée par la quarantaine d’actions en justice intentées par des éditeurs et par les auteurs à travers le monde contre les développeurs de grands modèles de langage, et dont la plupart sont toujours en cours, est invariablement la même. L’utilisation de contenus protégés par le droit d’auteur pour l’entraînement de modèles d’IA relève-t-elle de l’usage équitable, du fair use, comme le prétendent les géants du web, ou s’agit-il d’une violation avérée des droits des créateurs ?
Pour pallier la multiplication des poursuites judiciaires, mais également celle des accords de licence individuels que les éditeurs d’IA signent avec une petite poignée de grands médias d’information et d’éditeurs de contenus qui se sentent assez forts pour tirer leur épingle du jeu – parmi lesquels Le Monde, Associated Press, Axel Springer, News Corp ou encore le Financial Times –, une organisation à but non lucratif, inspirée des sociétés de gestion des droits d’auteur telle The American Society of Composers, Authors and Publishers (ASCAP), qui agit comme une chambre de compensation pour la gestion des droits, a été inaugurée en septembre 2025 : le collectif RSL, pour « Really Simple Licensing ». Ce nom est un clin d’œil à la norme RSS, Really Simple Syndication, créée dans les années 2000 pour agréger des contenus provenant de sites web de manière standardisée sous la forme de fichiers XML, dont certains cocréateurs, comme Eckart Walther et Ramanathan V. Guha, sont également impliqués dans le projet RSL. Ce collectif rassemble de très nombreux éditeurs de contenus et diverses personnalités du web, tous américains, dont, notamment, Reddit, Yahoo, People Inc., Medium, Quora, O’Reilly Media et Ziff Davis, ainsi que des entreprises spécialisées dans les infrastructures qui participent à la mise en œuvre opérationnelle de la norme RSL.
Le standard RSL est un protocole ouvert qui permet aux éditeurs de contenus sur le web d’intégrer facilement des conditions de licence, lisibles par les robots d’exploration IA, spécifiant les modalités d’utilisation et de facturation de leur contenu. Ces informations de licence contenues dans un petit fichier texte indiquent une grande variété de conditions d’utilisation, comme l’accès gratuit, la nécessité d’attribution de la source, un abonnement payant, un paiement par « crawl », c’est-à-dire chaque fois qu’un robot explore le contenu, ou encore un paiement par « inférence », chaque fois que l’IA utilise le contenu d’un éditeur pour générer une réponse. Pour Eckart Walther, l’objectif n’est ni plus ni moins que de « créer un nouveau modèle économique évolutif pour le web », expliquait-il au média américain The Verge en septembre 2025. En son temps, la norme RSS a véritablement démocratisé l’accès à l’information, en favorisant l’émergence de nouvelles formes de curation et de distribution de contenus, et encore aujourd’hui, de manière méconnue du grand public, la norme RSS est l’épine dorsale de la diffusion des podcasts. Et c’est bien là l’ambition du collectif à l’initiative du projet RSL que d’avoir le même succès que le RSS, dont il n’emprunte toutefois que le nom. Encore faut-il que les éditeurs d’IA jouent le jeu.
Les limites du fichier robots.txt
Petit fichier texte placé à la racine d’un site web, un « robots.txt » donne des instructions aux robots d’exploration, principalement ceux des moteurs de recherche comme Google ou Bing. Son rôle est d’indiquer quelles sont les pages ou les sections du site web que ces robots sont autorisés à visiter et à indexer dans leurs résultats de recherche, et quelles sont celles qu’ils sont également censés ignorer. Toutefois, ce sont uniquement des instructions, c’est-à-dire que certains robots, comme ceux de DuckDuckGo par exemple, vont suivre les règles du fichier robots.txt d’un site web alors que d’autres, malveillants, vont tout simplement les ignorer.
Face à la grogne croissante des éditeurs de contenus, Google avait proposé, dès septembre 2023, d’indiquer, dans ce même fichier robots.txt, une ligne de code empêchant le robot d’exploration Google-Extended d’aspirer leurs contenus. Mais ceci ne fonctionnait que pour Google, sans que l’on sache non plus avec certitude s’il respectait ces consignes, ce petit fichier n’ayant aucune valeur juridique. Bien que le RSL propose une liste d’instructions beaucoup plus complète pour les robots d’exploration d’IA, il n’en demeure pas moins, lui aussi, une simple directive que certaines IA pourront éventuellement choisir de suivre, tandis que d’autres probablement l’ignoreront. De plus, contrairement au suivi d’une chanson diffusée en ligne, il est quasiment impossible de savoir si un contenu a été intégré au corpus d’entraînement d’un grand modèle de langage sans que l’information ait été enregistrée au moment où elle est indexée. Bien conscient de cette limite, le collectif RSL tente de collaborer avec des fournisseurs d’infrastructures techniques, tels que Fastly, un réseau de diffusion de contenus (content delivery network, voir La rem n°16, p.42), afin de développer des mécanismes bloquant les robots qui ne respecteraient pas les consignes du fichier robots.txt, mais cette protection ne fonctionnera que pour les sites web clients de Fastly.
Autre problème de taille, financier cette fois : pour Tony Stubblebine, PDG de Medium, « si l’IA est entraînée sur le travail de nos écrivains, alors elle doit payer pour ce travail. À l’heure actuelle, l’IA fonctionne avec du contenu volé. Adopter cette norme RSL est notre façon de forcer ces entreprises d’IA à payer pour ce qu’elles utilisent, à cesser de l’utiliser, ou à fermer ». La question qui se pose est, bien évidemment, celle de savoir si les éditeurs de grands modèles de langage auront les fonds nécessaires pour rémunérer l’ensemble des contenus qu’ils utilisent illégalement ? Le risque n’est-il pas une baisse de la valeur des contenus, à l’image du marché de la musique en ligne où Deezer et Spotify versent entre 0,003 et 0,005 centime d’euros par écoute aux ayants droit qui, eux-mêmes, reverseront entre 15 et 25 % à l’artiste ?
Dans tous les cas, la solution technique grâce à laquelle les éditeurs de contenus imposeront aux IA leurs conditions, assortie d’une juste rémunération, n’existe pas encore. Le succès de l’initiative dépendra de la capacité du collectif RSL à convaincre les grandes entreprises d’IA d’adopter cette norme, sans toutefois pouvoir vérifier s’ils ne continuent pas discrètement leurs pratiques, et sans davantage pouvoir s’opposer aux acteurs malveillants qui, immanquablement, continueront de piller les contenus des auteurs et des artistes.
Sources :
- RSL Collective, https://rslcollective.org/press.
- « Who blocks OpenAI, Google AI and Common Crawl? », https://palewi.re.
- RSL, « The open content licensing standard for the AI-First Internet », rslstandard.org.
- Vaughan-Nichols Steven, « AI’s free web scraping days may be over, thanks to this new licensing protocol », zdnet.com, September 10, 2025.
- RSL Collective, « New RSL web standard and collective rights organization automate content licensing for the AI-First Internet and enable fair compensation for millions of publishers and creators », rslcollective.org, September 10, 2025.
- Russell Brandom, « RSS co-creator launches new protocol for AI data licensing », techcrunch.com, September 10, 2025.
- Roth Emma, « The web has a new system for making AI companies pay up », theverge.com, September 10, 2025.
- Herrman John, « The AI-Scraping free-for-all is coming to an end », Intelligencer, September 14, 2025.