IA open source
Les grands modèles de langage open source prennent une importance considérable dans le débat public et se présentent souvent comme une alternative au modèle propriétaire des géants technologiques américains tels que GPT-4 d’OpenAI, soutenu par Microsoft ou Anthropic et ses partenaires, Amazon et Google. Toutefois, si la perspective d’une IA dont le code source est librement accessible, modifiable et utilisable gratuitement, séduit par son potentiel de démocratisation et d’accélération de l’innovation, la réalité de sa mise en œuvre et ses implications concrètes sont loin d’être simples et font l’objet de vifs débats.
Même si les grandes entreprises de la tech et les stratégies des grandes puissances mondiales politisent de plus en plus les enjeux de l’open source (voir La rem n°64, p.92), ces logiciels sont progressivement devenus, depuis les années 1980, l’alternative privilégiée aux logiciels dits « propriétaires », notamment dans « les briques logicielles critiques, les langages et protocoles d’internet et le développement des technologies émergentes ».
L’open source, tel que défini par l’Open Source Initiative (OSI), l’organisation de référence en la matière, désigne un modèle de distribution logicielle garantissant la liberté d’accès, de modification et de redistribution du code source. Dans le contexte de l’intelligence artificielle générative et des grands modèles de langage (Large Language Models – LLM), l’open source est toutefois loin de correspondre uniformément aux principes d’accessibilité, de transparence, de liberté d’utilisation, de modification et de partage du code. Rappelons que les grands modèles de langage sont des systèmes informatiques « artificiellement intelligents » à qui l’on « apprend » statistiquement, à partir de volumineux corpus de textes, des « probabilités de succession de mots basées sur l’analyse du contexte de leur utilisation », explique Laurence Devillers, professeure en informatique à l’université Paris-Sorbonne (voir La rem n°65, p.27). Le fonctionnement et la mise en place d’un grand modèle de langage suivent ainsi une série d’étapes complexes, dont le statut de chacune peut être fermé et propriétaire ou bien au contraire open source et public. De manière schématique, nous pourrions distinguer cinq grandes étapes dans le déploiement d’une IA générative.
L’acquisition et le prétraitement des données
Première étape, l’acquisition et le prétraitement des données (Data Acquisition and Preprocessing), consiste à collecter et à « nettoyer » d’immenses corpus de données textuelles, de plusieurs milliards de mots, qui seront représentés sous la forme de tokens, afin d’être manipulables par le programme informatique. Cette étape cruciale, objet d’une compétition féroce entre la majorité des éditeurs de grands modèles de langage (voir La rem n°69-70, p.52) est très rarement dévoilée. En effet, « selon toute vraisemblance, beaucoup [de grands modèles de langage] utilisent des contenus sous copyright pour entraîner leurs modèles. La légalité de cette pratique étant loin d’être assurée, [ils] n’ont pas intérêt à divulguer trop d’indices », précise Sébastien Broca, maître de conférences en sciences de l’information à l’université Paris 8.
L’architecture de modèle
Vient ensuite le choix de l’architecture du grand modèle de langage (Model Architecture), c’est-à-dire la structure du réseau neuronal qui lui permettra de traiter et de générer du langage. Bon nombre de grands modèles de langage s’appuient aujourd’hui sur l’architecture Transformer, dont des mécanismes d’attention laissent le modèle pondérer l’importance des différentes parties d’un texte. Il apparaît que le code source de ces architectures de modèles, comme Recurrent Neural Networks (RNN) ou encore Transformer, sont souvent accessibles en open source, et font l’objet de publication dans des articles de recherche. En 2018, Google Research a ainsi développé et publié en open source BERT (Bidirectional Encoder Representations from Transformers) le premier modèle de traitement automatique du langage naturel qui a introduit le traitement de la polysémie des mots, améliorant ainsi considérablement les performances des IA génératives (voir La rem n°68, p.41). Mais, pour Yann Lechelle, informaticien et fondateur de la start-up Probabl, « il y a un phénomène d’open source washing : […] les Big Tech captent la valeur de l’open source et ne la rendent pas à la communauté ». Selon ce dernier, la version 2022 de ChatGPT, présentée par OpenAI, s’est ainsi clairement inspirée de la publication du modèle open source BERT de Google Research, tout en conservant propriétaire le code source de son propre outil d’intelligence artificielle.
L’entraînement du modèle
La troisième étape est celle de l’entraînement du modèle en lui-même (Model Training), celle-là même qui nécessite à la fois de gigantesques ressources de calcul et des investissements colossaux. Elle consiste à alimenter le modèle avec les données prétraitées et à ajuster les milliards de paramètres numériques appelés « poids » (weights) pour qu’il « apprenne » à prédire le mot suivant dans une séquence de texte, ou encore à générer une image ou une vidéo. Les détails du code, des paramètres et du processus d’entraînement, qui deviennent la « mémoire » du modèle, sont gardés secrets par certains éditeurs comme GPT-4 d’OpenAI, essentiellement pour des raisons de concurrence. D’autres, au contraire, publient les paramètres entraînés de leur modèle. On parle alors de modèle à « poids ouverts » (open weights), ce qui donne à quiconque la possibilité de télécharger et d’utiliser directement la version entraînée.
Ce n’est pas le code source du modèle ou celui de sa structure qui est rendu public, mais bien le résultat concret de l’entraînement qui permet notamment de reproduire les résultats du modèle, de l’adapter à un usage spécifique (voir infra, Fine-tuning), de l’intégrer dans un service sans dépendre d’une API (application programming interface) externe ou encore d’en étudier les biais. Le modèle américain LLaMA 2 de Meta, sous certaines conditions, le modèle français Mistral.ai, le modèle émirati Falcon de Technology Innovation Institute ou encore le modèle chinois DeepSeek sont tous des modèles open weight. Sur Hugging Face, une entreprise franco-américaine qui abrite la plus grande librairie open source de modèles d’intelligence artificielle, ainsi que leurs poids, leur code source et leurs jeux de données, les modèles open weights V3 et R1 de DeepSeek ont déjà été téléchargés plus de 700 000 fois par des développeurs et des entreprises. Le modèle chinois DeepSeek a déjà servi de base à près de 1 000 nouveaux grands modèles de langage ouverts et le modèle LlaMA 2 de Meta a été téléchargé 800 millions de fois depuis février 2023 jusqu’à aujourd’hui, en mai 2025.
L’inférence
Quatrième étape, l’inférence est l’utilisation du modèle entraîné pour générer de nouvelles séquences de texte en réponse à un prompt – soit l’instruction donnée ou la question posée à une intelligence artificielle afin que celle-ci génère une réponse. Lorsque le grand modèle de langage est fermé, comme ChatGPT, Claude ou encore Gemini, un utilisateur, qu’il soit un particulier ou une entreprise, doit passer par une plateforme en ligne pour utiliser le modèle, et l’ensemble des données transitent par les serveurs de l’éditeur informatique. Lorsque le modèle est en open weights et que les paramètres entraînés sont publics, un utilisateur, sous réserve de disposer des ressources matérielles et du savoir-faire technique, peut le télécharger, l’exécuter sur ses propres serveurs, construire des logiciels l’intégrant et faire l’inférence de manière autonome, sans dépendre d’une entreprise extérieure, gardant ainsi le contrôle sur la confidentialité des données et sur de nombreux autres paramètres propres à la personnalisation du modèle.
Le réglage précis et l’apprentissage par renforcement
Dernière étape, le réglage précis et l’apprentissage par renforcement (Fine-tuning and Reinforcement Learning) ont pour objet d’entraîner davantage un modèle déjà préentraîné sur un ensemble de données plus petit et spécifique à une tâche, en intégrant notamment le retour d’expérience de personnes et d’utilisateurs, afin d’adapter au mieux le modèle aux préférences humaines. Cette étape, appelée « apprentissage par renforcement supervisé par l’humain », Reinforcement Learning from Human feedback (RLHF), est à la fois très coûteuse, en termes de ressources, et hautement stratégique, puisque c’est cette étape qui permettra d’ajuster finement le modèle. En fait, les informations concernant le Fine-tuning et l’apprentissage par renforcement sont souvent omises par les entreprises se réclamant de l’open source. Hugging Face a même lancé un projet appelé Open-R1, pour tenter de reproduire et rendre publiques les méthodes de renforcement de DeepSeek. Quant à Meta, l’entreprise californienne ne donne aucune information sur le renforcement de LlaMA 2, qui est pourtant publié en open weights, et ne partage ni la liste précise des données utilisées, ni leur volume exact ou leurs sources détaillées, pas plus que les détails de l’apprentissage par renforcement supervisé par l’humain.
L’illusion de l’ouverture
Les caractères open source et open weights des grands modèles de langage se jouent à plusieurs niveaux selon qu’ils concernent le prétraitement des données, l’architecture du modèle, son entraînement, l’inférence ou encore ses ajustements finaux. Néanmoins, même si certains acteurs s’appuient sur une architecture de modèle publique et proposent des modèles préentraînés en open weights, les données d’entraînement en elles-mêmes ainsi que les détails des processus d’entraînement et de renforcement restent très souvent propriétaires, entraînant l’illusion d’une ouverture.
Les grands modèles de langage tels que LLaMA, Mistral ou DeepSeek se revendiquent être des « IA open source » et prétendent incarner une approche fondée sur la transparence algorithmique et la mutualisation des efforts. Cette ouverture est censée favoriser une innovation décentralisée permettant à des acteurs variés – chercheurs, start-up, institutions publiques – de s’approprier, d’auditer et d’adapter les modèles à des contextes spécifiques. C’est en partie illusoire, puisque aucun de ces modèles ne publie ses jeux de données d’entraînement et le détail des processus de Fine-tuning. À l’opposé, les modèles propriétaires, développés par des entreprises telles qu’OpenAI ou Anthropic, assument le caractère fermé de leur modèle et l’opacité qui entrave l’auditabilité et la compréhension des biais potentiels. Ce qui soulève des questions majeures, « en termes de concentration économique et d’influence sur les normes sociétales », s’inquiète Benoît Cœuré, président de l’Autorité de la concurrence.
La définition de l’IA open source est disputée et mouvante, et les entreprises commerciales ont tout intérêt à entretenir une certaine confusion pour continuer d’utiliser ce label fédérateur tout en protégeant certains secrets de fabrication. Selon l’index européen de l’IA Open-Source, une ressource publique à but non lucratif hébergée au Centre of Language and Speech Technology de l’université Radboud, aux Pays-Bas, et gérée par une petite équipe d’universitaires et de membres de la communauté, le plus ouvert des grands modèles de langage actuellement est OLMo de Ai2, porté par l’institut de recherche à but non lucratif Allen Institute for AI, la fondation du milliardaire Paul Allen, décédé en 2018, l’un des cofondateurs de Microsoft.
L’option pour les grands modèles de langage ne se résume pas à un choix binaire, mais elle oscille entre deux opposés, l’ouverture radicale et la fermeture totale. Cependant, en général, les projets les plus fidèles à l’esprit open source ne sont pas commerciaux. Cela reflète les tensions entre innovation collaborative et contrôle unilatéral, entre souveraineté technologique et dépendance commerciale.
Un modèle hybride à but lucratif plafonné
L’entreprise leader du secteur, OpenAI, illustre à elle seule ces tensions. Conçue à l’origine comme un projet à but non lucratif, prônant la transparence et l’accès universel à l’intelligence artificielle, l’entreprise a finalement adopté, depuis 2023, un modèle fermé, contrôlé par une structure à but lucratif plafonné. Elle a levé près de 60 milliards de dollars à travers onze levées de fonds et elle garde secrets, depuis le lancement de GPT-4, les poids, les données d’entraînement et les mécanismes internes de ses modèles les plus avancés, au nom de la sécurité et de la compétitivité. Le « modèle hybride à but lucratif plafonné » d’OpenAI vise, selon GPT-4, à « à la fois à attirer des investissements privés conséquents et à rester fidèle à une mission à visée éthique et non lucrative ». Les investisseurs et les employés d’OpenAI ont ainsi l’opportunité de percevoir un retour sur investissement (limité à cent fois leur mise). Les bénéfices dépassant ce plafond sont alloués à la fondation pour « servir l’intérêt général ». Un rapide calcul fait cependant douter du montage financier : à lui seul, Microsoft, qui a investi 13 milliards dans OpenAI, pourrait théoriquement récupérer 1 300 milliards de dollars, soit plus que sa propre valorisation à ce jour.
En mai 2025, OpenAI a annoncé vouloir se restructurer et transformer la branche commerciale OpenAI LP en Public Benefit Corporation (PBC), une entreprise à but lucratif engagée toutefois à respecter une mission d’intérêt général. Sam Altman, le PDG d’OpenAI, déclarait en janvier 2025, lors d’un jeu de questions/réponses (Ask me anything – AMA) sur le site de discussion Reddit, « nous avons été du mauvais côté de l’histoire concernant l’open source, […] je pense que nous devons trouver une stratégie différente ». Puis, dans un entretien avec le média américain Business Insider, il indiquait qu’OpenAI envisageait d’adopter « deux nouvelles approches en IA, l’une de DeepSeek et l’autre de Meta ». Faut-il voir dans ces annonces un changement notable dans la stratégie d’OpenAI ou un simple effet d’annonce pour tempérer les critiques de son modèle fermé face au modèle partiellement open source de la concurrence chinoise et américaine ?
Sources :
- European Open-Source AI index, osai-index.eu/model
- Boone Joséphine, « En croisade contre OpenAI, Elon Musk passe son programme d’IA en open source », lesechos.fr, 12 mars 2024.
- Tual Morgane, Piquard Alexandre, « Meredith Whittaker, présidente de Signal : "L’IA concentre le pouvoir dans les mains des géants de la tech" », lemonde.fr, 23 mai 2024.
- Goulard Hortense, « Creatio, l’ambitieuse licorne du "no code" et de l’IA générative », lesechos.fr, 1er juillet 2024.
- Orhan Alexandre, « L’IA open source, réponse européenne face à l’offensive américaine », lesechos.fr, 13 décembre 2024.
- Caulier Sophy, « L’open source, l’armée de l’ombre du logiciel… et de l’Intelligence artificielle », lemonde.fr, 5 janvier 2025.
- Szadkowski Michaël, Six Nicolas, « DeepSeek, la réponse chinoise à ChatGPT, expliquée en six questions », lemonde.fr, 28 janvier 2025.
- « AMA with OpenAI Sam Altman, Mark Chen, Kevin Weil, Srinivas Narayanan, Michelle Pokrass, et Hongyu Ren », reddit.com/r/OpenAI, January 2025.
- Piquard Alexandre, « Derrière DeepSeek et le sommet de Paris se cache l’enjeu d’une intelligence artificielle ouverte et sobre », lemonde.fr, 30 janvier 2025.
- Nobilo Bianca, « DeeSeek et le dilemme prométhéen : l’éthique de l’IA open source », lesechos.fr, 10 février 2025.
- Six Nicolas, « La part d’ombre des intelligences artificielles qui se disent "open source" », lemonde.fr, 14 février 2025.
- Boone Joséphine, « Pourquoi l’open source est devenu un enjeu majeur dans l’IA », lesechos.fr, 22 février 2025.
- Piquard Alexandre, « Intelligence artificielle : la bataille des modèles en open source », lemonde.fr, 13 mars 2025.
- Lescop Sebastien, « L’open source est la clé de l’indépendance numérique de l’Europe », lesechos.fr, 25 mars 2025.
- Price Rob, « OpenAI thinks it has defused its multibillion-dollar time bomb », businessinsider.com, May 6, 2025.