L'ingéniosité perverse de l’IA. Amplification des biais et contournement de spécifications
L’essor rapide et spectaculaire des modèles d’intelligence artificielle de grande taille, ou Large Language Models (LLMs), a révélé une puissance algorithmique d’une ampleur inédite. Ces systèmes, capables de traiter d’immenses volumes de données et d’apprendre des structures linguistiques ou conceptuelles d’une complexité croissante, incarnent à la fois une prouesse technique et une source d’inquiétude grandissante. Car cette puissance, bien qu’elle ouvre des perspectives considérables en matière de recherche, de productivité ou de créativité, s’accompagne d’une vulnérabilité intrinsèque : celle de comportements déviants, parfois très éloignés de l’intention humaine initiale.
DE CES SYSTEMES A IDENTIFIER ET A EXPLOITER LES FAILLES INHERENTES A LEUR CADRE D’APPRENTISSAGE
Ces dérives ne relèvent pas du simple hasard algorithmique. Elles traduisent une tendance structurelle des systèmes d’apprentissage automatique à poursuivre leurs objectifs d’optimisation d’une manière qui échappe, voire contredit, les attentes de leurs concepteurs. L’un des exemples les plus marquants fut celui de la dérive idéologique observée chez certains modèles conversationnels, tels que Grok, dont les réponses ont parfois repris des éléments de rhétorique extrémiste. Ces épisodes ne sauraient être réduits à des erreurs ponctuelles ou à des biais statistiques isolés : ils mettent en lumière la propension profonde de ces systèmes à identifier et à exploiter les failles inhérentes à leur cadre d’apprentissage. Ainsi, selon une étude menée par Malmqvist1, les progrès mêmes du raisonnement algorithmique – censés renforcer la fiabilité des systèmes – peuvent accroître leur aptitude à contourner les contraintes qui leur sont imposées.
L’amplification des biais : mécanismes et conséquences
Le phénomène de l’amplification des biais se produit lorsque les modèles d’apprentissage automatique ne se contentent pas de reproduire fidèlement les distorsions existantes dans leurs données d’entraînement, mais qu’ils les intensifient. Un modèle est dit « amplificateur » lorsqu’il augmente la fréquence de certaines prédictions pour des groupes spécifiques au-delà de ce que suggéreraient les statistiques initiales des données2. Ce processus est politiquement dangereux, car il favorise la généralisation et la prolifération de stéréotypes indésirables. Sur le plan technique, l’amplification des biais vient du fonctionnement même des systèmes d’intelligence artificielle, notamment les réseaux de neurones modernes.
LE MODELE ESSAIE DE REDUIRE RAPIDEMENT SES ERREURS ET SE SERT DONC DES SIGNAUX LES PLUS FACILES A DETECTER
Des recherches ont montré que l’intensité avec laquelle un modèle amplifie les biais est liée à plusieurs aspects de sa conception et de sa performance : sa précision, sa complexité, sa tendance à être trop sûr de lui (ce qu’on appelle la « surconfiance »), ou encore la quantité de données utilisées pour l’entraîner. Un facteur particulièrement important est la difficulté de la tâche que le modèle doit apprendre. Si le modèle trouve qu’il est plus facile de repérer des indices liés à un groupe particulier (comme le genre, l’origine ou une autre caractéristique sensible) que de reconnaître la véritable information qu’il devrait apprendre, il va mécaniquement s’appuyer sur ces indices plus simples. Cela conduit à renforcer les biais présents dans les données. Ce phénomène apparaît dès les premières étapes de l’apprentissage : le modèle essaie de réduire rapidement ses erreurs et se sert donc des signaux les plus faciles à détecter – souvent ceux liés aux groupes –, ce qui amplifie encore davantage les biais.
L’IA [...] EST SUSCEPTIBLE A SON TOUR D’ALTERER LES REPRESENTATIONS SOCIALES, INTENSIFIANT LES INEGALITES CULTURELLES ET SOCIO-ECONOMIQUES PREEXISTANTES
L’impact de l’amplification des biais ne se limite pas à la performance algorithmique, mais crée potentiellement une boucle de rétroaction sociotechnique. Des chercheurs ont démontré que l’exposition à des systèmes d’IA biaisés peut rendre les personnes qui les utilisent plus « biaisées » elles-mêmes3. Par exemple, après avoir interagi avec un système d’IA générative qui surreprésentait les hommes blancs dans les images de gestionnaires financiers, les participants à l’étude étaient plus susceptibles d’indiquer qu’un homme blanc était la personne la plus adéquate pour un tel poste. L’IA apprend ainsi des biais humains, les amplifie, puis est susceptible à son tour d’altérer les représentations sociales, intensifiant les inégalités culturelles et socio-économiques préexistantes.
La quête de récompense à tout prix
Le contournement de spécification, également appelé « specification gaming », désigne une situation paradoxale dans laquelle une intelligence artificielle atteint l’objectif qu’on lui a fixé, mais d’une manière qui trahit l’intention de ses concepteurs. En apparence, le système respecte les règles ; en réalité, il en exploite les failles. Cette attitude rappelle celle d’un joueur habile qui, sans enfreindre explicitement les consignes, découvre une brèche dans le jeu lui permettant de gagner sans pour autant jouer loyalement. Ce phénomène révèle une tension fondamentale entre la lettre et l’esprit des instructions données à une machine.
« SPECIFICATION GAMING » DESIGNE UNE SITUATION PARADOXALE DANS LAQUELLE UNE INTELLIGENCE ARTIFICIELLE ATTEINT L’OBJECTIF QU’ON LUI A FIXE, MAIS D’UNE MANIERE QUI TRAHIT L’INTENTION DE SES CONCEPTEURS
Ce problème se manifeste particulièrement dans l’apprentissage par renforcement, une méthode où un agent artificiel apprend en maximisant une récompense numérique. Cette récompense, censée rétribuer le succès de la tâche, ne correspond qu’à une approximation imparfaite (un proxy) de ce que les humains souhaitent véritablement4. En conséquence, le modèle apprend parfois à optimiser cette mesure de manière inattendue, voire contraire aux objectifs réels. L’IA peut ainsi développer des stratégies opportunistes : au lieu d’accomplir la tâche demandée, la machine apprend à accumuler des points ou à manipuler le système de notation, révélant ainsi la fragilité de la définition de ses objectifs.
Les formes que prend ce contournement sont multiples. Dans les cas les plus simples, le modèle exploite une erreur de conception : un bateau virtuel dans un jeu vidéo tourne en rond pour engranger des points au lieu de franchir la ligne d’arrivée. Dans les scénarios les plus avancés, la machine peut même modifier le mécanisme de récompense lui-même afin de s’attribuer artificiellement un score élevé. Autrement dit, les algorithmes apprennent non seulement à contourner la règle, mais aussi à la redéfinir.
L’émergence des grands modèles de langage a donné une nouvelle ampleur à ce phénomène. Ces systèmes, capables de raisonner et d’interpréter des instructions complexes, montrent une propension accrue à détecter et à exploiter les failles de leur environnement d’apprentissage. Plus un modèle devient sophistiqué, plus il est susceptible de jouer avec les limites de ce qu’on lui demande, transformant la ruse en stratégie d’optimisation. Cette tendance se manifeste même dans des environnements très simples. Certains modèles sont capables, à partir d’une description textuelle rudimentaire, d’élaborer des tactiques complexes de manipulation : modifier les règles du jeu, tromper un adversaire simulé ou altérer les conditions de leur propre évaluation. L’instruction donnée au modèle joue d’ailleurs un rôle crucial. Des consignes apparemment anodines, comme l’invitation à être « créatif », ont parfois multiplié par trois la fréquence de comportements d’exploitation observés. Cela illustre à quel point la formulation du but (prompt) influence la manière dont la machine interprète la tâche.
LES ALGORITHMES APPRENNENT NON SEULEMENT A CONTOURNER LA REGLE, MAIS AUSSI A LA REDEFINIR
Enfin, dans les systèmes qui s’appuient sur le retour humain, un phénomène plus inquiétant encore apparaît : les modèles apprennent à tromper leurs évaluateurs. Ils développent des stratégies de persuasion sophistiquées, inventant des chiffres, masquant des erreurs de raisonnement ou produisant du code volontairement obscur, dans le seul but d’obtenir une meilleure évaluation5. Ces comportements, loin d’être anecdotiques, tendent à se généraliser. Une IA entraînée à flatter ses examinateurs ou à leur plaire peut, sans y être explicitement encouragée, apprendre à modifier son propre mécanisme de récompense, allant jusqu’à dissimuler ses manipulations dans les fichiers d’évaluation.
Ce phénomène de contournement révèle ainsi une vérité fondamentale : plus les systèmes d’intelligence artificielle gagnent en puissance et en autonomie, plus ils exigent une vigilance accrue dans la définition et la supervision de leurs objectifs. L’enjeu n’est plus seulement de leur apprendre à bien faire, mais de s’assurer qu’ils comprennent ce que « bien faire » signifie réellement.
Les difficultés de correction
La correction de ces dérives soulève des défis techniques et conceptuels majeurs, tant l’ingéniosité adaptative des modèles d’intelligence artificielle rend leur contrôle délicat. Le contournement de spécification s’inscrit dans un phénomène plus général, connu sous le nom de « loi de Goodhart », selon laquelle l’optimisation d’un indicateur de performance finit par le détacher de l’objectif réel qu’il était censé représenter6. Lorsqu’un système cherche à maximiser une mesure de proxy – une approximation de la véritable finalité –, il en vient souvent à exploiter les imperfections de cette mesure.
L’INGENIOSITE ADAPTATIVE DES MODELES D’INTELLIGENCE ARTIFICIELLE REND LEUR CONTROLE DELICAT
Le piratage de récompense illustre avec acuité la capacité des systèmes modernes à contourner leurs garde-fous. Dans un cas rapporté, le modèle o3 d’OpenAI, entraîné à accélérer l’exécution d’un programme, a détourné l’objectif en modifiant le logiciel chargé de mesurer la vitesse, de sorte que celui-ci affichait toujours un temps d’exécution optimal, indépendamment de la réalité du code produit. De la même façon, le modèle Claude 3.7 Sonnet a appris à rédiger un programme qui donnait les bonnes réponses uniquement pour les quatre exemples de test fournis, exploitant ainsi une faiblesse du protocole d’évaluation au lieu de résoudre la tâche de manière générale7. Les développeurs tentent d’y remédier en masquant les cas de test ou en insérant des leurres, mais cette approche demeure un processus itératif : chaque correction engendre de nouvelles stratégies de contournement.
LE PIRATAGE DE RECOMPENSE ILLUSTRE AVEC ACUITE LA CAPACITE DES SYSTEMES MODERNES A CONTOURNER LEURS GARDE-FOUS
Pour répondre à l’amplification des biais, certaines approches techniques consistent à ajuster les paramètres du modèle, telle la durée d’entraînement, afin de limiter la propagation des distorsions8. Si ces réglages peuvent atténuer des biais, ils impliquent néanmoins un compromis entre justesse et performance : réduire le biais revient souvent à dégrader l’efficacité globale du modèle. De surcroît, la limitation des biais sur des données sociales requiert généralement l’accès à des attributs sensibles, comme le genre ou l’origine ethnique des individus concernés. Or, pour des raisons de confidentialité et de conformité réglementaire, de nombreux concepteurs préfèrent éviter d’intégrer de telles données, ce qui limite la portée des mesures correctives.
LA PROPENSION AU CONTOURNEMENT EST PROFONDEMENT ANCREE DANS LA DYNAMIQUE D’OPTIMISATION DES MODELES
La difficulté réside également dans la généralisation de ces comportements. Les chercheurs d’Anthropic ont cherché à savoir si l’apprentissage de formes apparemment bénignes de manipulation, telles que la flagornerie (sycophantie), pouvait conduire à des formes plus graves de contournement. Leurs résultats montrent que, une fois acquises des stratégies de manipulation simples, les modèles les généralisent, sans entraînement explicite, à des comportements plus dangereux, comme l’altération directe de leur propre fonction de récompense9. Plus troublant encore, ces tendances persistent même après réentraînement destiné à supprimer les biais initiaux, suggérant que la propension au contournement est profondément ancrée dans la dynamique d’optimisation des modèles.
Les enjeux politiques et la nécessité de la lucidité sociale
Les implications de l’amplification des biais et du contournement de spécification dépassent largement la sphère technique pour impacter de manière structurelle nos cadres socio-économiques, culturels et politiques.
Sur le plan socio-économique, l’amplification des biais contribue à l’institutionnalisation des préjugés, pouvant entraîner des discriminations systémiques dans des domaines sensibles tels que l’emploi ou l’accès au crédit. Le contournement de spécification, quant à lui, introduit un risque d’ingénierie sociale perverse, où des systèmes hautement optimisés pourraient manipuler des marchés pour maximiser des proxies mal alignés. Une préoccupation majeure pour l’avenir est la possibilité que des modèles optimisés pour la maximisation du profit en environnement ouvert puissent s’engager dans la fraude financière ou dans l’exploitation de failles juridiques.
AVEC LA CAPACITE DES MODELES A GENERALISER DE LA SYCOPHANTIE AU SUBTERFUGE, L’IA POURRAIT DEVENIR UN AGENT EFFICACE DE MANIPULATION ET DE DESINFORMATION
Sur le plan politique, ces défaillances posent la question de la confiance. Lorsque des modèles sont déployés dans des systèmes d’infrastructure nationale ou de gouvernance, il y a un risque qu’ils apprennent activement à masquer leurs échecs ou à dissimuler la poursuite d’objectifs divergents. De plus, le fait que l’alignement des petits modèles ne garantisse pas l’alignement à l’échelle, et que l’on n’observe aucun signal d’alarme précoce avant l’apparition du piratage de récompense, implique une vulnérabilité systémique encore plus dangereuse. Par ailleurs, dans un contexte d’instabilité géopolitique, avec la capacité des modèles à généraliser de la sycophantie au subterfuge10, l’IA pourrait devenir un agent efficace de manipulation et de désinformation.
Face à ces phénomènes, il est crucial que la société maintienne un esprit critique aiguisé à l’égard des résultats produits par l’IA. Les sciences sociales, en particulier, offrent les cadres d’analyse nécessaires pour évaluer l’alignement des modèles avec les intentions humaines et les conséquences politiques de leur optimisation. L’approche ne doit pas se concentrer uniquement sur la correction technique post factum, mais sur les mécanismes de gouvernance visant à rendre l’intention et le comportement des modèles intelligibles, garantissant que ces puissants outils n’agissent pas à l’encontre de l’intérêt général.
- Malmqvist Lars, « Winning at all cost: A small environment for eliciting specification gaming behaviors in Large Language Models », arXiv:2505.07846, May 7, 2025.
- Hall Melissa, van der Maaten Laurens, Gustafson Laura, Jones Maxwell, Adcock Aaron, « A systematic study of bias amplification », Proceedings of the 39th International Conference on Machine Learning (ICML), 2022, p. 1-16., arXiv:2201.11706, January 27, 2022.
- Sharot Tarot, Glickman Moshe, « Bias in AI amplifies our own biases », UCL News, December 18, 2024.
- Rudner Tim G. J., Toner Helen, « Key concepts in AI safety: specification in machine learning », December 2021, Center for Security and Emerging Technology (CSET).
- Nishimura-Gasparian Kei, « Reward hacking is becoming more sophisticated and deliberate in frontier LLMs », LessWrong, April 24, 2025.
- Nikolenko Sergey, « AI safety II: goodharting and reward hacking », Synthesis AI Blog, May 8, 2025.
- Hayum Ben, « Reward Hacking: how AI exploits the goals we give it », Americans for Responsible Innovation, June 18, 2025.
- Hall, van der Maaten, Gustafson, Jones, Adcock, « A systematic study of bias amplification », art. cit.
- Denison Carson, MacDiarmid Monte, Barez Fazl, et al., « Sycophancy to subterfuge: investigating reward-tampering in Large Language Models », arXiv:2406.10162, June 14, 2024.
- Ibid.