International AI Safety Report
Les risques et techniques de mitigation associés à l’IA à usage général
Le rapport international sur la sécurité de l’intelligence artificielle (IA) est le document le plus complet au monde portant sur les risques et les capacités des systèmes d’IA à usage général, c’est-à-dire ces IA capables de réaliser une grande variété de tâches. La rédaction de l’« International AI Safety Report », exempte de toute « influence de l’industrie ou du gouvernement sur le contenu », a été dirigée par le scientifique en informatique et lauréat du prix Turing, Yoshua Bengio, accompagné par une centaine d’experts en IA, un panel international composé de représentants de trente pays membres des Nations Unies (ONU), de l’Union Européenne (UE) et de l’Organisation de coopération et de développement économiques (OCDE).
À travers trois questions fondamentales – « Que peut faire l’IA à usage général ? Quels sont les risques associés à l’IA à usage général ? Quelles sont les techniques de mitigation face à ces risques ? » –, le rapport résume « les preuves scientifiques sur la sécurité de l’IA à usage général afin de favoriser une compréhension internationale partagée des risques liés à l’IA avancée et des moyens de les atténuer ».
Se gardant de faire la moindre recommandation politique, il fournit des informations scientifiques, afin, notamment, de « faciliter des discussions constructives et basées sur des preuves concernant l’incertitude liée à l’IA à usage général et ses conséquences, et contribuer à une compréhension scientifique partagée au niveau international de la sécurité de l’IA avancée ». Le rapport identifie quatre grands types de risques : ceux liés à l’utilisation malveillante d’une IA générale (faux contenus, manipulation de l’opinion publique, infractions informatiques, attaques biologiques et chimiques) ; ceux liés aux dysfonctionnements de l’IA (problèmes de fiabilité, de biais ou de pertes de contrôle) ; ceux liés à des menaces systémiques (pour le marché du travail, la R&D en IA, la concentration du marché, l’environnement, la vie privée ou encore les droits d’auteur) ; et, enfin, ceux liés à la nature ouverte ou fermée des IA à usage général.
Parmi ces nombreux risques, ceux liés à la manipulation de l’opinion publique sont manifestes, et des acteurs malveillants utilisent massivement l’IA à usage général pour générer de faux articles, de fausses images et de fausses vidéos. Le recours à l’IA à usage général « permet de créer des contenus persuasifs à une échelle sans précédent et avec un haut degré de sophistication. Contrairement aux méthodes précédentes, où il y avait un compromis entre qualité et quantité, l’IA peut produire des contenus indiscernables de ceux créés par des humains, à faible coût », et certaines études montrent même que ces contenus sont aussi persuasifs que ceux générés par un humain. Une étude scientifique a révélé que, lors de débats, « les gens étaient aussi susceptibles d’être d’accord avec des adversaires IA qu’avec des adversaires humains, et plus enclins à être persuadés par l’IA si celle-ci avait accès à des informations personnelles du type de celles que l’on peut trouver sur les comptes de médias sociaux ». D’autres recherches récentes explorent en outre « comment les agents d’IA à usage général pourraient influencer les croyances des utilisateurs en utilisant des techniques plus sophistiquées, notamment en créant et en exploitant la dépendance émotionnelle des utilisateurs, en alimentant leurs angoisses ou leur colère, ou en menaçant de divulguer des informations si les utilisateurs ne se conforment pas ».
Les décideurs font face à des techniques de mitigation limitées et à des compromis difficiles, puisque limiter l’IA pourrait entrer en conflit avec la protection de la liberté d’expression. Avec les développements futurs des IA générales, il sera de plus en plus complexe de détecter les cas de manipulation ; et les techniques de prévention, comme l’ajout de filigranes sur les contenus, seront facilement contournées. Il est également à noter qu’il n’existe pas de consensus entre experts pour savoir si les campagnes de manipulation de l’opinion publique seront plus efficaces simplement parce que le contenu falsifié sera plus réaliste. Certains estiment ainsi que « le principal obstacle pour les acteurs cherchant à avoir un impact à grande échelle avec du contenu falsifié n’est pas la génération du contenu, mais sa distribution à grande échelle ». Des recherches suggèrent en outre que « les cheapfakes (méthodes moins sophistiquées de manipulation de contenu audiovisuel qui ne dépendent pas de l’utilisation de l’IA à usage général) pourraient être aussi nuisibles que les deepfakes, plus sophistiqués ». Se pose ainsi la question sous-jacente de l’impact des réseaux sociaux sur la distribution de tels contenus et la responsabilité qui leur incombe en termes de modération. Le rapport a été présenté en février 2025 lors du Sommet pour l’action sur l’IA à Paris.
International AI Safety Report, Department for Science, Innovation and Technology – UK Government and AI Safety Institute, January 29, 2025.