Lara, la traduction automatique dopée à l’IA qui surpasse tous ses concurrents
Translated, entreprise italienne de traduction automatique dopée à l’IA, lance Lara, un service gratuit mais restreint en guise de produit d’appel auprès du grand public. Son principal atout réside dans sa capacité à comprendre le contexte global du texte traduit, ce qui assure une fluidité et une cohérence inégalées.
Créée à Rome en 1999 par un couple franco-italien, la linguiste Isabelle Andrieu et l’informaticien Marco Trombetti, l’entreprise Translated fournit des services de traduction et de localisation professionnelles, qu’elle désigne comme « le processus de modification d’un produit (logiciel, site internet ou document) destiné à un public dans un pays, une culture ou une région du monde différents. La localisation est plus complexe que la traduction car elle nécessite une adaptation culturelle et une connaissance approfondie de la culture locale ». Avec quelque 375 000 clients, ayant sollicité l’entreprise dans 233 langues et recouvrant 40 domaines de compétence, la réussite de Translated tient en grande partie à son implantation en Europe, « le seul endroit dans le monde où nous avons autant de problèmes de langues », ironise Marco Trombetti.
Si Translated automatise la traduction de langues à partir de règles automatiques depuis les années 2000, elle utilise, dès 2017, le modèle d’apprentissage automatique Transformer, introduit par Google la même année (voir La rem n°68, p.41). Cette nouvelle architecture de réseau de neurones, qui ouvrira la voie aux grands modèles de langages modernes, est conçue pour traiter rapidement des séquences et, notamment, du texte en utilisant une technique appelée « auto-attention », qui permet au logiciel de mieux saisir les relations complexes entre les mots. La première étape de l’entraînement de ce modèle d’intelligence artificielle est l’acquisition et le prétraitement des données (Data Acquisition and Preprocessing) : elle consiste à collecter et à « nettoyer » d’immenses corpus de données textuelles, de plusieurs milliards de mots, qui seront représentés sous la forme de tokens, afin d’être manipulables par le programme informatique.
Ce qui fait la spécificité de Translated est d’effectuer des « contrôles culturels » sur ses outils afin de s’assurer que les données d’entraînement correspondent à la culture du pays cible. En effet, « les modèles d’IA sont entraînés sur 90 à 95 % de données anglo-saxonnes. Cela leur apprend à parler anglais et leur inculque la culture anglo-saxonne. 1 % des documents sont en français dans les jeux de données, ce qui est suffisant pour apprendre la langue française, mais pas la culture. Avec ces contrôles culturels, nous nous assurons d’utiliser un maximum de données d’entraînement conformes à la culture du pays concerné », explique Marco Trombetti.
Si Lara peut aujourd’hui se targuer d’être plus efficace que Google Translate ou même ChatGPT, c’est que « là où Google Translate traduit phrase par phrase, sans lier les éléments entre eux, nous analysons l’ensemble du texte. De plus, nous entraînons la machine sur nos données de correction de traductions automatisées par des traducteurs humains. Nous avons collecté toutes nos corrections depuis la création de l’entreprise et l’IA s’améliore en observant ce que nous avons corrigé, et pourquoi, selon le principe de la chain of thought, la "chaîne de raisonnement". Enfin, nous avons autorisé l’IA à poser des questions à l’utilisateur pour préciser la traduction », précise Marco Trombetti. Cette sophistication et cette spécificité font la renommée de l’entreprise italienne, dont 80 % des clients se situent dans la Silicon Valley aux États-Unis, parmi lesquels Airbnb, Uber ou encore SpaceX. Cependant, l’entreprise tient à rester en Europe : sur un effectif total de 250 employés, 230 sont à Rome et 15 aux États-Unis. En 2021, Ardian, société française de capital-investissement indépendante créée en 1996 et dirigée par Dominique Senequier, a investi 30 millions de dollars pour accélérer la croissance et l’internationalisation de l’entreprise. Translated a récemment annoncé investir 100 millions d’euros dans la recherche et le développement.
Avec Lara, l’entreprise propose pour la première fois à destination du grand public une version gratuite, et limitée, de son système de traduction automatique, jusqu’alors réservée aux grandes entreprises. Le développement de Lara s’est appuyé sur un ensemble de données exclusives de 25 millions de traductions, réalisées par des traducteurs professionnels, ainsi que des données issues d’échanges avec près de 100 000 traducteurs professionnels. La phase de préentraînement de l’outil de traduction a coûté 1,2 million d’heures de processeur graphique Nvidia, sur un modèle à 168 milliards de paramètres, contre 16 milliards pour son prédécesseur. Lara traduit actuellement dans onze langues, selon trois styles différents – fidèle, fluide ou créatif –, et prévoit d’élargir l’offre à 200 langues d’ici à fin juin 2025. D’après Isabelle Andrieu, « Lara fait systématiquement moins d’erreurs que les traducteurs professionnels moyens et se rapproche de ce que Translated appelle la "singularité linguistique" qui désigne le moment où les meilleurs traducteurs passeront autant de temps à réviser une traduction générée par l’IA qu’à en réviser une produite par leurs pairs humains ».
Sources :
- Translated, translated.com
- Tosseri Olivier, « Lara, le nouvel outil de traduction qui surclasse Google Translate et ChatGPT », lesechos.fr, 21 novembre 2024.
- Poncet Guerric, « Aujourd’hui, si l’on ne dit pas qu’il y a de l’IA, ça ne se vend pas ! », lepoint.fr, 7 février 2025.
- Dujardin Amandine, « L’impact de l’IA dans le processus de traduction », textmaster.com, 16 février 2024.