J’ai toujours admiré ces passionnés de français qui se donnent pour mission d’explorer des pans entiers de la langue en y consacrant d’innombrables heures.
À ma connaissance, la dernière initiative majeure vient de DataFranca, qui s’est attaquée au vocabulaire hautement spécialisé de l’intelligence artificielle. L’équipe, dont le noyau est constitué d’un responsable de communication, d’un consultant informatique et d’un professeur de linguiste et de traduction, a créé un Grand lexique français de l’intelligence artificielle entièrement consultable en ligne. Vous y trouverez près de 5 000 termes, de « abandon » à « zebioctet » (270 (octets). Du vocabulaire de l’IA, le Grand dictionnaire terminologique (GDT) de l’Office québécois de la langue française (OQLF) en propose quelques-unes, mais pas aussi nombreuses et pas aussi précises.
Pour chaque terme, les auteurs fournissent une définition, une liste de traductions et une explication du concept. C’est parfois assez savant, mais leurs descriptions de certains concepts de base comme « GPT », « fabulation » ou « big data » sont particulièrement éclairantes.
Bien que ses rédacteurs aient été motivés par un désir de vulgarisation, Grand lexique français de l’intelligence artificielle ne se lit pas comme un roman. On peut saluer l’effort d’avoir traduit RAG (récupération génération augmentée) par GAIA (génération augmentée d’informations applicatives), mais la définition et les informations complémentaires risquent de faire chauffer vos neurones, même en français. Normal : DataFranca s’adresse en priorité aux fonctionnaires, entrepreneurs, chercheurs et professeurs.
« Montréal est l’un des grands centres de l’intelligence artificielle et il est important que les gens puissent travailler en français, il faut donc leur offrir du vocabulaire en français », explique Gérard Pelletier, fondateur du projet, avec qui j’ai discuté alors qu’il était à Oran, en Algérie, pour une conférence qui tournait autour de la Grand lexique.
BERT, ChatGPT et Rue Sésame
L’idée derrière ce lexique remonte à 2013, lorsque cet ancien publicitaire cherchait un projet de semi-retraite. Son fils, qui travaille chez IBM, lui en a parlé pour la première fois. mégadonnées. Le concept est si nouveau que l’équivalent français n’apparaît dans aucune banque de terminologie. L’information ne tombe pas dans l’oreille d’un sourd : dans les années 1990, Gérard Pelletier a conçu la première encyclopédie Internet — intitulée L’Encyclopédie des autoroutes de l’information.
Fasciné par cette science en plein développement, il en parle à son ami Claude Coulombe, consultant et spécialiste des données qui a fait sa marque une vingtaine d’années plus tôt. En créant Correcteur 101, le premier logiciel de correction québécois, ce dernier a tout de suite saisi l’ampleur du projet. « On s’est dit : si on ne le fait pas, personne ne le fera », raconte Gérard Pelletier. Les deux se sont vite adjoints un troisième larron, Patrick Drouin, directeur du Département de linguistique et de traduction de l’Université de Montréal.
Le trio fera d’abord ses armes sur une brochette de 122 termes proposés par Hugo Larochelle, chercheur chez Google DeepMind. Mais les travaux ont démarré en force en 2018 après l’obtention d’une première subvention de l’OQLF. Actuellement, le principal bailleur de fonds est le Fonds de recherche du Québec.
La première étape du travail consiste à recueillir le vocabulaire. Patrick Drouin confie à une petite équipe d’étudiants chercheurs le premier travail de tri parmi les milliers d’articles scientifiques.
Une fois qu’un nouveau terme est repéré, il s’agit de vérifier si le GDTTermium, FranceTerme ou Wikimedia ne proposent pas déjà quelque chose. C’est parfois le cas, mais pas pour la majorité des termes. « Et le résultat n’est pas toujours satisfaisant », explique Patrick Drouin. Il donne un exemple simple comme « mégadonnées » traduit par « mégadonnées », ce qui n’est pas très précis puisque « méga- » en grec signifie « million », tandis que le mégadonnées Les données se comptent en milliards et en quadrillions. Dans certains contextes, le terme « big data » est bien plus approprié.
Heureusement, les termes anglais se traduisent souvent sans ambiguïté. « Mais dans 20 % des cas, un gros effort de désambiguïsation est nécessaire, explique Claude Coulombe. C’est là que Patrick et moi intervenons. » Un exemple : la traduction de « désapprendre » par « désapprendre » est simple, même si la définition elle-même peut être délicate.
« Là où ça se complique, c’est quand le terme anglais est lui-même une approximation d’une équation ou d’un algorithme. Ou, pire, quand il reprend les noms de caractères de Rue Sésame ou des films d’animation japonais, tels que BERT, ELMo ou Transformer. BERT, par exemple, est un acronyme pour « représentations d’encodeurs bidirectionnels à partir de transformateurs » traduit par « représentations d’encodeurs bidirectionnels à partir de réseaux auto-attentifs ».
Les éditeurs dans ce cas doivent faire un gros effort de vulgarisation, parfois amusant. Le T de ChatGPT est une référence à la série TransformateursUn terme qui correspond en réalité au concept de « réseau auto-attentif ». « De nombreux concepts d’IA sont formulés par des chercheurs qui ne sont pas des terminologues », note Claude Coulombe. Et c’est sans compter l’humour particulier de ces grands bricoleurs que sont les programmeurs.
Travaillez vite, travaillez utilement
Selon Gérard Pelletier, il y a beaucoup de choses à mettre sur les i en intelligence artificielle car il n’existe pas encore d’encyclopédie spécifique à ce domaine, même en anglais. « Il faut expliquer beaucoup de choses, car il y a beaucoup de jargon, dit-il, à commencer par la notion d’intelligence artificielle, car l’IA n’est ni intelligente ni artificielle. » Les auteurs ont également commencé à décomposer DataFranca en petits livres regroupant des mots essentiels, comme Les 101 mots de l’intelligence artificielledont le contenu se veut plus accessible aux profanes.
Si l’on prend soin de lire les définitions ou les informations fournies pour chaque terme dans la base de données en ligne, il est clair que Grand lexique français de l’intelligence artificielle est une création en évolution qui comporte encore des trous. Ce côté inachevé est pleinement assumé par ses créateurs. « Notre méthodologie est la suivante : on va vite. L’idée est de pouvoir proposer un terme en français le plus rapidement possible. Si le terme en anglais se propage, la proposition existe », résume Gérard Pelletier.
Pour Patrick Drouin, l’agilité est une nécessité dans une science en plein développement, justement parce qu’il faut occuper le terrain. « Il y a un certain snobisme franco-français qui fait qu’on préfère souvent le terme anglais. Une fois le mot »ensemble de données” est installé, il est très difficile d’imposer ” dataset “.
L’une des caractéristiques de la Grand lexiquece qui le rend particulièrement utile, c’est la possibilité de consulter une nomenclature complète de la terminologie anglaise. Cela permet de retrouver d’emblée les termes en anglais sans se creuser la tête, et donc toutes les propositions de traduction, parfois aussi éloquentes que la définition. Par exemple, si vous partez de ” Apprentissage en une seule fois “, vous rencontrerez “one-shot learning”, “one-shot learning”, “one-shot learning”, “learning with a single example”, “learning with an example”, “learning from a single example” et “single-example learning”.
Les linguistes vous diront que l’équipe de DataFranca ne fait pas de « terminologie » à proprement parler, mais plutôt du « lexique », dans le sens où nous ne proposons pas une solution idéale, mais l’ensemble des solutions existantes. « On jette des bouteilles à la mer, résume Claude Coulombe. Certaines flotteront mieux que d’autres. »