Facebook : une traduction grâce à des similitudes mathématiques entre les langues

Publié le 10 octobre 2019 - par le blob l'extra-média, avec l'AFP

Image légendée — Disposer d’outils de traduction automatique performants constitue une priorité pour les grands opérateurs © AFP/Archives Loïc Venance

Traduire un texte dans une langue étrangère sans aucun dictionnaire, en s’appuyant sur des similitudes mathématiques entre les langues : à Paris, les chercheurs en intelligence artificielle de Facebook ont réussi une prouesse riche de promesses.

Disposer d’outils de traduction automatique performants constitue une priorité pour les grands opérateurs internet mondiaux, qui cherchent à pouvoir mettre en relation un maximum d’habitants de la planète et ainsi générer davantage d’activité économique autour de leur plate-forme. Facebook, Google ou Microsoft, mais aussi le Russe Yandex, le chinois Baidu et d’autres cherchent sans cesse à améliorer la qualité de ces outils. De « 150 à 200 langues » sont aujourd’hui parlées sur Facebook, rappelle ainsi Antoine Bordes, le codirecteur de la recherche fondamentale en intelligence artificielle du réseau social en Europe. Mais il n’existe pas forcément de dictionnaires, ou de pierre de Rosette (qui a permis de déchiffrer les hiéroglyphes égyptiens) pour chaque paire de langues, d’où l’intérêt de trouver un système qui permette à une machine de passer d’une langue à une autre sans ces passerelles fondamentales.

Le cœur du système développé par de jeunes chercheurs du laboratoire parisien de Facebook repose sur des représentations mathématiques des mots. Dans chaque langue, les mots se retrouvent figurés sous la forme d’un vecteur, dans un espace de plusieurs centaines de dimensions. Chaque vecteur est plus ou moins proche des autres mots, en fonction de ses associations avec eux dans la langue courante.

Du basque à une langue amazonienne ?

Ainsi, dans toutes les langues, « le mot "chat" et le mot "chien"auront des vecteurs assez proches (...) Tous les vecteurs qui représentent les noms de pays –France, États-Unis... - sont à peu près au même endroit », explique Guillaume Lample, un doctorant de l’université Pierre et Marie-Curie en résidence à Facebook, et l’un des pères du système.

Puisque les vecteurs-mots ont tendance à s’organiser de manière similaire dans chaque langue, il est dès lors possible de les associer d’une langue à l’autre, au début de façon assez grossière, puis de façon de plus en plus fine, jusqu’à parvenir à associer des phrases entières d’une langue à l’autre sans trop d’erreurs.

Pour l’instant, cette méthode de traduction est encore au stade du développement. Mais les résultats sont prometteurs, explique Guillaume Lample. Sur la paire anglais-roumain par exemple, les systèmes de traduction automatique actuellement utilisés par Facebook ont des performances « égales, voire un peu moins bonnes » que la nouvelle méthode développée par le laboratoire parisien.

Sur la paire anglais-ourdou, la méthode parisienne est meilleure que les systèmes traditionnels, parce que ceux-ci manquent de textes bilingues anglais-ourdou pour s’entraîner, affirme-t-il. La méthode pourrait-elle permettre de traduire du basque à la langue d’une tribu amazonienne ?

Traductions imparfaites

Sur le principe, oui, répond, Guillaume Lample. Sauf que pour fonctionner, pour décortiquer une langue en vecteurs, la machine a besoin de disposer d’un énorme corpus écrit... qui n’existe pas pour les langues amazoniennes. « Si vous avez juste une dizaine de milliers de phrases, ça ne fonctionnera pas. Il en faudra quelques centaines de milliers », estime-t-il.

Deux spécialistes du CNRS ont salué le travail de Guillaume Lample et de Facebook, même s’ils pensent que la méthode ne permettra sans doute pas de faire des traductions parfaites dans tous les cas. « Traduire sans données parallèles », c’est à dire sans dictionnaires ou texte bilingue, « c’est un peu le Graal » de la traduction automatique, explique Thierry Poibeau, du laboratoire Lattice (ENS), qui salue « une révolution du point de vue conceptuel ».

« Mais la question, c’est quel niveau de performance on peut en attendre », poursuit-il. La méthode « peut donner une idée du texte d’origine », mais la possibilité de donner « une bonne traduction » dans tous les cas reste encore à établir, explique-t-il.

« La mise en correspondance des langues est beaucoup plus difficile » quand elles sont très éloignées, renchérit François Yvon, du laboratoire Limsi (Orsay), qui a été chargé d’évaluer scientifiquement le travail de Guillaume Lample. « La manière de dénoter des concepts en chinois n’a rien à voir avec le français », souligne-t-il. Toutefois, des traductions même imparfaites pourraient être suffisantes pour traquer dans toutes les langues les contenus haineux, une grande priorité pour Facebook, explique-t-il.