Image légendée
Tablette au contenu fragmentaire : contrat de vente d’une maison sous le règne du roi babylonien Nabuchodonosor II © Klaus Wagensonner (Yale University)

L’écriture cunéiforme a vu le jour il y a près de 4000 ans dans le sud de la Mésopotamie et a été utilisée dans le Proche-Orient pendant près de deux millénaires. Gravée sur des tablettes d’argile (qui étaient ou recyclées pour accueillir d’autres écrits ou cuites pour « immortaliser » leur contenu), cette écriture a été entièrement déchiffrée au 19e siècle.

Au total, 10 millions de mots ont été identifiés sur des centaines de monuments et des milliers de tablettes : plus de 600 000 tablettes pour la seule période de l’Empire néo-babylonien où la puissance babylonienne était à son apogée. Soit un corpus conséquent, mais souvent lacunaire, avec des portions de textes manquants sur des tablettes souvent endommagées par le temps. De rares spécialistes s’attellent à transcrire ces tablettes et à en combler les lacunes, mais la tâche est immense.

Des informaticiens israéliens ont ainsi eu l’idée de développer un système d’intelligence artificielle capable d’aider les chercheurs à combler les manques. Ils se sont appuyés sur des textes écrits en babylonien tardif, rédigés entre 627 av. J-C. et le premier siècle de notre ère.

Si l’idée est simple, la mise en œuvre est complexe. En effet, la technique d’intelligence artificielle basée sur l’apprentissage automatique (machine learning) et les réseaux de neurones nécessitent de « nourrir » au préalable l’algorithme par des quantités de données pour l’entraîner dans sa future tâche. Or la reconnaissance optique des caractères de l’écriture cunéiforme n’en est encore qu’à ses balbutiements. Il fallait donc partir de tablettes dont les textes ont d’abord été transcrits en alphabet latin puis numérisés.

Image légendée
Document numérisé : écriture cunéiforme (à gauche), sa transcription (au centre), sa traduction en anglais (à droite)

Les chercheurs israéliens se sont ainsi tournés vers une base de données française, Achemenet, régulièrement enrichie de transcriptions produites par Francis Joannès, professeur émérite à l’université Paris-1, et une dizaine de ses étudiants. En concentrant leurs efforts sur la tâche la plus simple : 1400 textes consacrés à des enregistrements administratifs ou comptables (actes de propriétés, contrats, etc.) dont le vocabulaire et la syntaxe sont souvent identiques.

Ils ont ensuite testé leur système et sa capacité à identifier des mots ou des bouts de phrase manquants, avec des résultats probants : 85 % de propositions correctes et 94 % de bonnes réponses lorsqu’un choix de solutions était présenté. L’algorithme a ensuite été testé sur des pièges de nature grammaticale ou sémantique avec 88,5 % de succès. Une version web sera prochainement mise en ligne sous le nom d’Atrahasis

Les étudiants et spécialistes de l’écriture cunéiforme disposeront donc bientôt d’un outil performant d’aide à la décision pour combler les écrits manquants.