La mort des langues n’est pas un phénomène nouveau, mais il s’accélère : plus de la moitié de celles actuellement parlées dans le monde devraient avoir disparu d’ici la fin du siècle. C’est ce constat alarmant qui a conduit l’Unesco à décréter 2019 « année internationale des langues autochtones ». Comment préserver ce patrimoine mondial ? Les outils numériques sont précieux aux linguistes de terrain : enregistrements audio et vidéo facilités, archivage simplifié, accès en ligne des matériaux collectés… Peuvent-ils contribuer à la sauvegarde des langues en péril, et de quelle manière ? Quelles promesses recèlent, ou non, les collaborations actuelles entre linguistes et informaticiens ? Le point sur les recherches en cours.

Image légendée
Infographie : Julien Tredan-Turini

Une disparition qui s’accélère 

D’ici la fin du 21e siècle, la moitié des langues aujourd’hui parlées dans le monde pourrait avoir disparu.

La disparition de langues n’est pas nouvelle. Rien qu’au 20e siècle, le chouadit (ou judéo-provençal) en France, l’aïnou au Japon, le sened (une langue berbère) en Tunisie ; ou au siècle suivant, l’eyak en Alaska, le yawalapití au Brésil, l’areba en Australie, le mandan (une langue sioux) aux États-Unis, ont, comme beaucoup d’autres, rejoint le cimetière des langues mortes. Ce qui est plus nouveau, c’est l’accélération du phénomène. Linguiste spécialiste de l’Alaska, l’Américain Michael Krauss lance un cri d’alarme en 1991. De ses travaux date l’estimation communément admise de la proportion de langues menacées de disparition d’ici la fin du siècle : 50 %. La première édition, par l’Unesco, de l’Atlas des langues en danger dans le monde, a lieu quatre ans plus tard, en 1996 – suivie d’une typologie de vitalité des langues en 2003. La disparition du patrimoine linguistique est notamment due aux importants déplacements de populations provoqués par l’exode rural, l’édification de barrages, l’exploitation de ressources naturelles, voire la disparition de certains habitats, comme des îles du Pacifique peu à peu recouvertes par la montée des eaux. En Chine, au Brésil ou en Inde, des langues se perdent en deux générations seulement, lorsque les petits-enfants, privilégiant les langues officielles comme le mandarin, le portugais ou l’hindi, perdent la possibilité de dialoguer avec leurs grands-parents. À telle enseigne que pour Nicolas Quint, linguiste au CNRS, « presque toutes les langues sont menacées, sauf les langues officielles qui sont employées comme langues principales à l’école ».

Appauvrissement en vue

Le monde est riche de milliers de langues, mais la plupart sont orales et s’éteignent donc à la mort du dernier locuteur. S’interrompt alors la transmission de mythes, proverbes, chansons et connaissances diverses (médecine ou pharmacopée traditionnelles, par exemple) et au-delà, la transmission d’une certaine vision du monde. En outre, « en tentant d’identifier ce qui rapproche des langues aussi différentes que le franco-provençal, le quechua, l’amazigh ou le wolof, on cherche à découvrir l’universalité du langage », explique la linguiste Colette Grinevald, une des premières Françaises à avoir plaidé en faveur des langues menacées.

Image légendée
© Wally Santana/AP/SIPA
Image légendée
© Nicolas Quint

L’Amérique et l’Australie en première ligne, l’Afrique moins touchée.

Deux régions du monde sont particulièrement touchées par l’appauvrissement linguistique : l’Australie et l’Amérique du Nord, où 90 % des langues auraient disparu d’ici la fin du siècle, balayées par un anglais devenu très majoritaire. En Afrique, le bi- et le plurilinguisme restent courants, un même individu maîtrisant sa langue maternelle, une langue véhiculaire comme le haoussa, une langue coloniale comme le portugais et le cas échéant une autre langue africaine. Cela étant, le monolinguisme progresse, souligne le linguiste Nicolas Quint (CNRS). Ainsi, au Gabon ou au Cameroun, beaucoup de jeunes ne parlent plus que… le français.

Des outils numériques précieux 

Depuis une vingtaine d’années, les outils numériques contribuent à l’essor de la linguistique de terrain au service des langues menacées.

La linguistique de terrain vise à collecter directement auprès des communautés les propos tenus dans leur contexte d’émission : préparation de repas, mariage, contes, prières, rituels… Si la discipline n’est pas neuve, elle a largement tiré bénéfice des outils numériques : enregistreurs audio et vidéo – précieux s’agissant de langues orales – pour la récolte des données ; stockage sur disques durs pour le transport et la pérennité des archives... Dans la phase dite de « documentation » de la langue, caméras numériques, ordinateurs portables, fichiers ont peu à peu remplacé cahiers, stylos, appareils photo et magnétophones. Une grande partie du travail du linguiste demeure toutefois artisanale. Il faut ainsi 40 heures en moyenne pour transcrire de manière phonétique une heure de propos oral de façon non segmentée, les phonèmes étant « collés » les uns aux autres. C’est le préalable indispensable à l’analyse de la langue, étape qu’on appelle la « description » : identification des termes, conception d’un alphabet idoine, traduction, élaboration d’un dictionnaire et des règles de grammaire. Le numérique offre des outils utiles. Et les langues ayant les meilleures chances de survie sont celles qui jouissent déjà d’une existence virtuelle grâce à des sites Internet, des pages Wikipédia ou des sites d’information en ligne.

Le spectre de la linguistique zombie

Accumuler des volumes considérables de propos tenus dans des langues en voie de disparition, c’est verser dans la zombie linguistics, ironisait en 2012 l’anthropologue américain Bernard C. Perley : générer « des artefacts d’interventions technologiques ». Le ton est féroce, mais le questionnement partagé par certains linguistes : quand et comment seront analysées les données accumulées ? Ne vaudrait-il pas mieux, d’abord, sauvegarder les archives existantes, conservées sur des carnets, des cassettes et des bobines, et parfois abandonnées sur des étagères de chercheur ?

Image légendée
© Milkos/Getty Images

Des portails en ligne accessibles à tous

La préservation d’une langue documentée passe aujourd’hui par sa mise en ligne. Plusieurs sites Internet s’en sont fait la spécialité.

Dans les années 2000, des sites ont vu le jour sur le web pour archiver le matériau collecté par les linguistes de terrain. Le plus célèbre est le Programme de documentation des langues en danger (ELDP pour son acronyme en anglais) qui, grâce au soutien de l’université de Londres, délivre des bourses de recherche à des doctorants et chercheurs pour mener des études de terrain puis les mettre en ligne : enregistrements audio, photos, vidéos, transcriptions et traductions. Depuis sa création, en 2002, l’ELDP a financé plus de 400 projets. Cette vaste bibliothèque linguistique abrite les ultimes témoignages de certaines langues en danger, éteintes ou proches de l’être. Basé dans l’Oregon, aux États-Unis, l’Institut des langues vivantes forme, quant à lui, des locuteurs locaux à la collecte, au catalogage, à l’édition et la diffusion des mots et expressions de leur langue maternelle. Le site de l’Institut contient ainsi une centaine de « dictionnaires parlants », chacun riche de plusieurs dizaines de milliers de termes. D’autres initiatives revêtent un caractère local, comme l’ELA (Alliance pour les langues en danger), qui concentre ses activités sur les communautés linguistiques présentes dans l’État de New York, soit plus de 800 langues. Les sites francophones sont nettement moins nombreux : animé par des linguistes de terrain, Sorosoro, qui recense aussi les langues menacées en Europe, constitue à cet égard une exception. Traduit en français, anglais et espagnol, il se veut une passerelle entre monde universitaire et grand public.

Image légendée
© Peter Righteous / Alamy Stock Photo/ Hemis

Des langues ressuscitées

« Une langue est un dialecte avec une armée et une marine » : attribué au linguiste Max Weinreich (1894-1969), spécialiste du yiddish, cet aphorisme rappelle qu’une langue est diffusée par un État, contrairement au dialecte. C’est ce qui a permis à des langues « mortes » de « ressusciter » au 20e siècle, à l’instar de l’hawaïen, de l’hébreu ou du maori. Langue officielle en Nouvelle-Zélande depuis 1987, le maori sera intégré – sans être obligatoire – dans le cursus d’apprentissage scolaire à partir de 2025, au même titre que les matières scientifiques. Moins de 4 % de la population parle cette langue, mais le gouvernement espère que 20 % en aura une connaissance de base d’ici 2040. Sur la photo, des écoliers néo-zélandais exécutent une danse traditionnelle maorie.

L’IA au service des langues menacées ?

L’intelligence artificielle peut-elle faciliter le travail des linguistes ?

Les premiers résultats sont balbutiants, mais les recherches se poursuivent. Ce pourrait être un rêve de linguiste technophile : disposer d’un logiciel de reconnaissance vocale capable de transcrire de manière phonétique l’enregistrement oral d’une langue non écrite, préalable indispensable à l’analyse linguistique. La tentative a été menée sur trois langues peu connues de la famille bantoue, qui en regroupe quelque 400 parlées dans une vingtaine de pays : le basaá, le myènè et le mbosi. Et ce, dans le cadre d’une collaboration franco-allemande menée entre 2015 et 2018 entre linguistes et informaticiens, intitulée Bulb (pour Breaking the Unwritten Language Barrier). Or la centaine d’heures collectées pour ces trois langues n’a pas suffi à générer un algorithme performant, capable de transcrire de manière automatique un propos oral en langue bantoue. En effet, les programmes d’intelligence artificielle (IA) se « nourrissent » de bases de données importantes (10  000 heures de propos pour le boîtier Google Home). C’est ce qui explique que les logiciels de transcription fonctionnent bien pour les « grandes » langues parlées par beaucoup d’individus. Côté transcription, donc, difficile d’alléger le travail des linguistes. L’équipe de Bulb a ensuite tenté de générer un algorithme capable de traduire automatiquement du bantou en français, mais le programme n’a pu qu’identifier quelques termes dans cette langue africaine. Faute de corpus abondant, il est d’ailleurs peu probable qu’une traduction automatique (type Google Translate) existe un jour pour les langues minoritaires. Les recherches se poursuivent néanmoins sur l’usage de l’IA au service des langues menacées, par exemple pour la transcription des langues dites « à ton » qui restait un défi pour les linguistes.

Respeaking pour Lig-Aïkuma

Les conditions sur le terrain ne permettent pas toujours aux linguistes d’obtenir des enregistrements de qualité, où les propos se dégagent distinctement des sons d’ambiance. Mise au point par Laurent Besacier, du laboratoire d’informatique de Grenoble (Lig), l’application Lig-Aïkuma, installée sur smartphone, vise justement à générer des données « propres » grâce au principe du respeaking : un locuteur de la langue étudiée répète lentement, morceau par morceau, les propos tenus sur le terrain. Cette application permet aussi de géolocaliser les enregistrements, d’en vérifier la qualité en temps réel et de les relier aux métadonnées (lieu, date, âge du locuteur, origine).

Image légendée
© Steven Bird
Image légendée
© Living Tongues Institute for Endangered Languages

La revitalisation par les apps

Claviers adaptés à plusieurs systèmes d’écriture, enregistrement et lecture audio, mode hors ligne (pour les zones sans couverture Internet), outils de recherche améliorée, classement par domaines sémantiques, explications grammaticales : telles sont quelques-unes des fonctions offertes par les « dictionnaires parlants » mis au point par l’institut des Langues vivantes, en Oregon. Objectif : faciliter et encourager l’usage quotidien d’une langue – sa revitalisation – auprès des jeunes. « Une appli sur téléphone, ça change le regard porté sur la langue ! », commente le linguiste Mark Van de Velde.

L’Europe elle aussi concernée

L’Europe est le continent de l’homogénéité linguistique, puisqu’elle ne compte qu’une langue par tranche de 2,5 millions d’habitants, contre une pour 500 000 habitants en Afrique et une pour un million d’individus en Amérique. Cela étant, la moitié des langues parlées en Europe sont en danger : langues celtiques, yézidi, yiddish, carélien, basque… Vingt-cinq pays européens ont signé et ratifié la Charte des langues régionales ou minoritaires adoptée en 1992 par le Conseil de l’Europe (qui compte 47 membres). Huit l’ont signée mais pas ratifiée, dont la France, car cette ratification exige une révision constitutionnelle qui n’a jusqu’ici pas réuni de consensus. Enfin, quatorze États ne l’ont pas encore signée.

Image légendée
© XAVIER MALAFOSSE/SIPA
Image légendée
© Nicolas Quint

Koalib : des archives numérisées

Linguiste au CNRS, Nicolas Quint date de 2010 sa « bascule » vers le numérique. Il a, depuis, numérisé ses archives papier. Ici, une transcription du koalib, une langue au destin peu ordinaire : depuis la guerre civile soudanaises des années 1980, elle s’étiole en zone gouvernementale, où la langue d’enseignement est l’arabe. Mais elle reste utilisée quotidiennement dans les zones rebelles (où l’arabe n’est plus enseigné à l’école), y compris par les enfants. En outre, 10 % de ses quelque 150  000 locuteurs lit les ouvrages en koalib (orthographié au moyen d’une graphie latine aménagée) : Bible, abécédaires, recueils de contes.

Le mythe du dernier locuteur

Forte de son expérience de 30 ans sur une langue indigène en danger, le rama, au Nicaragua, la linguiste Colette Grinevald pointe les difficultés de travail de terrain.