News Release 15-Jan-2021

Patrimoine linguistique en danger : un nouvel écrin pour la collection Pangloss

Business Announcement

CNRS

Transcription of an Ubykh story — **image: Georges Dumézil's handwritten transcription of an Ubykh story as told by Tevfik Esenç, the language's last speaker. https://doi.org/10.24397/pangloss-0004320** view more

Credit: Georges Dumézil

Comme certaines espèces animales et végétales, une partie des langues du monde est en danger dextinction. Initiée en 1995 par le laboratoire Langues et civilisations à tradition orale (CNRS/ Université Sorbonne Nouvelle/Inalco), la collection Pangloss réunit des enregistrements de ces langues en danger. En effet, celles qui nont pas de tradition écrite (limmense majorité) disparaissent complètement avec leurs derniers locuteurs. Cet effort de sauvegarde et de mise à disposition du patrimoine linguistique sétend aussi à dautres langues rares, relativement peu documentées. Grâce au soutien du CNRS, la collection Pangloss fait aujourdhui peau neuve avec un nouveau site web qui sadresse aussi au grand public : https://pangloss.cnrs.fr/

À ce jour, la bibliothèque sonore Pangloss contient plus de 3600 enregistrements audio ou vidéo en 170 langues de tous les continents. On y trouve ainsi des contes et chansons en xârâgurè (Nouvelle-Calédonie), des conversations et des récits en kakabe (Guinée), des recettes de cuisine en koyi rai (Népal) et en na-nau (Italie)... soit 780 heures d'écoute au total.

Ces extraits sonores sont le fruit de plus de vingt ans de travail de linguistes et dethnologues qui, chacun sur leur terrain détude, uvrent à la collecte et à la sauvegarde du patrimoine linguistique mondial. Certains sons proviennent de la numérisation danciennes bandes magnétiques (1). Près de la moitié des enregistrements sont transcrits et annotés, par exemple avec des éléments de contexte ou des traductions vers dautres langues. Le site est ouvert aux contributions dexperts, académiques ou non, pour améliorer le corpus en participant aux transcriptions et traductions.

Avec son design repensé, le site peut désormais être consulté avec deux niveaux de lecture, afin dêtre plus accessible au grand public qui peut librement écouter et télécharger ces témoignages de la diversité linguistique. En grande partie sous licence Creative Commons, les contenus pourraient notamment alimenter des projets muséographiques ou des créations sonores.

Au-delà de son aspect patrimonial, cette collection participe dune démarche de science ouverte, en facilitant la conservation, le référencement (2) et la mise à disposition des données primaires des chercheurs et chercheuses. Elle entend ainsi lutter contre la déperdition des données scientifiques (une « deuxième mort » pour les langues disparues) mais aussi favoriser les collaborations avec dautres disciplines : les informaticiens intéressés par le traitement automatique des langues peuvent y trouver facilement les fichiers dont ils ont besoin et participer au co-développement doutils (de transcription automatique, par exemple). Entièrement bilingue français-anglais, le site comprend des traductions partielles dans dautres langues, dont le chinois pour les notices de certaines langues asiatiques.

Outre les contributions de différents laboratoires associés au CNRS (3), la collection Pangloss est soutenue par lInstitut des langues rares de lEPHE-PSL, récemment créé. Les données sont sauvegardées dans l'archive de la Très grande infrastructure de recherche (TGIR) Huma-Num. La collection Pangloss est membre du réseau international DELAMAN, Digital Endangered Languages and Musics Archives Network. Elle est hébergée par la plateforme Cocoon, Collection de corpus oraux numériques, qui participe au réseau international OLAC, Open Language Archive Community.

Quelques exemples de contenus à découvrir :

« La chair de poisson rend intelligent », une histoire en oubykh (langue caucasienne autrefois parlée en Turquie et Géorgie, qui compte quelque 80 consonnes) racontée par Tevfik Esenç, son dernier locuteur, et enregistrée par le linguiste et anthropologue Georges Dumézil en 1968 (ses notes manuscrites sont aussi consultables). Lien : https://doi.org/10.24397/pangloss-0004320
Corpus audio et vidéo en kakabe, langue de Guinée (qui fut par le passé une langue desclaves ou de serviteurs), enregistré et déposé par la linguiste Alexandra Vydrina. Lien : https://pangloss.cnrs.fr/corpus/Kakabe

###

Notes :

(1) Comme ceux du dernier locuteur de la langue oubykh, par Georges Dumézil, en 1968.
(2) Chaque ressource est dotée didentifiants de types DOI (Digital Object Identifier) et ARK (Archival Resource Key).
(3) En particulier (liste non limitative) : Langues et civilisations à tradition orale (Lacito, CNRS/Université Sorbonne Nouvelle/Inalco) ; Centre de recherches linguistiques sur l'Asie orientale (CRLAO, CNRS/Inalco/EHESS) ; Langage, langues et cultures d'Afrique noire (Llacan, CNRS/Inalco) ; Structure et dynamique des langues (Sedyl, CNRS/Inalco/IRD).

Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.