News Release 16-Jun-2022

Sprachliche Vielfalt und ihre Evolution erforschen

Linguisten und Informatiker schaffen gemeinsam eine umfassende lexikalische Datenbank der Sprachen der Welt

Max Planck Institute for Evolutionary Anthropology

image: Many languages in the world use words like “mama” or “papa” for “mother” and “father”. Languages with “mama” are colored in red, and languages with “father” are colored in blue. view more

Credit: © J.-M. List

Stimmt es, dass viele Sprachen der Welt für „Mutter“ und „Vater“ Wörter verwenden, die „Mama“ und „Papa“ ähneln? Wenn eine Sprache für „Arm“ und „Hand“ das gleiche Wort benutzt, verwendet sie dann auch nur ein einziges Wort für „Bein“ und „Fuß“? Und wie gelingt es Sprachen, mit relativ wenigen Wörtern so viele Bedeutungen auszudrücken? Ein interdisziplinäres Team von Linguisten, Informatikern und Psychologen hat eine umfangreiche öffentlich verfügbare Datenbank zusammengestellt, mit deren Hilfe diese und viele weitere Fragen computergestützt untersucht werden können.

„Als unsere Abteilung für Sprach- und Kulturevolution 2014 gegründet wurde, stellte ich mein Kollegium vor eine Herausforderung: Auf der Welt gibt es mehr als 7000 Sprachen. Wie wäre es, Datenbanken zu erstellen, mit deren Hilfe es uns gelingen kann, diese sprachliche Vielfalt so umfassend wie möglich zu dokumentieren“, sagt Max-Planck-Direktor Russell Gray. „Inspiriert hat uns Genbank – eine umfangreiche Datenbank mit genomischen Datensätzen aus aller Welt“, so Gray weiter. „Genbank war ein Wendepunkt. Die große Menge an frei verfügbaren Sequenzdaten hat die Art und Weise, wie wir biologische Vielfalt analysieren können, revolutioniert. Wir hoffen, dass Lexibank, die erste von mehreren linguistischen Datenbanken mit Datensätzen aus aller Welt, die wir derzeit zusammentragen, dazu beitragen wird, unser Wissen über die sprachliche Vielfalt auf eine ähnliche Weise zu revolutionieren.“

Neue Standards und neue Software

Lexibank enthält Daten in Form von standardisierten Wortlisten für mehr als 2000 Sprachvarietäten. „Die Arbeit an Lexibank ging mit dem Bestreben nach einheitlicheren Datenformaten in linguistischen Datenbanken einher. Somit dient Lexibank einerseits als groß angelegtes Beispiel für die Vorteile der Standardisierung und andererseits als Katalysator, um die Standardisierung linguistischer Datensätze weiter voranzutreiben“, erklärt Robert Forkel, der den computergestützten Teil der Datenerhebung leitete. „Wir haben uns dazu entschlossen, unsere eigenen Standards, die so genannten Cross-Linguistic Data Formats, zu schaffen, die wir inzwischen schon in einer Vielzahl von Projekten, an denen unsere Abteilung beteiligt ist, erfolgreich eingesetzt haben.“

Dabei werden die von dem Forschungsteam vorgeschlagenen neuen Standards von neuen Software-Tools begleitet, die die Arbeitsabläufe in der Linguistik erheblich erleichtern. „Wir haben neue computergestützte Arbeitsabläufe entwickelt, die es ermöglichen, bestehende Sprachdatensätze vergleichbar zu machen“, sagt Johann-Mattis List, der den praktischen Teil der Datenkuration leitete. „Mit diesen Arbeitsabläufen haben wir die Effizienz der Datenstandardisierung und -kuratierung drastisch erhöht.“

Identifizierung von Sprachevolutionsmustern

Neben der Erfassung und Bereitstellung von standardisierten Sprachdaten hat das Team neue computergestützte Methoden entwickelt, um Fragen zur Evolution sprachlicher Vielfalt zu beantworten. Wie diese Methoden in der Praxis eingesetzt werden können, veranschaulicht die aktuelle Publikation, in der Unterschiede und Gemeinsamkeiten von Sprachen in Bezug auf sechzig verschiedene Merkmale berechnet werden.

„Dank unserer standardisierten Darstellung von Sprachdaten ist es jetzt ganz einfach zu überprüfen, in wie vielen Sprachen Wörter wie ‚Mama‘ und ‚Papa‘ für ‚Mutter‘ und ‚Vater' stehen“, berichtet List. „Es stellt sich heraus, dass dieses Muster tatsächlich in vielen Sprachen der Welt und in sehr unterschiedlichen Regionen zu finden ist“, ergänzt Simon J. Greenhill, einer der Gründer des Lexibank-Projekts. „Nicht alle Sprachen, die diesem Muster folgen, sind eng miteinander verwandt. Das könnte auf eine unabhängige, parallele Evolution von Sprache hindeuten, so wie es der große Linguist Roman Jakobson bereits 1968 zur Diskussion stellte.“

Datenzuwachs und Entwicklung neuer Methoden

Mithilfe der neuen Datensammlung und der automatischen Berechnung von Sprachmerkmalen können nun viele weitere Fragen zur Vielfalt und Evolution von Sprache im Detail erforscht werden. „Natürlich endet die Analyse nicht mit den Beispielen, die wir in unserer Arbeit vorstellen“, sagt List. „Ganz im Gegenteil möchten wir Menschen aus der Linguistik, der Psychologie und den Evolutionswissenschaften dazu ermutigen, anknüpfend an unsere Beispiele, die Datenbank mit neuen Datensätzen zu ‚füttern‘ und neue Methoden zu entwickeln“, ergänzt Forkel.

Schon in ihrer aktuellen Publikation präsentieren die Autoren interessante Ergebnisse, die weiter erforscht werden sollten. „Als wir untersuchten, welche Sprachen mit einem einzigen Wort für 'Arm' und 'Hand' auskamen, stellten wir fest, dass diese Sprachen oft auch das gleiche Wort für 'Bein' und 'Fuß' verwenden", berichtet List. „Was wie ein dummer Zufall erscheint, zeigt doch, dass menschliche Sprache in ihrer Gesamtheit oft viel strukturierter ist als man denken könnte, wenn man eine Sprache isoliert betrachtet.“

Journal

Scientific Data

DOI

10.1038/s41597-022-01432-0

Article Title

Lexibank, A public repository of standardized wordlists with computed phonological and lexical features

Article Publication Date

16-Jun-2022

Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.