Automated Similarity Judgment Program

aus Wikipedia, der freien Enzyklopädie

Das Automated Similarity Judgment Program (ASJP, dt. Automatisiertes Ähnlichkeitsbeurteilungsprogramm), ist ein kollaboratives Projekt, das die Anwendung von computergesteuerten Techniken in der vergleichenden Sprachwissenschaft als Ansatz verfolgt. Das ASJP beruht auf einer frei zugänglichen Wortlisten-Datenbank (Open Access) und besteht aus Vokabellisten von 40 Grundwörtern. Mehr als die Hälfte der Sprachen der Welt ist bereits erfasst[1]; die Datenbank wird kontinuierlich ergänzt. Zusätzlich zu isolierten Sprachen und Sprachen, deren Zugehörigkeit zu bestimmten Sprachfamilien bereits erwiesen ist, enthält die Datenbank auch Pidgin-Sprachen, Kreolsprachen, Mischsprachen, und konstruierte Sprachen. Die Inhalte der Datenbank sind in einer eigenen, vereinfachten und standardisierten Schreibweise (ASJPcode) gespeichert.[2] Die Datenbank wurde bereits verwendet, um Zeitpunkte, an denen sich Sprachfamilien ausdifferenzierten, zu bestimmen. Die verwendete Methode ist verwandt mit der Glottochronologie, unterscheidet sich jedoch in einigen Aspekten.[3] Weiterhin wurden u. a. mit dem ASJP Untersuchungen zur Bestimmung von Urheimat durchgeführt[4], Lautmalerei untersucht,[5] und verschiedene phylogenetische Methoden verglichen[6].

Geschichte

Ursprüngliche Ziele

Das ASJP ist ursprünglich entwickelt worden, um die Ähnlichkeit von Wörtern mit gleicher Bedeutung in unterschiedlichen Sprachen objektiv festzustellen und automatisierte Klassifikationen von Sprachen basierend auf beobachteten lexikalischen Ähnlichkeiten zu erstellen. In der ersten ASJP-Publikation[2] wurden zwei semantisch gleiche Wörter in verglichenen Sprachen als ähnlich betrachtet, wenn sie mindestens zwei identische Laute teilten. Die Ähnlichkeit zwischen Sprachen wurde aufgrund des Anteils der Wörter in der gesamten Liste berechnet, die als ähnlich angesehen wurden. Diese Methode wurde mit einer Liste mit 100 Wörtern in 250 Sprachen aus diversen Sprachfamilien (z. B. Austroasiatisch, Indogermanisch, Maya, und Muskogee) erprobt.

Das ASJP Konsortium

Das ASJP-Konsortium wurde um 2008 gegründet. Das Ziel war es, ungefähr 25 professionelle Linguisten sowie andere Interessierte zusammenzubringen, die als freiwillige Transkribierer und/oder als Unterstützer des Projektes in anderen Formen arbeiten. Die treibende Kraft hinter der Gründung des Konsortiums war Cecil H. Brown. Søren Wichmann ist der Projektkurator im Tagesgeschäft. Ein drittes, zentrales Mitglied des Konsortiums ist Eric W. Holman, der einen Großteil der Software entwickelte.

Kürzere Wörterlisten

Die ursprünglich verwendeten Wortlisten basierte auf der Swadesh-Liste mit 100 Einträgen. Es konnte jedoch gezeigt werden, dass eine Teilmenge von 40 Wörtern aus dieser Liste genauso gute (wenn nicht leicht bessere) Ergebnisse für Sprachenklassifikationen liefert.[7] Seitdem werden in den verschiedenen Sprachen nur mehr 40 Wörter für die Liste.

Levenshtein-Distanz

In seinen Publikationen setzt das ASJP seit 2008 auf ein System für die Ähnlichkeitsbeurteilung, das auf Levenshtein-Distanzen (LD) basiert. Levenshtein-Distanzen sind definiert als die minimale Anzahl von Einfüge-, Lösch- und Ersetzungs-Operationen, die notwendig sind, um ein Wort als Zeichenkette in ein anderes umzuwandeln. Unterschiede in der Worterlänge werden durch Division der LD durch die Anzahl der Zeichen des längsten der verglichenen Wörter korrigiert. Daraus ergibt sich die Normalisierte LD (Englisch: Levenshtein Distance Normalized LDN). Eine dividierte LDN (Englisch: Levenshtein Distance Normalized Divided, LDND) zwischen zwei Sprachen ist die Division der durchschnittlichen LDN aller Wort-Paare mit der gleichen Bedeutung durch die durchschnittliche LDN aller Wort-Paare unterschiedlicher Bedeutungen. Diese zweite Normalisierung dient dazu, die Ergebnisse von Zufallstreffern zu bereinigen.[8]

Wörterliste

Das ASJP verwendet folgende Wörter für seine Wortlisten.[9] Die ASJP-Liste ähnelt der gekürzten Swadesh-Liste von Sergej Je. Jachontow, enthält jedoch einige Unterschiede.

Körperteile
  • Auge
  • Ohr
  • Nase
  • Zunge
  • Zahn
  • Hand
  • Knie
  • Blut
  • Knochen
  • Brust (der Frau)
  • Leber
  • Haut
Tiere und Pflanzen
  • Laus
  • Hund
  • Fisch
  • Horn (von Tieren)
  • Baum
  • Blatt
Menschen
  • Mensch
  • Name
Natur
  • Sonne
  • Stern
  • Wasser
  • Feuer
  • Stein
  • Pfad
  • Berg
  • Nacht
Verben und Adjektive
  • Trinken
  • Sterben
  • Sehen
  • Hören
  • Kommen
  • Neu
  • Voll
Ordnungszahlen und Pronomen
  • Eins
  • Zwei
  • Ich
  • Du
  • Wir

Phonemliste

ASJP-DB in der Version von 2016 nutzt die folgenden Symbole um Phoneme zu kodieren: p b f v m w 8 t d s z c n r l S Z C j T 5 y k g x N q X h 7 L 4 G ! i e E 3 a u o

Siehe auch

Weblinks

Einzelnachweise

  1. Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant, and Pilar Valenzuela. 2013. The ASJP Database (version 16). https://asjp.clld.org/
  2. a b Brown, Cecil H., Eric W. Holman, Søren Wichmann, and Viveka Velupillai. 2008. Automated classification of the world's languages: A description of the method and preliminary results. STUF – Language Typology and Universals 61.4: 285-308.
  3. Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. Automated dating of the world’s language families based on lexical similarity. Current Anthropology 52.6: 841-875.
  4. Wichmann, Søren, André Müller, and Viveka Velupillai. 2010. Homelands of the world’s language families: A quantitative approach. Diachronica 27.2: 247-276.
  5. Wichmann, Søren, Holman, Eric W., and Cecil H. Brown. 2010. Sound symbolism in basic vocabulary. Entropy 12.4: 844-858.
  6. Pompei, Simone, Vittorio Loreto, and Francesca Tria. 2011. On the accuracy of language trees. PLoS ONE 6: e20109.
  7. Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, and Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.
  8. Wichmann, Søren, Eric W. Holman, Dik Bakker, and Cecil H. Brown. 2010. Evaluating linguistic distance measures. Physica A 389: 3632-3639 (doi:10.1016/j.physa.2010.05.011).
  9. https://asjp.clld.org/static/Guidelines.pdf