Tatoeba

aus Wikipedia, der freien Enzyklopädie
Tatoeba
Tatoeba Logo.svg
Sammlung von Beispielsätzen

Sprachen

345 (Stand: Oktober 2019)

Artikel

über 7,9 Millionen (Stand: Oktober 2019)

Benutzer

über 44.500 (Stand: Oktober 2019)

Registrierung nicht zur Benutzung, nur zur Mitarbeit erforderlich
Online 2006
http://tatoeba.org/deu

Tatoeba ist ein Projekt, dessen Name aus dem Japanischen stammt und „zum Beispiel“ bedeutet.

Tatoeba besteht aus einem großen Bestand exemplarischer Sätze, die in nahezu alle vorhanden Sprachen übersetzt sind. Es funktioniert als vielsprachiges Übersetzungs-Wörterbuch, in dem man nicht die Übersetzung eines Wortes findet, sondern vollständige Sätze in authentischer Landessprache, in denen das gesuchte Wort vorkommt. Jeder registrierte Anwender kann hierbei sowohl Sätze hinzufügen als auch Sätze übersetzen. Der Textkorpus ist nicht fehlerfrei, so kann jeder Anwender Sätze in jeder Sprache übersetzen ganz gleich, ob er die Sprache beherrscht oder nicht. Die Satzeinträge werden nach und nach durch Tondateien ergänzt.

Die Textsammlung von Tatoeba basiert auf dem Korpus Tanaka, einer großen Sammlung von parallelen Sätzen in Japanisch und Englisch. Seit 2006 wurden unter Leitung von Trang Ho viele andere Sprachen hinzugefügt.

Struktur

Grafische Struktur Jeder Knoten repräsentiert einen Satz, jeder Pfeil repräsentiert die Verbindung zwischen zwei Sätzen. Wenn zwei Sätze direkt verbunden sind, haben sie die gleiche Bedeutung.

Die Sätzesammlung ist wie ein Graph mit Knoten und Pfeilen strukturiert: Jeder Knoten repräsentiert einen Satz, und jeder Pfeil repräsentiert die Verbindung zwischen zwei Sätzen. Wenn zwei Sätze direkt verbunden sind, haben sie die gleiche Bedeutung.

Netzwerk

Das Netzwerk bietet eine Reihe von Möglichkeiten, Sätze zu suchen und zu bearbeiten. Jeder angemeldete Nutzer kann neue Sätze hinzufügen, übersetzen, kommentieren, mit Stichworten versehen und wenn nötig nachträglich bearbeiten. Die Beispielsätze werden in allen jeweils verfügbaren Sprachen untereinander angeordnet dargestellt.

Preise

Tatoeba erhielt im Dezember 2010 ein Stipendium von Mozilla Drumbeat.[1]

Einige Arbeiten an der Tatoeba-Infrastruktur wurden vom Google Summer of Code, 2014, gefördert.[2]

Im Mai 2018 erhielt das Projekt einen Zuschuss von 25.000 US-Dollar durch das Mozilla Open Source Support (MOSS) Programm[3].

Im August 2019 erhielt das Projekt einen Zuschuss von 15.000 US-Dollar durch das Mozilla Open Source Support (MOSS) Programm.[4]

Statistik

Ende Oktober 2019 waren 345 Sprachen vertreten. Von insgesamt über 7,9 Mio. Sätzen waren rund 1.236.000 auf Englisch und 312.000 auf Spanisch verfasst. Deutsch findet sich mit 481.000 Sätzen auf Rang 6.

Offline Verwendung

Tabulatorisch getrennte Daten von Tatoeba, die zum Import in Anki und ähnliche Software verwendet werden können, kann man herunterladen.

Weblinks

Einzelnachweise

  1. YOYODYNE – Where the future begins tomorrow. » Best Drumbeat Projects: Tatoeba – a free and open database of sentences. 2. Januar 2011, abgerufen am 31. Oktober 2019.
  2. Google Summer of Code 2014 Organization Association Tatoeba. Abgerufen am 31. Oktober 2019.
  3. Trang: MOSS award for Tatoeba. Abgerufen am 31. Oktober 2019.
  4. Trang: A second MOSS award. Abgerufen am 1. November 2019.