Tatoeba
Tatoeba | |
---|---|
Sammlung von Beispielsätzen | |
Sprachen |
345 (Stand: Oktober 2019) |
Artikel |
über 7,9 Millionen (Stand: Oktober 2019) |
Benutzer |
über 44.500 (Stand: Oktober 2019) |
Registrierung | nicht zur Benutzung, nur zur Mitarbeit erforderlich |
Online | 2006 |
http://tatoeba.org/deu |
Tatoeba ist ein Projekt, dessen Name aus dem Japanischen stammt und „zum Beispiel“ bedeutet.
Tatoeba besteht aus einem großen Bestand exemplarischer Sätze, die in nahezu alle vorhanden Sprachen übersetzt sind. Es funktioniert als vielsprachiges Übersetzungs-Wörterbuch, in dem man nicht die Übersetzung eines Wortes findet, sondern vollständige Sätze in authentischer Landessprache, in denen das gesuchte Wort vorkommt. Jeder registrierte Anwender kann hierbei sowohl Sätze hinzufügen als auch Sätze übersetzen. Der Textkorpus ist nicht fehlerfrei, so kann jeder Anwender Sätze in jeder Sprache übersetzen ganz gleich, ob er die Sprache beherrscht oder nicht. Die Satzeinträge werden nach und nach durch Tondateien ergänzt.
Die Textsammlung von Tatoeba basiert auf dem Korpus Tanaka, einer großen Sammlung von parallelen Sätzen in Japanisch und Englisch. Seit 2006 wurden unter Leitung von Trang Ho viele andere Sprachen hinzugefügt.
Struktur
Die Sätzesammlung ist wie ein Graph mit Knoten und Pfeilen strukturiert: Jeder Knoten repräsentiert einen Satz, und jeder Pfeil repräsentiert die Verbindung zwischen zwei Sätzen. Wenn zwei Sätze direkt verbunden sind, haben sie die gleiche Bedeutung.
Netzwerk
Das Netzwerk bietet eine Reihe von Möglichkeiten, Sätze zu suchen und zu bearbeiten. Jeder angemeldete Nutzer kann neue Sätze hinzufügen, übersetzen, kommentieren, mit Stichworten versehen und wenn nötig nachträglich bearbeiten. Die Beispielsätze werden in allen jeweils verfügbaren Sprachen untereinander angeordnet dargestellt.
Preise
Tatoeba erhielt im Dezember 2010 ein Stipendium von Mozilla Drumbeat.[1]
Einige Arbeiten an der Tatoeba-Infrastruktur wurden vom Google Summer of Code, 2014, gefördert.[2]
Im Mai 2018 erhielt das Projekt einen Zuschuss von 25.000 US-Dollar durch das Mozilla Open Source Support (MOSS) Programm[3].
Im August 2019 erhielt das Projekt einen Zuschuss von 15.000 US-Dollar durch das Mozilla Open Source Support (MOSS) Programm.[4]
Statistik
Ende Oktober 2019 waren 345 Sprachen vertreten. Von insgesamt über 7,9 Mio. Sätzen waren rund 1.236.000 auf Englisch und 312.000 auf Spanisch verfasst. Deutsch findet sich mit 481.000 Sätzen auf Rang 6.
Offline Verwendung
Tabulatorisch getrennte Daten von Tatoeba, die zum Import in Anki und ähnliche Software verwendet werden können, kann man herunterladen.
Weblinks
Einzelnachweise
- ↑ YOYODYNE – Where the future begins tomorrow. » Best Drumbeat Projects: Tatoeba – a free and open database of sentences. 2. Januar 2011, abgerufen am 31. Oktober 2019.
- ↑ Google Summer of Code 2014 Organization Association Tatoeba. Abgerufen am 31. Oktober 2019.
- ↑ Trang: MOSS award for Tatoeba. Abgerufen am 31. Oktober 2019.
- ↑ Trang: A second MOSS award. Abgerufen am 1. November 2019.